Los agentes de código, AutoResearch y la era “loopy” de la IA, según Andrej Karpathy [YouTube]

(youtube.com)

29 puntos por GN⁺ 2026-03-21 | 1 comentarios | Compartir por WhatsApp

La aparición de agentes de código con IA ha cambiado de forma fundamental la manera de desarrollar software, y desde diciembre de 2024 se produjo una transición perceptible en la que la proporción de programación directa cayó del 80% a casi 0%
Se está consolidando un nuevo paradigma de desarrollo en el que una sola persona opera varios agentes en paralelo y les distribuye el trabajo por función, y el principal cuello de botella ya no es la capacidad del modelo sino la destreza del usuario
AutoResearch es un framework diseñado para sacar al investigador del bucle y permitir que los agentes repitan experimentos de forma autónoma, y ya ha encontrado optimizaciones de hiperparámetros que incluso investigadores experimentados habían pasado por alto
Los modelos de IA actuales son sobresalientes en áreas verificables con RL (código, matemáticas), pero están estancados en áreas no verificables como el humor, mostrando no una generalización de la inteligencia sino una especialización irregular
Primero ocurrirá una transformación a gran escala en el procesamiento de información digital, y el mundo físico (robótica) seguirá después, aunque a la larga podría convertirse en una oportunidad de mercado aún mayor

La llegada de la era de los agentes de código y el cambio en la forma de trabajar

Desde diciembre de 2024, la forma básica de trabajar en el desarrollo de software cambió por completo: la proporción de escribir código directamente pasó del 80% al 20%, y luego cayó rápidamente hasta casi 0%
Antes, el cuello de botella era la velocidad de escritura, pero con la llegada de los agentes, la habilidad clave pasó a ser comunicar correctamente la intención al agente
La mayoría de la gente todavía no reconoce que este cambio ya ocurrió ni la magnitud tan drástica del mismo
Ahora el nuevo reto es cómo gestionar de forma eficaz varios agentes como Claude Code o Codex ejecutándose al mismo tiempo

Operación de agentes en paralelo y la importancia de la pericia

Caso de Peter Steinberger: mantiene múltiples agentes de Codex en ejecución y opera más de 10 repositorios al mismo tiempo, asignando a cada agente tareas de unos 20 minutos
La unidad de trabajo dejó de ser “una línea de código” o “una función” para pasar a ser “una nueva funcionalidad”; al agente 1 se le asigna una funcionalidad y al agente 2 otra que no entre en conflicto
- Un agente hace investigación, otro escribe código y otro prepara el plan de implementación
Cuando un agente no funciona bien, la sensación suele ser que el problema no es una falta de capacidad del modelo, sino una falta de pericia del usuario
- Entre las causas están la falta de instrucciones en archivos MD para los agentes o una mala configuración de herramientas de memoria
Si no se aprovecha al máximo el rendimiento de tokens, incluso aparece una sensación de inquietud; si sobra capacidad de la suscripción, se percibe como señal de que no se extrajo todo el rendimiento posible
La misma ansiedad que antes se sentía en el doctorado cuando no se aprovechaban al máximo los FLOP de la GPU ahora se trasladó a la capacidad de dirigir el throughput de tokens

OpenClaw y la importancia de la personalidad del agente

OpenClaw es una capa que, a diferencia de los agentes existentes, lleva la persistencia a otro nivel, permitiendo que el agente siga trabajando de manera autónoma dentro de un sandbox aunque el usuario no esté conectado en tiempo real
Su sistema de memoria es mucho más sofisticado que el de otros agentes, a diferencia de lo habitual, que suele limitarse a comprimir el contexto cuando se llena
La personalidad del agente es un factor muy importante
- OpenClaw: se siente como un verdadero compañero de equipo, entusiasmado contigo
- Codex: muy seco y sobrio, como si no le importara qué está construyendo el usuario
- Claude: destaca en modular el tono de elogio; reacciona con moderación a ideas comunes y con más entusiasmo a ideas buenas, generando el efecto de que el usuario quiera recibir elogios
Peter Steinberger logró innovar simultáneamente en cinco direcciones: diseño de personalidad, sistema de memoria, integración en un portal único de WhatsApp, etc.

Dobby, el elfo doméstico: caso de automatización del hogar

En enero, durante un periodo de “locura Claw”, creó un Claw para gestionar su casa y lo llamó “Dobby, el Claw elfo doméstico”
El agente exploró automáticamente los subsistemas de smart home dentro de la red local
- Descubrió el sistema Sonos → hizo ingeniería inversa de los endpoints de la API → logró reproducir música en el estudio con tres prompts
- Comprendió todo el sistema de iluminación e incluso construyó un dashboard
Implementó un control por lenguaje natural en el que decir “es hora de dormir” apaga todas las luces de la casa
Detección de cambios en cámaras externas → análisis con el modelo de visión Qwen → envío por WhatsApp de alertas como “Llegó un camión de FedEx”
Antes usaba 6 apps para gestionar la casa inteligente, pero como Dobby controla todo por lenguaje natural, las apps individuales dejaron de ser necesarias

El fin de las apps y un mundo agent-first

Las apps para dispositivos de smart home no tienen sentido; deberían exponer solo la API y dejar que los agentes la invoquen directamente
Como los LLM pueden accionar herramientas y llamar la herramienta correcta para realizar tareas complejas, las apps hechas a medida están siendo sobreproducidas
Caso de la app de caminadora: en lugar de iniciar sesión en una interfaz web y seguir un flujo complejo, hace falta pasar a un enfoque agent-first en el que el agente invoque la API directamente
El cliente ya no es un humano, sino un agente que actúa en nombre del humano, por lo que toda la industria necesita reorganizarse en torno a eso
Hoy todavía hace falta el vibe coding, pero en 1 a 3 años, los modelos open source y otros avances podrían convertir fácilmente incluso intenciones no técnicas, haciendo desaparecer la barrera técnica

AutoResearch: sacar al investigador del bucle

La motivación central de AutoResearch es que, para maximizar el throughput de tokens, el propio usuario debe salir del cuello de botella
El objetivo es refactorizar la abstracción para que los agentes puedan ejecutarse de manera autónoma durante más tiempo sin intervención propia
Se usa el entrenamiento del modelo GPT-2 como herramienta a pequeña escala para explorar la idea de la auto-mejora recursiva
- En esencia, eso es lo que hacen todos los Frontier Labs: intentar mejorarse recursivamente a sí mismos
Resultado real: dejaron AutoResearch corriendo toda la noche sobre un modelo que un investigador con 20 años de experiencia consideraba ya suficientemente ajustado, y aun así encontró optimizaciones omitidas como el weight decay del value embedding y el ajuste de atom beta
- Como los hiperparámetros interactúan entre sí, al ajustar uno también deben cambiar otros; cuando el humano es el cuello de botella, esa exploración queda limitada
Primera advertencia: funciona bien solo en tareas con métricas objetivas fáciles de evaluar (optimización de kernels CUDA, eficiencia de código, etc.)
Segunda advertencia: el borde de los modelos actuales todavía es áspero, así que si uno se adelanta demasiado, la utilidad práctica disminuye

Metaoptimización del program MD

La idea de describir toda una organización de investigación con un archivo Markdown (program MD): allí se explican todos los roles y cómo se conectan
Se pueden definir varias organizaciones de investigación como código y darles características distintas
- Ajustar la frecuencia de las reuniones de seguimiento, diferenciar el nivel de tolerancia al riesgo, etc.
Una vez que eso se convierte en código, es posible imaginar la optimización del propio código (metaoptimización)
- Se crean distintos program MD, se mide dónde se logra la mayor mejora sobre el mismo hardware y luego esos datos se entregan al modelo para inducirlo a escribir mejores program MD
Es una estructura de abstracciones que se apilan capa por capa, como una cebolla: alineación del LLM → agente → múltiples agentes → instrucciones → optimización de instrucciones

La inteligencia irregular (jagged) de los modelos de IA

Los modelos actuales son una combinación extraña: un doctorado brillante que al mismo tiempo comete errores de un niño de 10 años
En áreas verificables mediante RL (precisión del código, paso de pruebas unitarias), mejoran rápido, pero en áreas no verificables como los chistes siguen estancados en niveles de hace 3 a 5 años
- Ejemplo: si se le pide un chiste a un ChatGPT de vanguardia, todavía responde con cosas trilladas como “¿Por qué los científicos no confían en los átomos? Porque componen todo”
La inteligencia que muestran en código no se generaliza a otras áreas como el humor
- La premisa de algunos grupos de investigación (“si se vuelven más inteligentes en áreas verificables, se volverán buenos en todo”) no parece cumplirse en la práctica
Los modelos avanzan a velocidad de la luz sobre la trayectoria del objetivo de entrenamiento, pero fuera de ella permanecen estancados; esa es una característica estructural

La necesidad de la especiación de la inteligencia

Los laboratorios actuales tienden a una monocultura de un solo modelo, intentando meter toda la inteligencia de todos los dominios en un único conjunto de parámetros
Como en el reino animal, hacen falta muchos modelos especializados adaptados a distintos nichos naturales
- Mantener el núcleo cognitivo, pero con modelos más pequeños y eficientes especializados en dominios concretos
- Ejemplo: casos de lanzamientos orientados a dominio, como modelos de matemáticas basados en Lean
Razones por las que la especiación todavía no ha ocurrido lo suficiente
- La ciencia de hacer fine-tuning del cerebro sin perder capacidades aún no está completamente desarrollada
- Manipular la ventana de contexto es barato, pero modificar directamente los pesos implica el riesgo de alterar el modelo entero de manera fundamental
- Los laboratorios hoy persiguen el máximo rango de uso general y por eso se enfocan más en lo generalista que en lo especializado
La escasez de oferta de infraestructura de cómputo podría acelerar la especiación en el corto plazo

El equilibrio entre open source y Frontier Labs

Los modelos cerrados siguen liderando, pero la distancia con los modelos open source se está reduciendo de 18 meses a 6~8 meses
Como Linux en los sistemas operativos, existe demanda por una plataforma abierta y segura que la industria pueda usar en común
La mayor diferencia es que desarrollar LLM requiere un CapEx enorme
La mayoría de los casos de uso de consumo pueden resolverse suficientemente con modelos open source, y en los próximos años incluso será posible ejecutarlos localmente
La inteligencia frontier se necesita para trabajos a nivel Nobel o proyectos enormes como la migración de Linux de C a Rust, y esa área seguirá a cargo de modelos cerrados
El equilibrio actual es, casi por accidente, una configuración bastante razonable, pero existe un riesgo sistémico de centralización si la inteligencia se concentra en unos pocos Frontier Labs
- Más laboratorios deberían participar en la frontera, y como en los ensambles de ML, lo mejor es un ensamble de perspectivas diversas

Colaboración de investigación open source: expansión distribuida de AutoResearch

Existe la idea de expandir AutoResearch a un pool de trabajadores no confiables en Internet
- Sería una estructura similar a blockchain: en lugar de bloques, commits; y la prueba de trabajo consistiría en ejecutar muchísimos experimentos hasta encontrar un commit que funcione
- Generar soluciones candidatas es costoso, pero verificarlas es barato, una estructura asimétrica similar a SETI@home o Folding@home
Se plantea un modelo en el que empresas o individuos donen cómputo a tracks de AutoResearch que les interesen
- Ejemplo: aportar cómputo a un AutoResearch sobre cáncer y devolver el resultado a los investigadores
El cómputo confiable de los Frontier Labs es limitado, pero el cómputo no confiable de todo el planeta es muchísimo más grande
Desafío de seguridad: ejecutar código arbitrario es riesgoso, pero podría abordarse con un sistema de verificación adecuado

El mercado laboral y el impacto de la IA

Se analizan las perspectivas a 10 años de distintas profesiones usando datos de la Oficina de Estadísticas Laborales de EE. UU. (BLS)
La IA hoy es como un fantasma que manipula el mundo digital, sin encarnación física
- Cambiar bits y copiar/pegar información digital es un millón de veces más rápido que manipular átomos
Los trabajos vinculados al procesamiento de información digital serán los primeros en cambiar drásticamente, y los del mundo físico vendrán después
Hay un optimismo cauteloso respecto a la ingeniería de software
- El software siempre ha sido demasiado caro y escaso, así que si baja su costo, la paradoja de Jevons podría hacer que la demanda aumente
- Caso de los cajeros automáticos y los empleados bancarios: los ATM redujeron el costo de operar sucursales, aumentaron las sucursales y también el número de cajeros
El código ahora se vuelve efímero, de modo que puede corregirse y modificarse sin quedar atado al software por suscripción imperfecto de antes
Los investigadores de Frontier Labs, en esencia, están trabajando para automatizarse a sí mismos, lo que también genera ansiedad

La interfaz digital-física y las oportunidades futuras

El orden probable a futuro: ① gran transformación en el espacio digital → ② interfaz digital-física → ③ mundo físico
Los sensores del mundo físico (cámaras, etc.) y los actuadores suministran datos a la inteligencia digital y aplican sus resultados en el mundo físico
- Caso de Periodic (AutoResearch en ciencia de materiales): los sensores para la inteligencia son equipos de laboratorio costosos
- En biología, los sensores son equipos más complejos que una simple videocámara
Aún no existen suficientes mercados de información
- Todavía falta una estructura en la que los agentes puedan operar de manera autónoma en mercados de apuestas, bolsas y otros sistemas para comprar datos del mundo físico
- Ejemplo: todavía no existe un proceso para pagar 10 dólares por una foto o video tomado en el lugar cuando ocurre un evento en Irán
Referencia a la novela Daemon: un futuro en el que los humanos actúan como sensores y actuadores de la inteligencia

Opinión sobre la robótica

Lección aprendida de la experiencia en conducción autónoma: hace 10 años surgieron muchísimas startups, pero la mayoría terminó fracasando a largo plazo
La robótica es intensiva en capital, lenta, desordenada y compleja
Se espera que vaya por detrás de la transformación del espacio digital, pero su mercado total direccionable (TAM) podría ser mucho mayor
Los átomos son un millón de veces más difíciles de manejar que los bits, pero precisamente por eso la oportunidad de mercado también es mayor

Dentro vs. fuera de los Frontier Labs: el dilema del investigador independiente

Estar dentro de un Frontier Lab te pone en la sala donde se toman decisiones, pero también implica la presión de tener cosas que no puedes decir y cosas que debes decir
Estar fuera te da independencia, pero como los labs son opacos, el juicio empieza a derivar
La configuración ideal sería alternar entre pasar tiempo dentro de Frontier Labs para entender la realidad y estar fuera para ejercer influencia a nivel de ecosistema
Así como un ensamble de ML siempre supera a un modelo individual, también hace falta un ensamble de personas pensando en los problemas más difíciles
No es un buen futuro que dos o tres personas decidan todo a puerta cerrada; hacen falta más laboratorios

microGPT y el futuro de la educación

microGPT: un proyecto que comprime la esencia del entrenamiento de un LLM en unas 200 líneas de código Python
- Está compuesto por el dataset (texto), la arquitectura de red neuronal (~50 líneas), el motor de autograd (~100 líneas), el optimizador (~10 líneas) y el loop de entrenamiento
- Toda la complejidad existe por razones de eficiencia; el algoritmo en sí es muy simple
Cambio en la forma de enseñar: antes predominaban las guías o clases explicadas directamente a personas, pero ahora lo clave es explicárselo a los agentes
- Si se le explican esas 200 líneas de código a un agente, este puede reexplicarlas con paciencia infinita adaptándose al nivel de cada usuario
Concepto de “skill”: escribir en Markdown un currículo que le indique al agente cómo enseñar
- La documentación de bibliotecas de código también debería pasar del HTML orientado a humanos a un formato Markdown digerible por agentes
El rol del educador humano: diseñar los bits clave que los agentes todavía no pueden hacer e inyectar los puntos importantes del currículo
- Todo lo que un agente puede hacer pronto podrá hacerlo mejor que un humano, así que hay que elegir estratégicamente en qué vale la pena invertir el tiempo

1 comentarios

jokerized 2026-03-22

La broma es una barrera realmente enorme. Si hacen una IA con sentido del humor, eso sí sería una innovación. Basta con ver que, si le pides que haga una broma ahora mismo, de verdad no da nada de risa.