Karpathy reduce 11% el tiempo de entrenamiento de GPT-2 al ajustar nanochat automáticamente durante 2 días con Autoresearch

(x.com/karpathy)

17 puntos por xguru 2026-03-11 | 3 comentarios | Compartir por WhatsApp

El agente Autoresearch, presentado hace 3 días, intentó de forma autónoma unos 700 cambios durante aproximadamente 2 días sobre un modelo con depth=12, y encontró unas 20 modificaciones válidas que mejoran la pérdida de validación (validation loss)
Todas las modificaciones encontradas son aditivas (additive) y se transfieren tal cual a un modelo más grande con depth=24, reduciendo en la tabla de liderazgo el "Time to GPT-2" de 2.02 horas a 1.80 horas, aproximadamente un 11% menos
Hasta ahora, durante 20 años se ha llevado a cabo un proceso de optimización manual e iterativa que consistía en generar ideas → implementarlas → comprobar la pérdida de validación → consultar artículos, etc.
Esta vez, el agente ejecutó de punta a punta todo el flujo de trabajo, analizando la secuencia de resultados experimentales y, con base en ello, planificando de forma autónoma el siguiente experimento
Ya se hizo commit de los resultados de la "ronda 1" y se planea iniciar la "ronda 2"; además, se investiga en paralelo un método de colaboración entre múltiples agentes (collaboration) para procesamiento paralelo (AgentHub)
Aún no está al nivel de una investigación revolucionaria (ground-breaking research), pero la acumulación de mejoras reales que el ajuste manual había pasado por alto permitió lograr una mejora sustancial del rendimiento
A gran escala es mucho más complejo que ajustar un solo train.py, pero en esencia sigue siendo un problema de ingeniería, por lo que puede resolverse
Con un enjambre de agentes (agent swarm), se ajustarían primero modelos pequeños y luego las ideas prometedoras se irían promoviendo gradualmente a escalas mayores, en una dirección que probablemente todos los laboratorios de frontera de LLM terminarán adoptando
Cualquier métrica que pueda evaluarse eficientemente (o que tenga métricas proxy) puede convertirse en objetivo de esta optimización automática

3 comentarios

hanje3765 2026-03-11

Revisé por encima los conceptos de Autoresearch y AgentHub,
pero me dio la impresión de que, si se combinan los dos, eso sería de verdad la academia y los institutos de investigación.
Los institutos publican resultados de investigación en conferencias, incorporan el feedback y luego nuevos institutos investigan a partir de eso, y me pareció algo parecido a una forma expandida de aprendizaje por refuerzo.
RL no se puede explicar, pero sentí que lo realmente innovador es que, si se expande de esa manera, cualquier cosa podría volverse explicable.
Dicen que Karpathy contribuyó al diseño del FSD de Tesla, así que también pensé si habrá tomado ese concepto de ahí y lo habrá llevado al campo de la investigación.
En fin, me parece una de esas personas a las que dan ganas de seguir observando.

sea715 2026-03-11

Sí, justo por eso pienso que, visto de cierta manera, este podría ser el último obstáculo antes de que llegue la AGI.

xguru 2026-03-11

Parece que vive una vida distinta jaja

Karpathy reduce 11% el tiempo de entrenamiento de GPT-2 al ajustar nanochat automáticamente durante 2 días con Autoresearch

Lecturas relacionadas

3 comentarios