IA que aprende más allá de los juegos y hasta en el mundo real: el reto de John Carmack con el aprendizaje por refuerzo basado en la realidad

(twitter.com/ID_AA_Carmack)

17 puntos por GN⁺ 2025-05-24 | 1 comentarios | Compartir por WhatsApp

Resumen de las notas preparatorias y las diapositivas de la "presentación Upper Bound 2025" de John Carmack
John Carmack, tras pasar por Id Software, Oculus y Keen Technologies, actualmente está enfocado en la investigación de AGI basada en aprendizaje por refuerzo
Evita los LLM y le interesa el aprendizaje continuo y eficiente que interactúa con el entorno y aprende como los animales
Construyó un sistema físico de RL que aprende a partir de cámara en tiempo real y entrada de joystick, basado en los juegos clásicos de Atari
Presenta de forma amplia los retos técnicos que un sistema de RL debe resolver para parecerse más al mundo real, como velocidad, latencia, aprendizaje continuo y prevención del olvido
Comparte observaciones agudas basadas en su experiencia sobre arquitecturas CNN, representación de recompensas y estrategias de exploración, y cuestiona prácticas establecidas

Diapositivas: https://docs.google.com/presentation/d/…
Notas preparatorias: https://docs.google.com/document/d/…

Antecedentes rápidos

Como fundador de Id Software, Quake impulsó el avance de las GPU e influyó indirectamente en el campo de la IA
En Armadillo Aerospace realizó durante 10 años investigación sobre cohetes de despegue y aterrizaje vertical
En Oculus sentó las bases de la tecnología moderna de VR
Fundó Keen Technologies y ahora se dedica a la investigación en IA centrada en aprendizaje por refuerzo
Investiga junto con Richard Sutton y comparte su filosofía sobre el aprendizaje por refuerzo

Hacia donde pensaba que iba

No LLMs

Los LLM son “conocimiento sin aprendizaje”, así que su filosofía es distinta del aprendizaje basado en interacción que él busca
Sigue abierta la posibilidad de que los LLM reemplacen al RL, pero le resulta más atractiva la idea de aprender del entorno como los animales

Juegos

Gracias a su larga experiencia desarrollando juegos, usa los juegos como entorno experimental
Como en la investigación de Atari de DeepMind, explora si es posible aprender solo con entrada basada en píxeles
Sin embargo, la enorme cantidad de frames de entrenamiento y los problemas de eficiencia siguen siendo retos
El aprendizaje multitararea, en línea y eficiente sigue sin resolverse

Video

Al principio consideró el aprendizaje pasivo a partir de video, como ver TV, pero decidió centrarse en el aprendizaje dentro de juegos

Tropiezos

Empezó demasiado a bajo nivel (C++ CUDA) y al cambiar a PyTorch aceleró la velocidad de experimentación
En lugar de Atari, comenzó con Sega Master System, pero cambió por la falta de material comparativo
El aprendizaje basado en video quedó en pausa, porque el aprendizaje dentro de juegos ya ofrece suficientes desafíos

Asentándose con Atari

La diversidad de los juegos comerciales tiene la ventaja de reducir sesgos en la investigación
Recomienda usar ALE directamente; los wrappers como Gym pueden causar problemas
Aunque los modelos más recientes ya obtienen puntajes altos en la mayoría de los juegos, es más importante el aprendizaje eficiente en datos, como en “Atari 100k”
El comportamiento determinista del entorno debe corregirse con medidas como introducir sticky actions

La realidad no es un juego por turnos

El mundo real no espera al agente, así que hay que considerar procesamiento asíncrono y latencia
Fracasar al aprender en un solo entorno sugiere problemas del algoritmo mismo
Velocidad: se necesitan políticas que puedan evaluarse a gran velocidad, por ejemplo con CUDA graph
Latencia: la mayoría de los algoritmos de RL son frágiles ante la latencia, así que hace falta una arquitectura que incorpore el retraso en la aplicación de la política

Atari físico

Construyó un sistema de aprendizaje de Atari en entorno físico
El agente de RL funciona en tiempo real con un joystick real y una cámara que observa la pantalla
Al probar varios juegos, toma en cuenta problemas del mundo real como reconocimiento del puntaje, retraso en la acción y errores de control
El movimiento del joystick es inestable y el reconocimiento del puntaje es lo más complicado
Algunos juegos se excluyen porque el puntaje no se ve con claridad

Recompensas escasas / Curiosidad

El RL es débil en entornos con recompensas escasas, así que aprovecha recompensas intrínsecas y curiosidad artificial
También explora si el puntaje del juego puede usarse directamente como recompensa
Intenta reproducir patrones de comportamiento humano como cambiar entre juegos y mantener el interés por juegos nuevos

Aprendizaje secuencial multitararea

El olvido catastrófico en entornos de aprendizaje continuo sigue siendo un problema serio
Las personas recuerdan habilidades antiguas, pero los modelos actuales sufren fuertes caídas de rendimiento al volver a juegos previos
Intenta mejorar esto con preservación de memoria, ajuste de tasa de aprendizaje y sparsity de pesos
Usar Task ID se considera hacer trampa, por lo que la transición debe hacerse de forma implícita

Transfer learning

Aprender mucho en ciertos juegos debería permitir aprender juegos nuevos más rápido
El reto Sonic de OpenAI terminó, al final, volviendo a aprender from scratch
En GATO y otros casos aparece transferencia negativa
Puede que haga falta la estrategia de “aprender lento para aprender rápido”
Propone un nuevo benchmark: evaluar puntajes mientras se repiten varios juegos de manera secuencial

Plasticidad vs. generalización

La generalización consiste en ignorar, mientras que la plasticidad reconoce patrones nuevos, y ambas pueden entrar en conflicto
La generalización tiene una base teórica débil, más allá de cosas como el inductive bias de las CNN
La función de valor del aprendizaje por refuerzo es un producto de la generalización y es extremadamente sensible

Exploración

Los límites de elegir acciones aleatorias: un solo error puede decidir la supervivencia
Prueba enfoques como estructurar el espacio de acciones y políticas basadas en confidence
También hay que pensar las acciones en unidades de tiempo; aprender a 60 fps es muy difícil

Recurrencia vs. frame stacks

En Atari, frame stack funciona bien, pero las estructuras recurrentes se parecen más al cerebro
Los Transformer son fuertes para aprendizaje por lotes, pero el aprendizaje recurrente en línea general sigue incompleto

Aprendizaje centrado en aproximación de funciones

Las NN realizan al mismo tiempo estimación de valor, generalización, promedio probabilístico y mejora de política
Todas las actualizaciones de pesos afectan todos los valores de salida
La combinación de inicialización, función de activación y optimizador tiene un impacto crítico en el rendimiento

Representación del valor

El reward clamping del DQN clásico sigue siendo útil para estabilizar el aprendizaje
Existen varios enfoques, como representación categórica, uso de MSE y compresión de valor de MuZero
Cada juego tiene un rango de puntaje distinto, lo que causa problemas en el aprendizaje multitararea

Redes convolucionales

Las CNN siguen siendo la estructura base del RL
Las redes grandes de imagen rinden peor en RL, como ConvNeXT
Experimenta con cambios en la estructura de kernels, compartición de parámetros e Isotropic CNN
Busca un flujo de información eficiente con ideas como DenseNet y Dilated CNN
Intenta mejorar las CNN de forma similar a estructuras biológicas

1 comentarios

GN⁺ 2025-05-24

Opiniones en Hacker News

Cada vez que veo una charla o leo un texto de Carmack, quiero recalcar que siempre resulta una experiencia interesante. En estas notas también impresiona la forma en que documenta con tanto cuidado su proceso de pensamiento como ingeniero. Me generó curiosidad la parte donde se enfoca en el aprendizaje en tiempo real como dirección de investigación. Entiendo que Carmack está llevando a cabo online learning en tiempo real. Es un reto interesante donde puede aprovechar demos llamativos y su experiencia en optimización, pero viendo las lecciones recientes y la dirección de la investigación, me parece que sin recursos de cómputo capaces de permitir inferencia y aprendizaje en tiempo real, los resultados podrían topar con límites. El cerebro es el único ejemplo de resolver juegos de Atari, y ni siquiera la capacidad de cómputo del cerebro humano se ha calculado con claridad. En ese contexto, me pregunto genuinamente si no sería mejor enfocarse en la eficiencia del aprendizaje en lugar de imponer restricciones de tiempo real. Claro que hay mucho valor en trabajar dentro de restricciones, pero también existen ejemplos como la araña saltarina, que resuelve problemas complejos con 100 mil neuronas, así que es difícil predecirlo
- Cuando Carmack hacía investigación temprana de gráficos 3D y renderizado en tiempo real a inicios de los 90, probablemente los expertos del mundo offline basado en workstations pensaban algo parecido. La mayor fortaleza de Carmack siempre ha sido sacar resultados extremos dentro de recursos limitados (id Software, Oculus, Armadillo Aerospace, etc.). Da la impresión de que cuando queda atado a organizaciones grandes o a tecnología existente, su rendimiento incluso baja (pienso que por eso dejó Bethesda-id y Meta). Entiendo el estilo de Carmack de enfocarse en tiempo real, y no creo que le guste demasiado este boom actual de la IA que solo empuja con más poder de cómputo. Qué bueno que no esté gastando dinero de inversionistas en entrenar LLMs o cosas así. En el escenario ideal, ojalá logre innovar como antes, junto con grandes colegas, popularizando tecnología de punta para el público masivo (por ejemplo, como pasó con los gráficos 3D)
- Citando una frase de las notas de la presentación: si alguien cree que pronto llegará una AGI con cuerpo físico, propone hacer una verificación simple: darle un joystick a su humanoide bailarín y ponerlo a aprender un videojuego que nunca haya visto en su vida
- Quiero enfatizar que humanos y animales tienen enormes capacidades innatas y conocimiento previo, por lo que están estructurados para aprender cosas nuevas con mucha más facilidad. No es tanto una diferencia de capacidad de cómputo, sino que el punto de partida del aprendizaje ya es distinto
- Sobre la opinión de que no está claro cuál es la capacidad de cómputo del cerebro humano: en realidad, si se mide la velocidad de transmisión de señales entre neuronas, hay un límite superior en la cantidad de neuronas conectadas en serie (unas 100 etapas), y a partir de eso se puede inferir que el procesamiento cognitivo humano quizá no sea tan complejo como parece. Claro, hay mucho paralelismo y muchos bucles de retroalimentación, pero al final, si se descubre el algoritmo de la AGI, creo que podría aparecer una versión “mini” capaz de correr en tiempo real sobre hardware común de 2025
Colección de enlaces directos relacionados:
- Slides de la presentación
- Documento de texto
Quiero compartir una respuesta interesante de alguien de OpenAI: enlace a X
- En realidad me parece una reacción poco interesante. Esa actitud ambigua de ignorar opiniones externas es algo típico que nace de inseguridad académica. No da explicaciones ni fundamentos concretos, así que no aporta a la discusión. Si es “alguien de OpenAI” contra “John Carmack y Richard Sutton”, está claro con quién me quedo
- Carmack respondió directamente a esa publicación: respuesta de Carmack
- Algunas personas están evaluando esto viendo todo el hilo de Twitter, mientras que quienes no han iniciado sesión solo ven el primer tuit, por lo que da la impresión de un simple desdén
- Es curioso que diga “aprendí cierta lección” y aun así no diga cuál fue esa lección
- Al ver el tuit que dice "they will learn the same lesson I did", me dieron ganas de hacer el chiste de “¿quiere decir que no hay que confiar en Altman?”
Me emocionó mucho enterarme de que Carmack decidió enfocarse en IA. Estoy esperando a que suban el video, pero por las slides parece que hizo un sistema capaz de jugar juegos de Atari. Me parece un proyecto divertido, aunque tengo curiosidad por saber si saldrán otros papers o resultados
- Los juegos de Atari se usan ampliamente como benchmark estándar en investigación de RL (aprendizaje por refuerzo). Material de referencia: Arcade Learning Environment. El objetivo es desarrollar algoritmos que puedan generalizar a distintas tareas
- Ya hay muchos agentes capaces de pasarse juegos de Atari o lograr puntajes altos, pero sigue siendo un campo al que le falta mucho camino. En mi tesis de maestría investigué métodos para aprender con poca interacción, y si eso se aplica a robots reales, podría evitar que un robot tenga que pasar cientos de años caminando y cayéndose para aprender comportamientos. Hay pocos trabajos que estudien una generalización de nivel más alto: aprender varios videojuegos y además captar intuitivamente cómo aprender juegos nuevos
- El objetivo de este proyecto no es simplemente “pasarse” juegos de Atari, sino desarrollar una metodología general que pueda aplicarse a juegos más complejos o al mundo físico. Pero desde el punto de vista de los insights de investigación, creo que en esta etapa sigue siendo más eficiente modificar el entorno de Atari para probar cosas como el tiempo real, antes que introducir juegos más complejos
- Está buenísimo que lo vaya a publicar como open source. Que juegue en tiempo real con un controlador físico y una cámara sobre la GPU de una laptop se siente fresco, pero no sé si eso por sí solo sea revolucionario. Si realmente supera a la investigación existente en eficiencia de muestra o generalización, entonces sí sería sorprendente
- Mi deseo es simplemente que los NPC de los juegos se vuelvan más inteligentes
Como aparece al inicio de las slides, me queda la duda de cómo habría sido hacer esta investigación en un entorno de VR. Si alguien tiene la capacidad de implementar bien en VR cosas como filtros de cámara tipo JPEG, simulación física, ruido e incluso entornos de simulación robótica, ese sería Carmack. Usar robots reales es un cuello de botella enorme en términos de tiempo de entrenamiento
Esto me hace pensar por qué la AGI tendría que tener necesariamente un cuerpo físico, y por qué cuando imaginamos una inteligencia superior queremos que maneje nuestros autos o limpie nuestra casa. Más bien, un escenario como el de la novela ‘Hyperion’ de Dan Simmons, donde la AGI desaparece hacia la nube y en gran medida ignora a los humanos, parece más realista
- Tampoco tendría que ser para siempre; los humanos mismos, si pudieran deshacerse del cuerpo, probablemente lo harían en cualquier momento. Quedar atrapado permanentemente en una interfaz física tiene desventajas
- Creo que en la ciencia ficción se menciona mucho también por la idea de “evitar que la AGI pueda presionar el botón de apagado de mi cuerpo”
Para discutir AGI, siento que ni siquiera tenemos claro qué es exactamente un “concepto”. Aún no entendemos qué es ese proceso mental por el cual algo aprendido en un área se reutiliza en otra, ni cómo el cerebro combina ideas y abstrae
- Cuando las cosas aparecen repetidamente, les ponemos nombre, y los conceptos son patrones recurrentes de pensamiento. La abstracción, las relaciones y las metáforas son herramientas para trasladar patrones entre dominios
Como ejemplo de experimento mental, si la AGI de OpenAI realmente estuviera tan cerca, valdría la pena preguntar por qué están desperdiciando tiempo y dinero comprando la startup de hardware de Ive. Podrían lanzarse a la robótica, o si de verdad tuvieran la mejor AGI, innumerables empresas harían fila para licenciar hardware y software, y eso por sí solo generaría ingresos infinitos
- La AGI por sí sola no basta. Aunque metas una AGI en la interfaz de ChatGPT, para afectar el mundo real de verdad esa AGI tendría que estar “en todas partes”
- Si una empresa estuviera cerca de desarrollar AGI, también es muy posible que ocultara información deliberadamente para evitar regulación del gobierno o del ejército. Adelantarse con AGI implica mucho riesgo
- Quiero plantear también la dirección de que la AGI podría incluso encargarse del diseño de productos
Creo que la línea de investigación que eligió Carmack es correcta. Hay que ir más allá de seguir entrenando solo con lenguaje. La IA necesita fisicalidad
- En realidad, entrenar IA en serio con datos diversos más allá del lenguaje ya viene ocurriendo desde hace varios años. Los modelos frontier más recientes se entrenan de forma multimodal dentro de un mismo modelo con texto, audio, video e imágenes (Gemini, GPT-4o, Grok 3, Claude 3, Llama 4, etc.). Todas las entradas se tokenizan y se procesan dentro de un espacio de embeddings compartido
- Desde esa perspectiva de que la IA necesita fisicalidad, resulta interesante que el propio Carmack antes enfatizara que los entornos simulados eran más adecuados para desarrollar IA y que los entornos físicos eran poco eficientes en la práctica
- Nvidia también comparte esa opinión. Jim Fan habló sobre la “prueba de Turing física” y el futuro de la embodied AI. Video de la charla de Jim Fan. Ahí también subraya que se necesitan enormes recursos de cómputo para ejecutar entornos de simulación sólidos
La expresión "me preocupaba porque soy nuevo en la comunidad de investigación" parece insinuar la posibilidad de enviar un paper
- Está dejando claro que este proyecto no es una empresa de producto, sino un intento orientado a la investigación

IA que aprende más allá de los juegos y hasta en el mundo real: el reto de John Carmack con el aprendizaje por refuerzo basado en la realidad

Antecedentes rápidos

Hacia donde pensaba que iba

No LLMs

Juegos

Video

Tropiezos

Asentándose con Atari

La realidad no es un juego por turnos

Atari físico

Recompensas escasas / Curiosidad

Aprendizaje secuencial multitararea

Transfer learning

Plasticidad vs. generalización

Exploración

Recurrencia vs. frame stacks

Aprendizaje centrado en aproximación de funciones

Representación del valor

Redes convolucionales

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News