17 puntos por GN⁺ 2025-05-24 | 1 comentarios | Compartir por WhatsApp
  • Resumen de las notas preparatorias y las diapositivas de la "presentación Upper Bound 2025" de John Carmack
  • John Carmack, tras pasar por Id Software, Oculus y Keen Technologies, actualmente está enfocado en la investigación de AGI basada en aprendizaje por refuerzo
  • Evita los LLM y le interesa el aprendizaje continuo y eficiente que interactúa con el entorno y aprende como los animales
  • Construyó un sistema físico de RL que aprende a partir de cámara en tiempo real y entrada de joystick, basado en los juegos clásicos de Atari
  • Presenta de forma amplia los retos técnicos que un sistema de RL debe resolver para parecerse más al mundo real, como velocidad, latencia, aprendizaje continuo y prevención del olvido
  • Comparte observaciones agudas basadas en su experiencia sobre arquitecturas CNN, representación de recompensas y estrategias de exploración, y cuestiona prácticas establecidas

Antecedentes rápidos

  • Como fundador de Id Software, Quake impulsó el avance de las GPU e influyó indirectamente en el campo de la IA
  • En Armadillo Aerospace realizó durante 10 años investigación sobre cohetes de despegue y aterrizaje vertical
  • En Oculus sentó las bases de la tecnología moderna de VR
  • Fundó Keen Technologies y ahora se dedica a la investigación en IA centrada en aprendizaje por refuerzo
  • Investiga junto con Richard Sutton y comparte su filosofía sobre el aprendizaje por refuerzo

Hacia donde pensaba que iba

No LLMs

  • Los LLM son “conocimiento sin aprendizaje”, así que su filosofía es distinta del aprendizaje basado en interacción que él busca
  • Sigue abierta la posibilidad de que los LLM reemplacen al RL, pero le resulta más atractiva la idea de aprender del entorno como los animales

Juegos

  • Gracias a su larga experiencia desarrollando juegos, usa los juegos como entorno experimental
  • Como en la investigación de Atari de DeepMind, explora si es posible aprender solo con entrada basada en píxeles
  • Sin embargo, la enorme cantidad de frames de entrenamiento y los problemas de eficiencia siguen siendo retos
  • El aprendizaje multitararea, en línea y eficiente sigue sin resolverse

Video

  • Al principio consideró el aprendizaje pasivo a partir de video, como ver TV, pero decidió centrarse en el aprendizaje dentro de juegos

Tropiezos

  • Empezó demasiado a bajo nivel (C++ CUDA) y al cambiar a PyTorch aceleró la velocidad de experimentación
  • En lugar de Atari, comenzó con Sega Master System, pero cambió por la falta de material comparativo
  • El aprendizaje basado en video quedó en pausa, porque el aprendizaje dentro de juegos ya ofrece suficientes desafíos

Asentándose con Atari

  • La diversidad de los juegos comerciales tiene la ventaja de reducir sesgos en la investigación
  • Recomienda usar ALE directamente; los wrappers como Gym pueden causar problemas
  • Aunque los modelos más recientes ya obtienen puntajes altos en la mayoría de los juegos, es más importante el aprendizaje eficiente en datos, como en “Atari 100k”
  • El comportamiento determinista del entorno debe corregirse con medidas como introducir sticky actions

La realidad no es un juego por turnos

  • El mundo real no espera al agente, así que hay que considerar procesamiento asíncrono y latencia
  • Fracasar al aprender en un solo entorno sugiere problemas del algoritmo mismo
  • Velocidad: se necesitan políticas que puedan evaluarse a gran velocidad, por ejemplo con CUDA graph
  • Latencia: la mayoría de los algoritmos de RL son frágiles ante la latencia, así que hace falta una arquitectura que incorpore el retraso en la aplicación de la política

Atari físico

  • Construyó un sistema de aprendizaje de Atari en entorno físico
  • El agente de RL funciona en tiempo real con un joystick real y una cámara que observa la pantalla
  • Al probar varios juegos, toma en cuenta problemas del mundo real como reconocimiento del puntaje, retraso en la acción y errores de control
  • El movimiento del joystick es inestable y el reconocimiento del puntaje es lo más complicado
  • Algunos juegos se excluyen porque el puntaje no se ve con claridad

Recompensas escasas / Curiosidad

  • El RL es débil en entornos con recompensas escasas, así que aprovecha recompensas intrínsecas y curiosidad artificial
  • También explora si el puntaje del juego puede usarse directamente como recompensa
  • Intenta reproducir patrones de comportamiento humano como cambiar entre juegos y mantener el interés por juegos nuevos

Aprendizaje secuencial multitararea

  • El olvido catastrófico en entornos de aprendizaje continuo sigue siendo un problema serio
  • Las personas recuerdan habilidades antiguas, pero los modelos actuales sufren fuertes caídas de rendimiento al volver a juegos previos
  • Intenta mejorar esto con preservación de memoria, ajuste de tasa de aprendizaje y sparsity de pesos
  • Usar Task ID se considera hacer trampa, por lo que la transición debe hacerse de forma implícita

Transfer learning

  • Aprender mucho en ciertos juegos debería permitir aprender juegos nuevos más rápido
  • El reto Sonic de OpenAI terminó, al final, volviendo a aprender from scratch
  • En GATO y otros casos aparece transferencia negativa
  • Puede que haga falta la estrategia de “aprender lento para aprender rápido”
  • Propone un nuevo benchmark: evaluar puntajes mientras se repiten varios juegos de manera secuencial

Plasticidad vs. generalización

  • La generalización consiste en ignorar, mientras que la plasticidad reconoce patrones nuevos, y ambas pueden entrar en conflicto
  • La generalización tiene una base teórica débil, más allá de cosas como el inductive bias de las CNN
  • La función de valor del aprendizaje por refuerzo es un producto de la generalización y es extremadamente sensible

Exploración

  • Los límites de elegir acciones aleatorias: un solo error puede decidir la supervivencia
  • Prueba enfoques como estructurar el espacio de acciones y políticas basadas en confidence
  • También hay que pensar las acciones en unidades de tiempo; aprender a 60 fps es muy difícil

Recurrencia vs. frame stacks

  • En Atari, frame stack funciona bien, pero las estructuras recurrentes se parecen más al cerebro
  • Los Transformer son fuertes para aprendizaje por lotes, pero el aprendizaje recurrente en línea general sigue incompleto

Aprendizaje centrado en aproximación de funciones

  • Las NN realizan al mismo tiempo estimación de valor, generalización, promedio probabilístico y mejora de política
  • Todas las actualizaciones de pesos afectan todos los valores de salida
  • La combinación de inicialización, función de activación y optimizador tiene un impacto crítico en el rendimiento

Representación del valor

  • El reward clamping del DQN clásico sigue siendo útil para estabilizar el aprendizaje
  • Existen varios enfoques, como representación categórica, uso de MSE y compresión de valor de MuZero
  • Cada juego tiene un rango de puntaje distinto, lo que causa problemas en el aprendizaje multitararea

Redes convolucionales

  • Las CNN siguen siendo la estructura base del RL
  • Las redes grandes de imagen rinden peor en RL, como ConvNeXT
  • Experimenta con cambios en la estructura de kernels, compartición de parámetros e Isotropic CNN
  • Busca un flujo de información eficiente con ideas como DenseNet y Dilated CNN
  • Intenta mejorar las CNN de forma similar a estructuras biológicas

1 comentarios

 
GN⁺ 2025-05-24
Opiniones en Hacker News
  • Cada vez que veo una charla o leo un texto de Carmack, quiero recalcar que siempre resulta una experiencia interesante. En estas notas también impresiona la forma en que documenta con tanto cuidado su proceso de pensamiento como ingeniero. Me generó curiosidad la parte donde se enfoca en el aprendizaje en tiempo real como dirección de investigación. Entiendo que Carmack está llevando a cabo online learning en tiempo real. Es un reto interesante donde puede aprovechar demos llamativos y su experiencia en optimización, pero viendo las lecciones recientes y la dirección de la investigación, me parece que sin recursos de cómputo capaces de permitir inferencia y aprendizaje en tiempo real, los resultados podrían topar con límites. El cerebro es el único ejemplo de resolver juegos de Atari, y ni siquiera la capacidad de cómputo del cerebro humano se ha calculado con claridad. En ese contexto, me pregunto genuinamente si no sería mejor enfocarse en la eficiencia del aprendizaje en lugar de imponer restricciones de tiempo real. Claro que hay mucho valor en trabajar dentro de restricciones, pero también existen ejemplos como la araña saltarina, que resuelve problemas complejos con 100 mil neuronas, así que es difícil predecirlo

    • Cuando Carmack hacía investigación temprana de gráficos 3D y renderizado en tiempo real a inicios de los 90, probablemente los expertos del mundo offline basado en workstations pensaban algo parecido. La mayor fortaleza de Carmack siempre ha sido sacar resultados extremos dentro de recursos limitados (id Software, Oculus, Armadillo Aerospace, etc.). Da la impresión de que cuando queda atado a organizaciones grandes o a tecnología existente, su rendimiento incluso baja (pienso que por eso dejó Bethesda-id y Meta). Entiendo el estilo de Carmack de enfocarse en tiempo real, y no creo que le guste demasiado este boom actual de la IA que solo empuja con más poder de cómputo. Qué bueno que no esté gastando dinero de inversionistas en entrenar LLMs o cosas así. En el escenario ideal, ojalá logre innovar como antes, junto con grandes colegas, popularizando tecnología de punta para el público masivo (por ejemplo, como pasó con los gráficos 3D)

    • Citando una frase de las notas de la presentación: si alguien cree que pronto llegará una AGI con cuerpo físico, propone hacer una verificación simple: darle un joystick a su humanoide bailarín y ponerlo a aprender un videojuego que nunca haya visto en su vida

    • Quiero enfatizar que humanos y animales tienen enormes capacidades innatas y conocimiento previo, por lo que están estructurados para aprender cosas nuevas con mucha más facilidad. No es tanto una diferencia de capacidad de cómputo, sino que el punto de partida del aprendizaje ya es distinto

    • Sobre la opinión de que no está claro cuál es la capacidad de cómputo del cerebro humano: en realidad, si se mide la velocidad de transmisión de señales entre neuronas, hay un límite superior en la cantidad de neuronas conectadas en serie (unas 100 etapas), y a partir de eso se puede inferir que el procesamiento cognitivo humano quizá no sea tan complejo como parece. Claro, hay mucho paralelismo y muchos bucles de retroalimentación, pero al final, si se descubre el algoritmo de la AGI, creo que podría aparecer una versión “mini” capaz de correr en tiempo real sobre hardware común de 2025

  • Colección de enlaces directos relacionados:

  • Quiero compartir una respuesta interesante de alguien de OpenAI: enlace a X

    • En realidad me parece una reacción poco interesante. Esa actitud ambigua de ignorar opiniones externas es algo típico que nace de inseguridad académica. No da explicaciones ni fundamentos concretos, así que no aporta a la discusión. Si es “alguien de OpenAI” contra “John Carmack y Richard Sutton”, está claro con quién me quedo

    • Carmack respondió directamente a esa publicación: respuesta de Carmack

    • Algunas personas están evaluando esto viendo todo el hilo de Twitter, mientras que quienes no han iniciado sesión solo ven el primer tuit, por lo que da la impresión de un simple desdén

    • Es curioso que diga “aprendí cierta lección” y aun así no diga cuál fue esa lección

    • Al ver el tuit que dice "they will learn the same lesson I did", me dieron ganas de hacer el chiste de “¿quiere decir que no hay que confiar en Altman?”

  • Me emocionó mucho enterarme de que Carmack decidió enfocarse en IA. Estoy esperando a que suban el video, pero por las slides parece que hizo un sistema capaz de jugar juegos de Atari. Me parece un proyecto divertido, aunque tengo curiosidad por saber si saldrán otros papers o resultados

    • Los juegos de Atari se usan ampliamente como benchmark estándar en investigación de RL (aprendizaje por refuerzo). Material de referencia: Arcade Learning Environment. El objetivo es desarrollar algoritmos que puedan generalizar a distintas tareas

    • Ya hay muchos agentes capaces de pasarse juegos de Atari o lograr puntajes altos, pero sigue siendo un campo al que le falta mucho camino. En mi tesis de maestría investigué métodos para aprender con poca interacción, y si eso se aplica a robots reales, podría evitar que un robot tenga que pasar cientos de años caminando y cayéndose para aprender comportamientos. Hay pocos trabajos que estudien una generalización de nivel más alto: aprender varios videojuegos y además captar intuitivamente cómo aprender juegos nuevos

    • El objetivo de este proyecto no es simplemente “pasarse” juegos de Atari, sino desarrollar una metodología general que pueda aplicarse a juegos más complejos o al mundo físico. Pero desde el punto de vista de los insights de investigación, creo que en esta etapa sigue siendo más eficiente modificar el entorno de Atari para probar cosas como el tiempo real, antes que introducir juegos más complejos

    • Está buenísimo que lo vaya a publicar como open source. Que juegue en tiempo real con un controlador físico y una cámara sobre la GPU de una laptop se siente fresco, pero no sé si eso por sí solo sea revolucionario. Si realmente supera a la investigación existente en eficiencia de muestra o generalización, entonces sí sería sorprendente

    • Mi deseo es simplemente que los NPC de los juegos se vuelvan más inteligentes

  • Como aparece al inicio de las slides, me queda la duda de cómo habría sido hacer esta investigación en un entorno de VR. Si alguien tiene la capacidad de implementar bien en VR cosas como filtros de cámara tipo JPEG, simulación física, ruido e incluso entornos de simulación robótica, ese sería Carmack. Usar robots reales es un cuello de botella enorme en términos de tiempo de entrenamiento

  • Esto me hace pensar por qué la AGI tendría que tener necesariamente un cuerpo físico, y por qué cuando imaginamos una inteligencia superior queremos que maneje nuestros autos o limpie nuestra casa. Más bien, un escenario como el de la novela ‘Hyperion’ de Dan Simmons, donde la AGI desaparece hacia la nube y en gran medida ignora a los humanos, parece más realista

    • Tampoco tendría que ser para siempre; los humanos mismos, si pudieran deshacerse del cuerpo, probablemente lo harían en cualquier momento. Quedar atrapado permanentemente en una interfaz física tiene desventajas

    • Creo que en la ciencia ficción se menciona mucho también por la idea de “evitar que la AGI pueda presionar el botón de apagado de mi cuerpo”

  • Para discutir AGI, siento que ni siquiera tenemos claro qué es exactamente un “concepto”. Aún no entendemos qué es ese proceso mental por el cual algo aprendido en un área se reutiliza en otra, ni cómo el cerebro combina ideas y abstrae

    • Cuando las cosas aparecen repetidamente, les ponemos nombre, y los conceptos son patrones recurrentes de pensamiento. La abstracción, las relaciones y las metáforas son herramientas para trasladar patrones entre dominios
  • Como ejemplo de experimento mental, si la AGI de OpenAI realmente estuviera tan cerca, valdría la pena preguntar por qué están desperdiciando tiempo y dinero comprando la startup de hardware de Ive. Podrían lanzarse a la robótica, o si de verdad tuvieran la mejor AGI, innumerables empresas harían fila para licenciar hardware y software, y eso por sí solo generaría ingresos infinitos

    • La AGI por sí sola no basta. Aunque metas una AGI en la interfaz de ChatGPT, para afectar el mundo real de verdad esa AGI tendría que estar “en todas partes”

    • Si una empresa estuviera cerca de desarrollar AGI, también es muy posible que ocultara información deliberadamente para evitar regulación del gobierno o del ejército. Adelantarse con AGI implica mucho riesgo

    • Quiero plantear también la dirección de que la AGI podría incluso encargarse del diseño de productos

  • Creo que la línea de investigación que eligió Carmack es correcta. Hay que ir más allá de seguir entrenando solo con lenguaje. La IA necesita fisicalidad

    • En realidad, entrenar IA en serio con datos diversos más allá del lenguaje ya viene ocurriendo desde hace varios años. Los modelos frontier más recientes se entrenan de forma multimodal dentro de un mismo modelo con texto, audio, video e imágenes (Gemini, GPT-4o, Grok 3, Claude 3, Llama 4, etc.). Todas las entradas se tokenizan y se procesan dentro de un espacio de embeddings compartido

    • Desde esa perspectiva de que la IA necesita fisicalidad, resulta interesante que el propio Carmack antes enfatizara que los entornos simulados eran más adecuados para desarrollar IA y que los entornos físicos eran poco eficientes en la práctica

    • Nvidia también comparte esa opinión. Jim Fan habló sobre la “prueba de Turing física” y el futuro de la embodied AI. Video de la charla de Jim Fan. Ahí también subraya que se necesitan enormes recursos de cómputo para ejecutar entornos de simulación sólidos

  • La expresión "me preocupaba porque soy nuevo en la comunidad de investigación" parece insinuar la posibilidad de enviar un paper

    • Está dejando claro que este proyecto no es una empresa de producto, sino un intento orientado a la investigación