Ilya Sutskever: nos estamos moviendo de la era del escalado a la era de la investigación
(dwarkesh.com)- Señala los límites de generalización de los modelos de IA y el sesgo del entrenamiento centrado en aprendizaje por refuerzo (RL), explicando por qué los sistemas actuales no pueden pensar con la flexibilidad de los humanos
- Evalúa que el preentrenamiento (pre-training) obtiene conocimiento natural a partir de enormes volúmenes de datos, pero carece de capacidad de adaptación en entornos reales
- Diagnostica que la era del escalado (2012~2025) terminó, y que ahora es el momento de nuevos principios de aprendizaje e innovación centrada en la investigación
- SSI busca modelos con capacidad de aprendizaje a nivel humano al combinar aprendizaje continuo (continual learning) con aprendizaje a través del despliegue en el mundo real
- Desde la idea de que la IA debe integrar “emociones y función de valor”, “capacidad de generalización” y “alineación ética (alignment)”, plantea la dirección futura de la investigación en IA
Inestabilidad del modelo y problema de generalización
- Los modelos de IA actuales destacan en las evaluaciones (evals), pero en entornos reales muestran una “irregularidad (jaggedness)” con errores repetitivos
- Como ejemplo, menciona el fenómeno de corregir un bug en una solicitud de cambio de código y volver a introducir otro bug
- Analiza que el entrenamiento con RL se ajusta en exceso a métricas específicas de evaluación, lo que provoca una caída en la capacidad de generalización
- Comparado con el aprendizaje humano, describe a los modelos como un “estudiante de programación competitiva” sobreajustado a ciertos problemas y con poca capacidad de aplicación real
Emociones y función de valor (Value Function)
- Explica que el sistema emocional humano cumple un papel clave en la toma de decisiones, y lo interpreta como el equivalente biológico de una función de valor
- A través de casos de personas con carencia de emociones, enfatiza que las emociones son un elemento esencial para el juicio eficiente y el aprendizaje
- El aprendizaje por refuerzo actual depende solo de la recompensa final, pero la función de valor permite retroalimentación en etapas intermedias, mejorando la eficiencia del aprendizaje
- Sugiere que la IA del futuro deberá introducir una estructura de función de valor con regulación emocional
De la era del escalado a la era de la investigación
- Distingue entre 2012~2020 como una etapa de avance centrada en la investigación, y 2020~2025 como una etapa de avance centrada en el escalado
- El simple escalado de datos, parámetros y cómputo ha llegado a su límite, y ahora hace falta explorar nuevas recetas de aprendizaje
- Aunque RL surgió como un nuevo eje de escalado, las tareas clave de la siguiente etapa son el uso eficiente de recursos y los nuevos principios de aprendizaje
- Con la declaración de que “ahora vuelve a ser la era de la investigación”, subraya la necesidad de una innovación fundamental que vaya más allá del simple escalado
Capacidad humana de generalización y eficiencia del aprendizaje
- Explica que los humanos aprenden rápido con pocos datos, gracias a un conocimiento previo evolutivo (prior) y a una función de valor eficiente
- El hecho de que los humanos también muestren una gran capacidad de aprendizaje en áreas no relacionadas con la evolución, como lenguaje, matemáticas y programación, sugiere la existencia de principios de aprendizaje fundamentales
- Los humanos aprenden mediante autoretroalimentación (self-correction), y esto se debe a la solidez de una función de valor integrada
- Sutskever mencionó que existe una forma de implementar principios de aprendizaje a nivel humano, pero los detalles no son públicos
Estrategia de SSI y enfoque hacia la superinteligencia
- SSI opera con financiamiento de $3B y se enfoca en la investigación, priorizando la investigación fundamental por encima del producto
- Mantendrá una estrategia de “ataque directo a la superinteligencia (superintelligence straight shot)”, aunque planea combinarla con divulgación gradual y aprendizaje a través del despliegue
- El objetivo es una “IA que pueda aprender cualquier tarea”, es decir, no un cuerpo de conocimiento cerrado sino un aprendiz continuo (super learner)
- Menciona que, si estos modelos se despliegan en toda la economía, podrían generar un rápido crecimiento económico
Alineación (Alignment) y seguridad
- El problema central de la IA es el “poder (power)”, y cuanto más poderosos sean los sistemas, más importante será el despliegue gradual y la retroalimentación en tiempo real
- Prevê que serán inevitables tanto la investigación colaborativa en seguridad entre empresas de IA como una mayor intervención del gobierno
- SSI apunta a una IA que considere a la “vida sintiente (sentient life)”, y sostiene que esto es más viable que una alineación centrada solo en los humanos
- Propone que será necesario limitar el poder de la superinteligencia o controlarla mediante acuerdos mutuos
Coevolución humano-IA y equilibrio de largo plazo
- A largo plazo, plantea el escenario de que los humanos deberán fusionarse con la IA (Neuralink++) para poder entenderla y controlarla
- Menciona el misterio neurocientífico de cómo los deseos sociales y las emociones humanas fueron codificados evolutivamente de forma tan compleja
- Sugiere que esta estructura de deseos de alto nivel podría ofrecer pistas para la investigación en alineación de IA
Identidad de SSI y diferenciación técnica
- SSI es una “empresa centrada en la investigación” y fija como objetivo central la exploración de principios de generalización
- A diferencia de otras empresas, busca nuevos enfoques técnicos, y anticipa una futura convergencia de estrategias de alineación
- Pronostica la aparición de aprendices a nivel humano en 5~20 años, tras lo cual se producirían especialización y diferenciación a través de la competencia de mercado
Autojuego (Self-play) y múltiples agentes
- El self-play es valorado como un método interesante para aprender con puro cómputo y sin datos
- Sin embargo, tiene la limitación de ser un enfoque de aprendizaje restringido a habilidades sociales, como negociación y estrategia
- Recientemente ha evolucionado hacia estructuras como Prover–Verifier o LLM-as-a-Judge, planteando la posibilidad de asegurar diversidad mediante competencia entre agentes
Gusto por la investigación (Research Taste)
- Una gran investigación debe reunir al mismo tiempo “belleza, simplicidad y la inspiración correcta en el cerebro”
- Hay que inspirarse en el cerebro humano, pero es importante imitar con precisión su estructura esencial
- Explica que, más que los resultados experimentales de abajo hacia arriba, es la convicción en conceptos de nivel superior (top-down belief) lo que impulsa la continuidad de la investigación
Resumen: Ilya Sutskever declara que “la era centrada en el escalado terminó, y ahora comenzó una era de investigación enfocada en la generalización, el aprendizaje continuo y la alineación”, subrayando que SSI está en el centro de esa transición.
1 comentarios
Opiniones de Hacker News
Confunde que los modelos de hoy parezcan mucho más inteligentes que su verdadero impacto económico
Llevo 20 años integrando IA y algoritmos en los flujos de trabajo de la gente, y este tipo de cambios toma tiempo
Hace falta un proceso para aprender a usar las herramientas y cómo integrarlas en los sistemas existentes
Incluso si los modelos no se vuelven más inteligentes de lo que son ahora, creo que en unos años veremos resultados claros
Si los empleados ya trabajan de forma eficiente, aunque la IA acelere las tareas la productividad no sube mucho
De hecho, muchas organizaciones sobredimensionan su plantilla para llenar el tiempo con “trabajo ocupado”, así que aunque baje el volumen real de trabajo, el resultado final puede seguir igual
No sé si es una limitación técnica o una limitación organizacional
La mayor parte del tiempo se va no en problemas técnicos, sino en resolver temas humanos como la alineación de prioridades entre personas o la construcción de consensos
En la universidad, un profesor decía: “todos los sistemas pasan el 90% del tiempo estando al 90% terminados”, y de verdad tenía razón
Por ejemplo, si hubiera un modelo llamado ‘Dave’, Microsoft, OpenAI, Meta, Oracle e incluso el gobierno de EE. UU. contratarían a Dave
Al final, el mundo terminaría lleno de decenas de formas de pensar clonadas, y la verdadera amenaza es que desaparezca la diversidad
La red de contactos y el olfato de negocio pasan a importar más que la investigación
El público terminará conociendo mejor marcas como ChatGPT o Copilot que a investigadores como Ilya o Andrej
Tecnologías base como Wikipedia, OCR y la computación en la nube se han ido acumulando para hacer posibles los LLM actuales, y esto no es más que una etapa intermedia hacia algo mucho mayor
Si “Era of Scaling” significa una era de mejoras de rendimiento predecibles en la que es fácil atraer inversión, entonces suena parecido al “AI summer”
En ese caso, “Era of Research” podría ser un eufemismo de “AI winter”
Como los creadores que presentan ideas a Hollywood, surgirán recompensas de investigación en lugar de bug bounties
Da la impresión de que el propio título fue hecho así de forma deliberadamente paradójica
Los modelos ya son lo bastante inteligentes, y ahora viene la ‘era de la investigación’ y la ‘era de la ingeniería’
Los inviernos de IA del pasado no llegaron por falta de avances, sino porque no hubo productización comercial
Puede que aparezca hardware capaz de acelerar un millón de veces el entrenamiento y la inferencia de LLM, pero aun así AGI sigue estando lejos
Esto hace pensar en qué condiciones serían necesarias para que una IA llegara a tener emociones o deseos por sí misma
Tal vez llegue una situación en la que los inversionistas queden reducidos a simples herramientas de la IA
Expresiones como “una forma de vida nacida del mar de la información” hacen imaginar una era en la que ya no se pueda distinguir entre la memoria humana y la memoria de la IA
La eficiencia muestral humana es producto de la evolución
La evolución realizó una cantidad inmensa de aprendizaje, y nosotros aprendemos rápido gracias a esa estructura “preentrenada”
La humanidad ha comprimido y transmitido conocimiento a lo largo de generaciones, y los modelos artificiales todavía no tienen ese nivel de calidad de datos sintéticos
Los humanos reciben datos sensoriales desde el nacimiento y los comprimen durante el sueño
Aunque los datos que recibe un LLM parezcan enormes en cantidad, siguen siendo mucho menores que la información que un humano experimenta durante 20 años
El cerebro humano pasa por una compleja tubería de compresión mientras procesa conscientemente solo una fracción ínfima de sus entradas
Aun así, eso no alcanza la escala del aprendizaje iterativo de la ML moderna
Ambos sistemas casi no tienen nada en común a nivel estructural
Quedaría bien una frase promocional como: “el líder intelectual de la industria mejor financiada del mundo declaró un gran salto de regreso a la etapa de diseño”
La verdadera innovación en IA hoy ya no viene simplemente de hacer modelos más grandes
Aunque suban los puntajes en benchmarks, desde el punto de vista del usuario la mejora perceptible no es tan grande
Siguen fallando incluso en problemas simples (por ejemplo, contar las letras de una palabra), y la mayoría de la gente no quiere un modelo que requiera capacidad de investigación a nivel doctorado
Ahora importan más la investigación por encima del scaling, y la integración entre producto y modelo
Puede que la puntuación en pruebas hechas para humanos no refleje la inteligencia de una máquina
Esto se debe a que el cerebro humano y los modelos tienen características de overfitting distintas
El pretraining está casi agotado, y el costo computacional será mucho mayor que ahora
El modelo es solo una herramienta para extraerla y usarla
En lugar del flujo de caracteres que ve una persona, el modelo reconoce las oraciones como secuencias de tokens numéricos
La situación actual se parece a si en 1996 todo el mundo hubiera tenido de repente internet de 1Gbps
El dinero se está yendo a la infraestructura, pero se siente como si el potencial se desperdiciara porque todavía no existen killer apps como YouTube o Dropbox
Esta serie de pódcast estuvo realmente muy buena
En particular, la serie geopolítica con Sarah Paine del presentador, que también puede verse en YouTube, fue excelente
Me recuerda la frase “volvamos a la mesa de diseño”
Aunque no se recupere la inversión de billones de dólares, al final los contribuyentes terminarán rescatándolo
La inteligencia humana podría aprender no solo de la experiencia individual, sino también de la experiencia de los antepasados
Por ejemplo, hay estudios que sugieren que el miedo vivido por un padre puede transmitirse incluso a la generación de los nietos
(enlace al artículo de Nature)
Por eso parece que los humanos generalizan bien incluso con pocos datos
Los humanos, para sobrevivir, tuvieron que predecir y generalizar sobre el futuro, y por eso evolucionaron con alta eficiencia muestral
Si el scaling llegara a un nivel en el que pudiera realizar investigación mejor que los humanos, entonces scaling e investigación terminarían significando lo mismo
Pero que Ilya diga que todavía no hemos llegado a ese punto también podría ser una declaración estratégica para atraer inversión
La inteligencia colectiva de toda la humanidad importa más que la genialidad de una sola persona
Por muy inteligente que sea una IA, no hay garantía de que sea mejor que miles de investigadores
Parece que algunos creen por error que una curva en S puede ampliarse exponencialmente para siempre