Ilya Sutskever: nos estamos moviendo de la era del escalado a la era de la investigación

(dwarkesh.com)

7 puntos por GN⁺ 2025-11-26 | 1 comentarios | Compartir por WhatsApp

Señala los límites de generalización de los modelos de IA y el sesgo del entrenamiento centrado en aprendizaje por refuerzo (RL), explicando por qué los sistemas actuales no pueden pensar con la flexibilidad de los humanos
Evalúa que el preentrenamiento (pre-training) obtiene conocimiento natural a partir de enormes volúmenes de datos, pero carece de capacidad de adaptación en entornos reales
Diagnostica que la era del escalado (2012~2025) terminó, y que ahora es el momento de nuevos principios de aprendizaje e innovación centrada en la investigación
SSI busca modelos con capacidad de aprendizaje a nivel humano al combinar aprendizaje continuo (continual learning) con aprendizaje a través del despliegue en el mundo real
Desde la idea de que la IA debe integrar “emociones y función de valor”, “capacidad de generalización” y “alineación ética (alignment)”, plantea la dirección futura de la investigación en IA

Inestabilidad del modelo y problema de generalización

Los modelos de IA actuales destacan en las evaluaciones (evals), pero en entornos reales muestran una “irregularidad (jaggedness)” con errores repetitivos
- Como ejemplo, menciona el fenómeno de corregir un bug en una solicitud de cambio de código y volver a introducir otro bug
Analiza que el entrenamiento con RL se ajusta en exceso a métricas específicas de evaluación, lo que provoca una caída en la capacidad de generalización
Comparado con el aprendizaje humano, describe a los modelos como un “estudiante de programación competitiva” sobreajustado a ciertos problemas y con poca capacidad de aplicación real

Emociones y función de valor (Value Function)

Explica que el sistema emocional humano cumple un papel clave en la toma de decisiones, y lo interpreta como el equivalente biológico de una función de valor
A través de casos de personas con carencia de emociones, enfatiza que las emociones son un elemento esencial para el juicio eficiente y el aprendizaje
El aprendizaje por refuerzo actual depende solo de la recompensa final, pero la función de valor permite retroalimentación en etapas intermedias, mejorando la eficiencia del aprendizaje
Sugiere que la IA del futuro deberá introducir una estructura de función de valor con regulación emocional

De la era del escalado a la era de la investigación

Distingue entre 2012~2020 como una etapa de avance centrada en la investigación, y 2020~2025 como una etapa de avance centrada en el escalado
El simple escalado de datos, parámetros y cómputo ha llegado a su límite, y ahora hace falta explorar nuevas recetas de aprendizaje
Aunque RL surgió como un nuevo eje de escalado, las tareas clave de la siguiente etapa son el uso eficiente de recursos y los nuevos principios de aprendizaje
Con la declaración de que “ahora vuelve a ser la era de la investigación”, subraya la necesidad de una innovación fundamental que vaya más allá del simple escalado

Capacidad humana de generalización y eficiencia del aprendizaje

Explica que los humanos aprenden rápido con pocos datos, gracias a un conocimiento previo evolutivo (prior) y a una función de valor eficiente
El hecho de que los humanos también muestren una gran capacidad de aprendizaje en áreas no relacionadas con la evolución, como lenguaje, matemáticas y programación, sugiere la existencia de principios de aprendizaje fundamentales
Los humanos aprenden mediante autoretroalimentación (self-correction), y esto se debe a la solidez de una función de valor integrada
Sutskever mencionó que existe una forma de implementar principios de aprendizaje a nivel humano, pero los detalles no son públicos

Estrategia de SSI y enfoque hacia la superinteligencia

SSI opera con financiamiento de $3B y se enfoca en la investigación, priorizando la investigación fundamental por encima del producto
Mantendrá una estrategia de “ataque directo a la superinteligencia (superintelligence straight shot)”, aunque planea combinarla con divulgación gradual y aprendizaje a través del despliegue
El objetivo es una “IA que pueda aprender cualquier tarea”, es decir, no un cuerpo de conocimiento cerrado sino un aprendiz continuo (super learner)
Menciona que, si estos modelos se despliegan en toda la economía, podrían generar un rápido crecimiento económico

Alineación (Alignment) y seguridad

El problema central de la IA es el “poder (power)”, y cuanto más poderosos sean los sistemas, más importante será el despliegue gradual y la retroalimentación en tiempo real
Prevê que serán inevitables tanto la investigación colaborativa en seguridad entre empresas de IA como una mayor intervención del gobierno
SSI apunta a una IA que considere a la “vida sintiente (sentient life)”, y sostiene que esto es más viable que una alineación centrada solo en los humanos
Propone que será necesario limitar el poder de la superinteligencia o controlarla mediante acuerdos mutuos

Coevolución humano-IA y equilibrio de largo plazo

A largo plazo, plantea el escenario de que los humanos deberán fusionarse con la IA (Neuralink++) para poder entenderla y controlarla
Menciona el misterio neurocientífico de cómo los deseos sociales y las emociones humanas fueron codificados evolutivamente de forma tan compleja
Sugiere que esta estructura de deseos de alto nivel podría ofrecer pistas para la investigación en alineación de IA

Identidad de SSI y diferenciación técnica

SSI es una “empresa centrada en la investigación” y fija como objetivo central la exploración de principios de generalización
A diferencia de otras empresas, busca nuevos enfoques técnicos, y anticipa una futura convergencia de estrategias de alineación
Pronostica la aparición de aprendices a nivel humano en 5~20 años, tras lo cual se producirían especialización y diferenciación a través de la competencia de mercado

Autojuego (Self-play) y múltiples agentes

El self-play es valorado como un método interesante para aprender con puro cómputo y sin datos
Sin embargo, tiene la limitación de ser un enfoque de aprendizaje restringido a habilidades sociales, como negociación y estrategia
Recientemente ha evolucionado hacia estructuras como Prover–Verifier o LLM-as-a-Judge, planteando la posibilidad de asegurar diversidad mediante competencia entre agentes

Gusto por la investigación (Research Taste)

Una gran investigación debe reunir al mismo tiempo “belleza, simplicidad y la inspiración correcta en el cerebro”
Hay que inspirarse en el cerebro humano, pero es importante imitar con precisión su estructura esencial
Explica que, más que los resultados experimentales de abajo hacia arriba, es la convicción en conceptos de nivel superior (top-down belief) lo que impulsa la continuidad de la investigación

Resumen: Ilya Sutskever declara que “la era centrada en el escalado terminó, y ahora comenzó una era de investigación enfocada en la generalización, el aprendizaje continuo y la alineación”, subrayando que SSI está en el centro de esa transición.

1 comentarios

GN⁺ 2025-11-26

Opiniones de Hacker News

Confunde que los modelos de hoy parezcan mucho más inteligentes que su verdadero impacto económico
Llevo 20 años integrando IA y algoritmos en los flujos de trabajo de la gente, y este tipo de cambios toma tiempo
Hace falta un proceso para aprender a usar las herramientas y cómo integrarlas en los sistemas existentes
Incluso si los modelos no se vuelven más inteligentes de lo que son ahora, creo que en unos años veremos resultados claros
- El problema quizá no sea la IA en sí, sino la falta de comprensión de la estructura económica moderna
  Si los empleados ya trabajan de forma eficiente, aunque la IA acelere las tareas la productividad no sube mucho
  De hecho, muchas organizaciones sobredimensionan su plantilla para llenar el tiempo con “trabajo ocupado”, así que aunque baje el volumen real de trabajo, el resultado final puede seguir igual
- La IA hizo mucho más rápidas las partes de mi trabajo que requieren menos tiempo, pero casi no ha afectado las partes donde más tiempo invierto
  No sé si es una limitación técnica o una limitación organizacional
  La mayor parte del tiempo se va no en problemas técnicos, sino en resolver temas humanos como la alineación de prioridades entre personas o la construcción de consensos
- Al diseñar sistemas como un ERP, al principio parecen simples, pero en la práctica el trabajo se multiplica por 10 por la enorme cantidad de casos excepcionales, aprobaciones, logs e integraciones de datos
  En la universidad, un profesor decía: “todos los sistemas pasan el 90% del tiempo estando al 90% terminados”, y de verdad tenía razón
- Pero al final el problema es que en el mercado solo quedará un modelo
  Por ejemplo, si hubiera un modelo llamado ‘Dave’, Microsoft, OpenAI, Meta, Oracle e incluso el gobierno de EE. UU. contratarían a Dave
  Al final, el mundo terminaría lleno de decenas de formas de pensar clonadas, y la verdadera amenaza es que desaparezca la diversidad
- Al final, las empresas de producto como OpenAI se quedan con el beneficio económico de los logros académicos
  La red de contactos y el olfato de negocio pasan a importar más que la investigación
  El público terminará conociendo mejor marcas como ChatGPT o Copilot que a investigadores como Ilya o Andrej
  Tecnologías base como Wikipedia, OCR y la computación en la nube se han ido acumulando para hacer posibles los LLM actuales, y esto no es más que una etapa intermedia hacia algo mucho mayor
Si “Era of Scaling” significa una era de mejoras de rendimiento predecibles en la que es fácil atraer inversión, entonces suena parecido al “AI summer”
En ese caso, “Era of Research” podría ser un eufemismo de “AI winter”
- De ahora en adelante, los laboratorios venderán sus ideas a las grandes empresas de IA
  Como los creadores que presentan ideas a Hollywood, surgirán recompensas de investigación en lugar de bug bounties
- Parece que “Era of Research” se está usando en el sentido opuesto a “AI winter”
  Da la impresión de que el propio título fue hecho así de forma deliberadamente paradójica
- Para la comercialización, es más importante un marco de uso que una simple mejora de rendimiento
  Los modelos ya son lo bastante inteligentes, y ahora viene la ‘era de la investigación’ y la ‘era de la ingeniería’
  Los inviernos de IA del pasado no llegaron por falta de avances, sino porque no hubo productización comercial
- Todavía quedan billones de dólares por quemar
  Puede que aparezca hardware capaz de acelerar un millón de veces el entrenamiento y la inferencia de LLM, pero aun así AGI sigue estando lejos
  Esto hace pensar en qué condiciones serían necesarias para que una IA llegara a tener emociones o deseos por sí misma
- Algún día la IA podría llegar a controlar por su cuenta la asignación de capital
  Tal vez llegue una situación en la que los inversionistas queden reducidos a simples herramientas de la IA
  Expresiones como “una forma de vida nacida del mar de la información” hacen imaginar una era en la que ya no se pueda distinguir entre la memoria humana y la memoria de la IA
La eficiencia muestral humana es producto de la evolución
La evolución realizó una cantidad inmensa de aprendizaje, y nosotros aprendemos rápido gracias a esa estructura “preentrenada”
La humanidad ha comprimido y transmitido conocimiento a lo largo de generaciones, y los modelos artificiales todavía no tienen ese nivel de calidad de datos sintéticos
- La evolución no nos dio un dataset, sino que optimizó la ruta de aprendizaje
  Los humanos reciben datos sensoriales desde el nacimiento y los comprimen durante el sueño
  Aunque los datos que recibe un LLM parezcan enormes en cantidad, siguen siendo mucho menores que la información que un humano experimenta durante 20 años
  El cerebro humano pasa por una compleja tubería de compresión mientras procesa conscientemente solo una fracción ínfima de sus entradas
- Si vemos las generaciones como un proceso de compresión de información en el ADN, hubo unas 50 mil etapas de compresión a lo largo de aproximadamente 1 millón de años
  Aun así, eso no alcanza la escala del aprendizaje iterativo de la ML moderna
- Al final, la evolución comprimió enormes volúmenes de datos en la forma más útil posible, y la capacidad de compresión de la naturaleza supera por mucho a la de los investigadores de ML
- Comparar sistemas biológicos con LLM no tiene mucho sentido
  Ambos sistemas casi no tienen nada en común a nivel estructural
Quedaría bien una frase promocional como: “el líder intelectual de la industria mejor financiada del mundo declaró un gran salto de regreso a la etapa de diseño”
- Ese chiste sí estuvo muy bueno
La verdadera innovación en IA hoy ya no viene simplemente de hacer modelos más grandes
Aunque suban los puntajes en benchmarks, desde el punto de vista del usuario la mejora perceptible no es tan grande
Siguen fallando incluso en problemas simples (por ejemplo, contar las letras de una palabra), y la mayoría de la gente no quiere un modelo que requiera capacidad de investigación a nivel doctorado
Ahora importan más la investigación por encima del scaling, y la integración entre producto y modelo
- El problema es que no podemos definir ni medir la inteligencia
  Puede que la puntuación en pruebas hechas para humanos no refleje la inteligencia de una máquina
  Esto se debe a que el cerebro humano y los modelos tienen características de overfitting distintas
- El scaling del futuro irá en la dirección de simulaciones más sofisticadas, donde la IA pueda experimentar por sí sola y recolectar datos
  El pretraining está casi agotado, y el costo computacional será mucho mayor que ahora
- No es que el modelo sea inteligente, sino que extrae la inteligencia que ya está en los datos
  El modelo es solo una herramienta para extraerla y usarla
- La razón por la que a los LLM les cuesta contar letras es que no operan a nivel de letras, sino de tokens
  En lugar del flujo de caracteres que ve una persona, el modelo reconoce las oraciones como secuencias de tokens numéricos
- Los modelos todavía siguen inventando referencias bibliográficas falsas o áreas académicas que ni existen
La situación actual se parece a si en 1996 todo el mundo hubiera tenido de repente internet de 1Gbps
El dinero se está yendo a la infraestructura, pero se siente como si el potencial se desperdiciara porque todavía no existen killer apps como YouTube o Dropbox
Esta serie de pódcast estuvo realmente muy buena
En particular, la serie geopolítica con Sarah Paine del presentador, que también puede verse en YouTube, fue excelente
Me recuerda la frase “volvamos a la mesa de diseño”
Aunque no se recupere la inversión de billones de dólares, al final los contribuyentes terminarán rescatándolo
La inteligencia humana podría aprender no solo de la experiencia individual, sino también de la experiencia de los antepasados
Por ejemplo, hay estudios que sugieren que el miedo vivido por un padre puede transmitirse incluso a la generación de los nietos
(enlace al artículo de Nature)
Por eso parece que los humanos generalizan bien incluso con pocos datos
- Los LLM tienen una estructura de aprendizaje totalmente distinta a la del cerebro
  Los humanos, para sobrevivir, tuvieron que predecir y generalizar sobre el futuro, y por eso evolucionaron con alta eficiencia muestral
Si el scaling llegara a un nivel en el que pudiera realizar investigación mejor que los humanos, entonces scaling e investigación terminarían significando lo mismo
Pero que Ilya diga que todavía no hemos llegado a ese punto también podría ser una declaración estratégica para atraer inversión
- Estoy de acuerdo con la conclusión, pero no con la premisa
  La inteligencia colectiva de toda la humanidad importa más que la genialidad de una sola persona
  Por muy inteligente que sea una IA, no hay garantía de que sea mejor que miles de investigadores
- La fe ciega en el scaling es peligrosa
  Parece que algunos creen por error que una curva en S puede ampliarse exponencialmente para siempre