7 puntos por GN⁺ 2025-11-26 | 1 comentarios | Compartir por WhatsApp
  • Señala los límites de generalización de los modelos de IA y el sesgo del entrenamiento centrado en aprendizaje por refuerzo (RL), explicando por qué los sistemas actuales no pueden pensar con la flexibilidad de los humanos
  • Evalúa que el preentrenamiento (pre-training) obtiene conocimiento natural a partir de enormes volúmenes de datos, pero carece de capacidad de adaptación en entornos reales
  • Diagnostica que la era del escalado (2012~2025) terminó, y que ahora es el momento de nuevos principios de aprendizaje e innovación centrada en la investigación
  • SSI busca modelos con capacidad de aprendizaje a nivel humano al combinar aprendizaje continuo (continual learning) con aprendizaje a través del despliegue en el mundo real
  • Desde la idea de que la IA debe integrar “emociones y función de valor”, “capacidad de generalización” y “alineación ética (alignment)”, plantea la dirección futura de la investigación en IA

Inestabilidad del modelo y problema de generalización

  • Los modelos de IA actuales destacan en las evaluaciones (evals), pero en entornos reales muestran una “irregularidad (jaggedness)” con errores repetitivos
    • Como ejemplo, menciona el fenómeno de corregir un bug en una solicitud de cambio de código y volver a introducir otro bug
  • Analiza que el entrenamiento con RL se ajusta en exceso a métricas específicas de evaluación, lo que provoca una caída en la capacidad de generalización
  • Comparado con el aprendizaje humano, describe a los modelos como un “estudiante de programación competitiva” sobreajustado a ciertos problemas y con poca capacidad de aplicación real

Emociones y función de valor (Value Function)

  • Explica que el sistema emocional humano cumple un papel clave en la toma de decisiones, y lo interpreta como el equivalente biológico de una función de valor
  • A través de casos de personas con carencia de emociones, enfatiza que las emociones son un elemento esencial para el juicio eficiente y el aprendizaje
  • El aprendizaje por refuerzo actual depende solo de la recompensa final, pero la función de valor permite retroalimentación en etapas intermedias, mejorando la eficiencia del aprendizaje
  • Sugiere que la IA del futuro deberá introducir una estructura de función de valor con regulación emocional

De la era del escalado a la era de la investigación

  • Distingue entre 2012~2020 como una etapa de avance centrada en la investigación, y 2020~2025 como una etapa de avance centrada en el escalado
  • El simple escalado de datos, parámetros y cómputo ha llegado a su límite, y ahora hace falta explorar nuevas recetas de aprendizaje
  • Aunque RL surgió como un nuevo eje de escalado, las tareas clave de la siguiente etapa son el uso eficiente de recursos y los nuevos principios de aprendizaje
  • Con la declaración de que “ahora vuelve a ser la era de la investigación”, subraya la necesidad de una innovación fundamental que vaya más allá del simple escalado

Capacidad humana de generalización y eficiencia del aprendizaje

  • Explica que los humanos aprenden rápido con pocos datos, gracias a un conocimiento previo evolutivo (prior) y a una función de valor eficiente
  • El hecho de que los humanos también muestren una gran capacidad de aprendizaje en áreas no relacionadas con la evolución, como lenguaje, matemáticas y programación, sugiere la existencia de principios de aprendizaje fundamentales
  • Los humanos aprenden mediante autoretroalimentación (self-correction), y esto se debe a la solidez de una función de valor integrada
  • Sutskever mencionó que existe una forma de implementar principios de aprendizaje a nivel humano, pero los detalles no son públicos

Estrategia de SSI y enfoque hacia la superinteligencia

  • SSI opera con financiamiento de $3B y se enfoca en la investigación, priorizando la investigación fundamental por encima del producto
  • Mantendrá una estrategia de “ataque directo a la superinteligencia (superintelligence straight shot)”, aunque planea combinarla con divulgación gradual y aprendizaje a través del despliegue
  • El objetivo es una “IA que pueda aprender cualquier tarea”, es decir, no un cuerpo de conocimiento cerrado sino un aprendiz continuo (super learner)
  • Menciona que, si estos modelos se despliegan en toda la economía, podrían generar un rápido crecimiento económico

Alineación (Alignment) y seguridad

  • El problema central de la IA es el “poder (power)”, y cuanto más poderosos sean los sistemas, más importante será el despliegue gradual y la retroalimentación en tiempo real
  • Prevê que serán inevitables tanto la investigación colaborativa en seguridad entre empresas de IA como una mayor intervención del gobierno
  • SSI apunta a una IA que considere a la “vida sintiente (sentient life)”, y sostiene que esto es más viable que una alineación centrada solo en los humanos
  • Propone que será necesario limitar el poder de la superinteligencia o controlarla mediante acuerdos mutuos

Coevolución humano-IA y equilibrio de largo plazo

  • A largo plazo, plantea el escenario de que los humanos deberán fusionarse con la IA (Neuralink++) para poder entenderla y controlarla
  • Menciona el misterio neurocientífico de cómo los deseos sociales y las emociones humanas fueron codificados evolutivamente de forma tan compleja
  • Sugiere que esta estructura de deseos de alto nivel podría ofrecer pistas para la investigación en alineación de IA

Identidad de SSI y diferenciación técnica

  • SSI es una “empresa centrada en la investigación” y fija como objetivo central la exploración de principios de generalización
  • A diferencia de otras empresas, busca nuevos enfoques técnicos, y anticipa una futura convergencia de estrategias de alineación
  • Pronostica la aparición de aprendices a nivel humano en 5~20 años, tras lo cual se producirían especialización y diferenciación a través de la competencia de mercado

Autojuego (Self-play) y múltiples agentes

  • El self-play es valorado como un método interesante para aprender con puro cómputo y sin datos
  • Sin embargo, tiene la limitación de ser un enfoque de aprendizaje restringido a habilidades sociales, como negociación y estrategia
  • Recientemente ha evolucionado hacia estructuras como Prover–Verifier o LLM-as-a-Judge, planteando la posibilidad de asegurar diversidad mediante competencia entre agentes

Gusto por la investigación (Research Taste)

  • Una gran investigación debe reunir al mismo tiempo “belleza, simplicidad y la inspiración correcta en el cerebro”
  • Hay que inspirarse en el cerebro humano, pero es importante imitar con precisión su estructura esencial
  • Explica que, más que los resultados experimentales de abajo hacia arriba, es la convicción en conceptos de nivel superior (top-down belief) lo que impulsa la continuidad de la investigación

Resumen: Ilya Sutskever declara que “la era centrada en el escalado terminó, y ahora comenzó una era de investigación enfocada en la generalización, el aprendizaje continuo y la alineación”, subrayando que SSI está en el centro de esa transición.

1 comentarios

 
GN⁺ 2025-11-26
Opiniones de Hacker News
  • Confunde que los modelos de hoy parezcan mucho más inteligentes que su verdadero impacto económico
    Llevo 20 años integrando IA y algoritmos en los flujos de trabajo de la gente, y este tipo de cambios toma tiempo
    Hace falta un proceso para aprender a usar las herramientas y cómo integrarlas en los sistemas existentes
    Incluso si los modelos no se vuelven más inteligentes de lo que son ahora, creo que en unos años veremos resultados claros

    • El problema quizá no sea la IA en sí, sino la falta de comprensión de la estructura económica moderna
      Si los empleados ya trabajan de forma eficiente, aunque la IA acelere las tareas la productividad no sube mucho
      De hecho, muchas organizaciones sobredimensionan su plantilla para llenar el tiempo con “trabajo ocupado”, así que aunque baje el volumen real de trabajo, el resultado final puede seguir igual
    • La IA hizo mucho más rápidas las partes de mi trabajo que requieren menos tiempo, pero casi no ha afectado las partes donde más tiempo invierto
      No sé si es una limitación técnica o una limitación organizacional
      La mayor parte del tiempo se va no en problemas técnicos, sino en resolver temas humanos como la alineación de prioridades entre personas o la construcción de consensos
    • Al diseñar sistemas como un ERP, al principio parecen simples, pero en la práctica el trabajo se multiplica por 10 por la enorme cantidad de casos excepcionales, aprobaciones, logs e integraciones de datos
      En la universidad, un profesor decía: “todos los sistemas pasan el 90% del tiempo estando al 90% terminados”, y de verdad tenía razón
    • Pero al final el problema es que en el mercado solo quedará un modelo
      Por ejemplo, si hubiera un modelo llamado ‘Dave’, Microsoft, OpenAI, Meta, Oracle e incluso el gobierno de EE. UU. contratarían a Dave
      Al final, el mundo terminaría lleno de decenas de formas de pensar clonadas, y la verdadera amenaza es que desaparezca la diversidad
    • Al final, las empresas de producto como OpenAI se quedan con el beneficio económico de los logros académicos
      La red de contactos y el olfato de negocio pasan a importar más que la investigación
      El público terminará conociendo mejor marcas como ChatGPT o Copilot que a investigadores como Ilya o Andrej
      Tecnologías base como Wikipedia, OCR y la computación en la nube se han ido acumulando para hacer posibles los LLM actuales, y esto no es más que una etapa intermedia hacia algo mucho mayor
  • Si “Era of Scaling” significa una era de mejoras de rendimiento predecibles en la que es fácil atraer inversión, entonces suena parecido al “AI summer”
    En ese caso, “Era of Research” podría ser un eufemismo de “AI winter”

    • De ahora en adelante, los laboratorios venderán sus ideas a las grandes empresas de IA
      Como los creadores que presentan ideas a Hollywood, surgirán recompensas de investigación en lugar de bug bounties
    • Parece que “Era of Research” se está usando en el sentido opuesto a “AI winter”
      Da la impresión de que el propio título fue hecho así de forma deliberadamente paradójica
    • Para la comercialización, es más importante un marco de uso que una simple mejora de rendimiento
      Los modelos ya son lo bastante inteligentes, y ahora viene la ‘era de la investigación’ y la ‘era de la ingeniería’
      Los inviernos de IA del pasado no llegaron por falta de avances, sino porque no hubo productización comercial
    • Todavía quedan billones de dólares por quemar
      Puede que aparezca hardware capaz de acelerar un millón de veces el entrenamiento y la inferencia de LLM, pero aun así AGI sigue estando lejos
      Esto hace pensar en qué condiciones serían necesarias para que una IA llegara a tener emociones o deseos por sí misma
    • Algún día la IA podría llegar a controlar por su cuenta la asignación de capital
      Tal vez llegue una situación en la que los inversionistas queden reducidos a simples herramientas de la IA
      Expresiones como “una forma de vida nacida del mar de la información” hacen imaginar una era en la que ya no se pueda distinguir entre la memoria humana y la memoria de la IA
  • La eficiencia muestral humana es producto de la evolución
    La evolución realizó una cantidad inmensa de aprendizaje, y nosotros aprendemos rápido gracias a esa estructura “preentrenada”
    La humanidad ha comprimido y transmitido conocimiento a lo largo de generaciones, y los modelos artificiales todavía no tienen ese nivel de calidad de datos sintéticos

    • La evolución no nos dio un dataset, sino que optimizó la ruta de aprendizaje
      Los humanos reciben datos sensoriales desde el nacimiento y los comprimen durante el sueño
      Aunque los datos que recibe un LLM parezcan enormes en cantidad, siguen siendo mucho menores que la información que un humano experimenta durante 20 años
      El cerebro humano pasa por una compleja tubería de compresión mientras procesa conscientemente solo una fracción ínfima de sus entradas
    • Si vemos las generaciones como un proceso de compresión de información en el ADN, hubo unas 50 mil etapas de compresión a lo largo de aproximadamente 1 millón de años
      Aun así, eso no alcanza la escala del aprendizaje iterativo de la ML moderna
    • Al final, la evolución comprimió enormes volúmenes de datos en la forma más útil posible, y la capacidad de compresión de la naturaleza supera por mucho a la de los investigadores de ML
    • Comparar sistemas biológicos con LLM no tiene mucho sentido
      Ambos sistemas casi no tienen nada en común a nivel estructural
  • Quedaría bien una frase promocional como: “el líder intelectual de la industria mejor financiada del mundo declaró un gran salto de regreso a la etapa de diseño”

    • Ese chiste sí estuvo muy bueno
  • La verdadera innovación en IA hoy ya no viene simplemente de hacer modelos más grandes
    Aunque suban los puntajes en benchmarks, desde el punto de vista del usuario la mejora perceptible no es tan grande
    Siguen fallando incluso en problemas simples (por ejemplo, contar las letras de una palabra), y la mayoría de la gente no quiere un modelo que requiera capacidad de investigación a nivel doctorado
    Ahora importan más la investigación por encima del scaling, y la integración entre producto y modelo

    • El problema es que no podemos definir ni medir la inteligencia
      Puede que la puntuación en pruebas hechas para humanos no refleje la inteligencia de una máquina
      Esto se debe a que el cerebro humano y los modelos tienen características de overfitting distintas
    • El scaling del futuro irá en la dirección de simulaciones más sofisticadas, donde la IA pueda experimentar por sí sola y recolectar datos
      El pretraining está casi agotado, y el costo computacional será mucho mayor que ahora
    • No es que el modelo sea inteligente, sino que extrae la inteligencia que ya está en los datos
      El modelo es solo una herramienta para extraerla y usarla
    • La razón por la que a los LLM les cuesta contar letras es que no operan a nivel de letras, sino de tokens
      En lugar del flujo de caracteres que ve una persona, el modelo reconoce las oraciones como secuencias de tokens numéricos
    • Los modelos todavía siguen inventando referencias bibliográficas falsas o áreas académicas que ni existen
  • La situación actual se parece a si en 1996 todo el mundo hubiera tenido de repente internet de 1Gbps
    El dinero se está yendo a la infraestructura, pero se siente como si el potencial se desperdiciara porque todavía no existen killer apps como YouTube o Dropbox

  • Esta serie de pódcast estuvo realmente muy buena
    En particular, la serie geopolítica con Sarah Paine del presentador, que también puede verse en YouTube, fue excelente

  • Me recuerda la frase “volvamos a la mesa de diseño”
    Aunque no se recupere la inversión de billones de dólares, al final los contribuyentes terminarán rescatándolo

  • La inteligencia humana podría aprender no solo de la experiencia individual, sino también de la experiencia de los antepasados
    Por ejemplo, hay estudios que sugieren que el miedo vivido por un padre puede transmitirse incluso a la generación de los nietos
    (enlace al artículo de Nature)
    Por eso parece que los humanos generalizan bien incluso con pocos datos

    • Los LLM tienen una estructura de aprendizaje totalmente distinta a la del cerebro
      Los humanos, para sobrevivir, tuvieron que predecir y generalizar sobre el futuro, y por eso evolucionaron con alta eficiencia muestral
  • Si el scaling llegara a un nivel en el que pudiera realizar investigación mejor que los humanos, entonces scaling e investigación terminarían significando lo mismo
    Pero que Ilya diga que todavía no hemos llegado a ese punto también podría ser una declaración estratégica para atraer inversión

    • Estoy de acuerdo con la conclusión, pero no con la premisa
      La inteligencia colectiva de toda la humanidad importa más que la genialidad de una sola persona
      Por muy inteligente que sea una IA, no hay garantía de que sea mejor que miles de investigadores
    • La fe ciega en el scaling es peligrosa
      Parece que algunos creen por error que una curva en S puede ampliarse exponencialmente para siempre