Charla de Ilya Sutskever en NeurIPS: retrospectiva de 10 años de seq2seq [video]

(youtube.com)

1 puntos por GN⁺ 2024-12-15 | 1 comentarios | Compartir por WhatsApp

Ilya Sutskever mira en retrospectiva Sequence to Sequence Learning with Neural Networks, presentado en NeurIPS 2014, diez años después, y resume el punto de partida de la corriente actual de grandes modelos de lenguaje en modelos de texto autorregresivos, grandes redes neuronales y grandes conjuntos de datos
La suposición audaz de la época era que, si una red neuronal podía predecir suficientemente bien el siguiente token, podría capturar la distribución correcta de la secuencia, y aplicaron esa idea al problema de la traducción
La implementación se basó en LSTM y en pipelining con 8 GPU, con lo que lograron una mejora de velocidad de 3.5 veces, aunque hoy considera que el pipelining no fue una buena elección
La era del preentrenamiento, que continuó con GPT-2, GPT-3 y las scaling laws, inevitablemente llegará a su fin por los límites de los datos de internet, y considera que ya se alcanzó el peak data
La siguiente etapa apunta a agentes, datos sintéticos, cómputo en tiempo de inferencia y casos iniciales como o1; a largo plazo podrían surgir sistemas cualitativamente distintos, más capaces de razonar e incluso con autoconciencia

Mirar en retrospectiva el paper de seq2seq de 2014, diez años después

Sequence to Sequence Learning with Neural Networks, presentado en NeurIPS 2014 en Montreal, se convirtió en objeto de retrospectiva diez años después
Sutskever agradece a sus coautores y colaboradores de entonces, y revisa las diapositivas de la presentación de hace 10 años para evaluar qué fue acertado y qué lo fue menos
El núcleo del paper se puede condensar en tres puntos
- Modelo autorregresivo entrenado con texto
- Grandes redes neuronales
- Grandes conjuntos de datos

La idea central y la implementación de la época

La presentación de 2014 incluía la Deep Learning Hypothesis
- Era la suposición de que una gran red neuronal de 10 capas podía realizar tareas que un humano puede hacer en menos de 1 segundo
- La base era la idea de que las neuronas artificiales y las biológicas son hasta cierto punto parecidas, y que las neuronas reales son lentas
- Como en ese momento las redes neuronales entrenables tenían alrededor de 10 capas, el foco se puso en “cosas que los humanos pueden hacer muy rápido”
Otro punto central era la idea de que, si un modelo autorregresivo predice suficientemente bien el siguiente token, captura la distribución exacta de la secuencia que sigue
- No era la primera red neuronal autorregresiva de la historia, pero se presenta como un caso temprano en el que se creía firmemente que, si se entrenaba bien, se podían obtener los resultados deseados
- La tarea de entonces era la traducción, y aunque hoy parece modesta, en ese momento era un objetivo muy audaz
En la implementación se usó LSTM
- Sutskever presenta LSTM como una arquitectura usada por los investigadores de deep learning antes de los Transformer
- La compara con una “ResNet rotada 90 grados”, y considera que tenía un integrador, lo que hoy se llama residual stream, y una estructura multiplicativa
La paralelización del entrenamiento se hizo mediante pipelining, colocando una capa por GPU
- Con 8 GPU obtuvieron una mejora de velocidad de 3.5 veces
- Desde la perspectiva actual, el pipelining no fue una elección inteligente, pero así se hizo en ese momento

Escalamiento, conexionismo y la era del preentrenamiento

La diapositiva de conclusiones de 2014 puede verse como el inicio de la scaling hypothesis
- Contenía la idea de que entrenar conjuntos de datos muy grandes y redes neuronales muy grandes garantizaría el éxito
- Sutskever evalúa que, si se mira con generosidad, eso es efectivamente lo que ocurrió
Entre las ideas que sobrevivieron por más tiempo menciona el connectionism
- Considera que creer que las neuronas artificiales son hasta cierto punto parecidas a las biológicas da confianza en que se puede configurar una red neuronal para hacer casi todo lo que hace un humano, aun sin llevarla al tamaño del cerebro humano
- Sin embargo, dice que el cerebro humano tiene la capacidad de reconfigurarse a sí mismo, y que los algoritmos de aprendizaje actuales requieren tantos puntos de datos como parámetros, por lo que en ese aspecto los humanos siguen siendo mejores
Esta corriente llevó a la era del preentrenamiento
- GPT-2, GPT-3 y las scaling laws se mencionan como ejemplos representativos
- Sus excolaboradores Radford, Kaplan y Dario Amodei contribuyeron a hacer que esta dirección funcionara en la práctica
- El motor del progreso actual estuvo en entrenar redes neuronales enormes con conjuntos de datos enormes

Direcciones después del preentrenamiento

Sutskever considera que el preentrenamiento necesariamente terminará
- El hardware, los algoritmos y los clústeres pueden seguir aumentando el cómputo
- Los datos dependen de una sola internet, y solo hay una internet
- Describe los datos como el combustible fósil de la IA, y dice que ya se alcanzó el peak data, por lo que hay que arreglárselas con los datos existentes
Para después del preentrenamiento se mencionan varias direcciones
- Agentes: un concepto que se menciona con frecuencia como dirección futura
- Datos sintéticos: qué significa eso en sí mismo es un gran desafío
- Cómputo en tiempo de inferencia: una dirección que se ve con más claridad en modelos recientes como o1
Como ejemplo biológico, trata la relación entre el tamaño corporal y el tamaño del cerebro en los mamíferos
- Los mamíferos y los primates no humanos muestran una relación similar, pero los hominids tienen una pendiente distinta en el exponente de escalamiento entre tamaño cerebral y corporal
- Esta diferencia aparece en una gráfica en la que los ejes x e y están en escala logarítmica
- Considera que también en biología hay precedentes de haber encontrado otros tipos de escalamiento, y que lo que la IA ha escalado hasta ahora es lo primero para lo que se descubrió cómo escalar

Superinteligencia, razonamiento y sistemas cualitativamente distintos

A largo plazo, el campo se dirige hacia la superinteligencia
- Los modelos de lenguaje y chatbots actuales son sorprendentes, pero al mismo tiempo son extrañamente poco confiables y también se confunden
- En evaluaciones, a veces muestran un desempeño dramáticamente sobrehumano, por lo que considera difícil reconciliar esas dos caras
Los sistemas futuros podrían ser cualitativamente distintos de los actuales
- Prevé que serán agénticos en un sentido real
- Evalúa que los sistemas actuales no son agentes en un sentido significativo, sino apenas un comienzo muy débil
- Considera que tendrán capacidad de razonamiento, entenderán a partir de datos limitados y dejarán de confundirse
El razonamiento aumenta la imprevisibilidad
- El deep learning existente estaba más cerca de replicar la intuición humana, es decir, procesos como reacciones de 0.1 segundos, por lo que tenía alta previsibilidad
- Un sistema que razona se vuelve más impredecible cuanto más razona
- Pone como ejemplo que una IA de ajedrez fuerte es impredecible incluso para los mejores ajedrecistas humanos
También incluye la posibilidad de autoconciencia
- Considera que la self-awareness es útil porque uno mismo forma parte del modelo del mundo
- Si estos elementos se combinan, podrían dar lugar a sistemas con propiedades y capacidades fundamentalmente distintas de los sistemas que existen hoy
- Los problemas que surjan de esos sistemas podrían ser muy diferentes de los problemas a los que estamos acostumbrados, y el futuro es realmente difícil de predecir

Temas surgidos en la sesión de preguntas y respuestas

Sobre la IA inspirada biológicamente, responde que vale la pena perseguirla si alguien tiene una intuición concreta
- Considera que la inspiración biológica exitosa hasta ahora se ha limitado mucho a “usemos neuronas”
- Ha sido difícil obtener una inspiración biológica más detallada, pero si existe una intuición especial, podría ser útil
A la pregunta de si los modelos de razonamiento pueden corregir por sí mismos las alucinaciones, responde que es muy probable
- Coincide con la dirección de que, a largo plazo, los modelos puedan entender y corregir mediante razonamiento la aparición de alucinaciones
- No descarta que eso ya esté ocurriendo en algunos modelos iniciales de razonamiento
- Sin embargo, considera que llamarlo autocorrect es una expresión que subestima la escala del fenómeno
Sobre los derechos de la IA, la coexistencia y las estructuras de incentivos, evita dar una respuesta definitiva
- Si la IA coexiste con los humanos y quiere derechos, podría ser un resultado no malo
- Pero agrega que la situación es muy impredecible, por lo que es difícil hablar con seguridad
A la pregunta de si los LLM generalizan fuera de distribución el razonamiento de múltiples saltos, considera que es difícil responder con un simple sí o no
- El propio significado de “dentro de distribución” y “fuera de distribución” es un problema
- En la era pasada de la traducción automática estadística, si una frase no era igual a la del dataset se consideraba generalización, pero hoy se discute si la similitud entre problemas de olimpiadas matemáticas y debates de internet es memorización o generalización
- El estándar de generalización subió mucho, y aunque es cierto que los humanos generalizan mejor, responde que los LLM también hacen cierta generalización fuera de distribución

1 comentarios

GN⁺ 2024-12-15

Opiniones en Hacker News

Esta presentación se sintió bastante sin mucho contenido sustancial
Lo que recuerdo con la cabeza cansada es un resumen de los últimos 10 años, la idea de que ya usamos casi todos los datos disponibles y nos estamos acercando al límite de las leyes de escalamiento, y que los siguientes pasos podrían ser agentes, datos sintéticos y mejoras en cómputo
Fuera de eso, fue casi una repetición de comparaciones entre redes neuronales artificiales y biológicas, con cosas como la correlación positiva entre peso corporal y masa cerebral, pero no se veía muy claro el argumento
Las preguntas fueron sobre si un modelo puede darse cuenta por sí mismo de sus alucinaciones, una pregunta relacionada con criptomonedas y un razonamiento multi-hop algo interesante
- Lo escuché en persona y hace falta contexto. Lo habían invitado a la serie de charlas test of time, así que eso explica que la parte histórica fuera larga
  Creo que la personalidad de Ilya y su relación con la IA derivaron en esas especulaciones sueltas del final
  Parece que quiere hablar de temas especulativos de un futuro bastante lejano, pero se cubre diciendo cosas como “no voy a decir cuándo ni cómo, pero va a pasar”, lo que vuelve difícil refutarlo
  Ese enfoque tiende a atraer a gente rara, como en la última pregunta sobre criptomonedas, y la charla inmediatamente anterior, sobre la influencia de las GAN, no se salió del tema de la sesión
- Creo que el punto central fue: “ya no podemos esperar que entrenar modelos de mayor dimensión con dumps de Internet más grandes siga mejorando sus capacidades”
  Es una sola frase, pero bastante importante, y aunque mucha gente ya lo sepa, que Sutskever lo haya dicho directamente ayuda a que se vuelva una percepción compartida
  El resto fue básicamente introducción y cierre
- Me sorprende que nadie haya resumido el video con un LLM y lo haya publicado en los comentarios junto con una advertencia
- Por brillante que sea una mente, parece difícil que siempre produzca algo profundo cada vez que se lo piden
- Las preguntas me parecieron una gran señal de alerta. Eran preguntas vagas sobre criptomonedas, derechos humanos de la IA y “autocorrección” para IA, y aunque la gente que hace preguntas en conferencias suele ser un grupo peculiar, da la impresión de que ahora hay demasiados participantes con aire de estafadores en el campo de la IA, al punto de que podrían tapar la investigación real
  La mayoría de los contribuyentes básicos ya son millonarios con contratos generosos, y los laboratorios y departamentos consiguieron mucho financiamiento para temas de investigación en IA
  Durante los próximos 10 años quizá se pueda gastar dinero en datos sintéticos, agentes y en el problema de evitar que aparezcan pechos en imágenes generadas automáticamente, pero no parece que vaya a haber mucho progreso fundamental
  /remindme 10 years
Lo clave es cuando Sutskever dijo que “la preentrenamiento como la conocemos sin duda terminará” y que “llegamos al pico de datos y no hay más”
También apareció la analogía de que Internet es un recurso finito, como el petróleo, en el sentido de que el contenido creado por humanos es finito
Entonces, ¿qué reemplazará a los datos de Internet? ¿Datasets sintéticos curados?
Hay enormes datasets propietarios que no se usan mucho para entrenamiento por preocupaciones de copyright, pero si uno realmente posee esos datos, los problemas legales se reducen bastante
Por ejemplo, Getty tiene una biblioteca enorme de imágenes; si alguien más entrena con ella puede arriesgarse a una demanda, pero si Getty entrena su propia IA, la historia es distinta
Algo similar aplica si News Corp entrena IA con activos editoriales como Wall Street Journal o HarperCollins
- Creo que como empresas como Meta o Google tenían acceso a datos adicionales, aunque no sobraran para todos, para ellas los datos eran suficientes y por eso se investigó menos el uso de datos sintéticos
  Antes, al entrenar detectores de objetos, usé modelos 3D de Blender, scripts para ajustar parámetros y modelos existentes de machine learning para inferir calibración de cámara y orientación de overlays, y funcionaba muy bien para identificar objetos reales
  También conozco gente que hace algo parecido con motores de juego para entrenar vehículos
  Hay detalles tácticos inesperados que elevan mucho la precisión; por ejemplo, hay que aleatorizar correctamente en el conjunto de entrenamiento elementos irrelevantes como la textura de la superficie de los modelos 3D
  Si durante el entrenamiento se aplican patrones fractales aleatorios a los objetos, el detector de objetos se vuelve más robusto frente a perturbaciones del entorno real
- Si quisieras crear un LLM que interprete muy bien la “ley estatal”, también puedes verlo desde la perspectiva de descargar todas las leyes y regulaciones de un estado específico y ver qué obstáculos hay para entrenarlo hasta que quede en el top 5% según practicantes del derecho y abogados
  En ese caso, ya no necesitas necesariamente “Internet”
  Solo necesitas un dataset especializado por dominio con suficiente tamaño y calidad, y el resultado ya podría dar miedo
  El LLM de “ley estatal” es solo un ejemplo; la lógica lleva a que, si necesitas un experto especializado por dominio en cualquier área, puedes entrenarlo
- No creo que de verdad estemos justo antes de quedarnos sin datos de entrenamiento. Lo que se necesita es conocimiento, no necesariamente los patrones de comportamiento de ese texto
  Los LLM no recuerdan bien cosas que usuarios antiguos de Internet conocen, como memes famosos que nunca fueron reportados
  Si se pudiera hacer que recuerden datos como los de 4chan sin imitar ese estilo, quizá usarlos para entrenar no sería completamente inútil
  Pienso también en guiones de películas, letras de canciones, subtítulos de videos famosos de YouTube e incluso programas de televisión
- Los humanos no necesitan billones de tokens para razonar o saber qué saben
  Parte de eso vendrá de la evolución, pero creo que lo que viene de la evolución, como las habilidades lingüísticas básicas y el modelado básico del mundo, ya fue aproximado en cierta medida con datos de Internet
  El preentrenamiento actual usa muchísimos más datos que los humanos, y así como no necesitas ver todas las imágenes de Getty para dibujar, tampoco debería ser necesario para modelos con autoconciencia o capacidad de automejora
  Para alcanzar nivel experto en algún campo, entrenar solo predicción del siguiente token con datos de Internet o con cualquier otro dato no es la solución
- Se destacan industrias como la farmacéutica y la exploración energética. En esos campos, los silos de datos en sí mismos son una parte clave de la ventaja competitiva
  No hay razón para abrir los datasets y emparejar las condiciones de competencia; si los mantienes cerrados, puedes monopolizar descubrimientos potenciales
  Los datos públicos son la base de Internet, pero algunas industrias están construidas sobre ocultar rigurosamente sus descubrimientos durante décadas
Me dio gusto que Ilya comenzara la presentación con una foto de Quoc Le, quien lideró en 2012 el paper sobre escalamiento de redes neuronales. Ese paper fue lo que en su momento me llevó a entrar en deep learning
Sus comentarios son relativamente modestos y se basan en trabajos previos publicados, pero parece claro que está haciendo cosas importantes y que también tiene una gran imaginación
Ahora que “el gato salió de la bolsa”, el futuro de la IA probablemente lo liderará una nueva generación de líderes, y solo queda esperar que sean humanitarios
- Habrá que esperar que sean lo más humanitarios posible, pero aun así no hay que olvidar que siguen siendo humanos
- Creo que la probabilidad de que la nueva generación de líderes de la inteligencia artificial sea humanitaria es literalmente cercana a 0
Creo que su frase “mientras más razonamiento haya, más impredecible se vuelve” es una enorme subestimación
El razonamiento, en cierto sentido, debería pensarse casi como equivalente a la impredecibilidad; más específicamente, el razonamiento útil es impredecible por definición
Este encuadre es importante en problemas como la alineación
- Más bien me parece lo contrario. La palabra “irracional” también suele usarse para referirse a algo caprichoso, impredecible y peligroso
  La razón se considera algo muy predecible, y se espera que dos personas que razonan racionalmente a partir del mismo conjunto de hechos lleguen a conclusiones similares
  Lo que Ilya parece querer decir está más cerca de que una persona muy inteligente puede parecer “impredecible” para alguien menos inteligente
  No es que la razón en sí sea impredecible, sino que con razonamiento suficientemente rápido y de buena calidad se puede llegar a conclusiones que nadie habría anticipado, aunque después tengan sentido
- La palabra importante aquí es “impredecible”, no “sorprendente”, “inverificable” ni “irracional”
  En esta presentación, la predicción está vinculada con la intuición que una persona tiene en 0.1 segundos
  Un modelo de razonamiento potente, por definición, tiene que llegar a respuestas no intuitivas. Si fueran intuitivas, se habría llegado a la misma respuesta mucho más rápido, sin una larga cadena de razonamiento
  El “razonamiento” aquí no es lo mismo que una demostración en sentido matemático. En matemáticas, incluso una conclusión intuitiva puede requerir una demostración muy especial
- Creo que el ejemplo que dio de la IA de ajedrez no fue el más adecuado
  Un jugador humano puede no entender una jugada porque no puede calcular tantas movidas hacia adelante como la IA, pero aun así puede estar casi seguro de que la IA de ajedrez optimiza el mismo objetivo bajo las mismas reglas
  En los modelos de razonamiento, la alineación no viene dada
  Podrían razonar bajo reglas y funciones de costo completamente distintas, y cuando produzcan resultados que los humanos no entienden en preguntas más abiertas, será difícil decir si se trata de una idea genial o de pensamiento no alineado
- Si se piensa en la complejidad temporal de encontrar una solución versus verificarla, no es exactamente correcto
- ¿Seguro que realmente quiso decir eso? Tal vez se refería a que el proceso de extraer más razonamiento de los modelos es impredecible, no a que el razonamiento en sí lo sea
El episodio de esta semana del podcast de DeepMind con Oriole Vinyals trató temas parecidos a esta presentación —el estado actual de los LLM y el camino por delante para el entrenamiento— y fue mucho más interesante: https://pca.st/episode/0f68afd5-2b2b-4ce9-964f-38193b7e8dd3
La analogía con el petróleo es muy acertada. Es como decir que hervir y secar unos cuantos lagos más vale totalmente la pena para que el patrimonio neto de Mr Worldcoin y los de su calaña aumente otros 3 centavos
- Entiendo la analogía con el petróleo, pero no ese salto. ¿Qué lagos se están hirviendo?
Me sorprende que algunos profesionales destacados de machine learning todavía comparen las “neuronas” de los Transformer con neuronas biológicas reales
Las neuronas reales dependen de spikes, gradientes iónicos, estructuras dendríticas complejas y plasticidad sináptica gobernada por procesos bioquímicos sofisticados
Son elementos que no corresponden a las capas lineales simples y diferenciables ni a las no linealidades punto a punto de un Transformer
Me pregunto si hay neurocientíficos o biólogos confiables que respalden esta comparación, o si es una analogía que se mantiene solo por costumbre dentro de la comunidad de machine learning
- Hay que recordar qué había antes de 2012. Eran cosas como SVM y random forests, que no se parecían en nada al cerebro
  Las redes neuronales son antiguas, pero 2012 fue el inicio de la revolución del deep learning
  Visto con este criterio, tanto el cerebro como las redes neuronales son tipos de conexionismo con propiedades parecidas, y tiene bastante sentido compararlos e inspirarse en uno para aplicarlo al otro
- No hace falta simular todos los átomos de un planeta para predecir su órbita
  Una neurona matemática puede funcionar de manera completamente distinta y aun así tener una función similar a la de una neurona real
- ¿Es tan distinto de llamar árbol a una estructura de datos con nodos padre y nodos hijo?
- Por las respuestas, parece que la respuesta a la pregunta simple es más bien “no”
  Yo también tengo curiosidad por saber si hubo comparaciones serias, y si las hay, me gustaría leerlas
- No intento defender que en la presentación no haya puesto suficientes matices, pero creo que aquí aplica el viejo dicho: “todos los modelos están equivocados, pero algunos son útiles”
Mucho del conocimiento del mundo está bloqueado de tal forma que solo puede abrirse mediante experimentos empíricos, y el cómputo solo puede ayudar de manera sustancial a hacer esos experimentos más eficientes
Para ciertas intervenciones hay que realizar de verdad ensayos controlados aleatorizados, y eso requiere tiempo y átomos del mundo real
La presentación completa es interesante: https://www.youtube.com/watch?v=YD-9NG1Ke5Y
- En la diapositiva sobre la relación entre peso corporal y peso del cerebro, él enfatizó la diferencia de escalamiento en la línea humana
  Pero lo interesante fue que la misma diapositiva también mostraba, en el mismo punto, un límite superior rígido para las líneas no humanas, y él no mencionó esa parte
Hay una transcripción corregida con LLM. Usaron Gemini Flash 8B sobre los subtítulos originales de YouTube: https://www.appblit.com/scribe?v=YD-9NG1Ke5Y#0
- Me pregunto cómo evitaron que Gemini simplemente se tragara el texto con el paso del tiempo
  La corrección de transcripciones de audio era un área en la que era difícil obtener buenos resultados con cualquier LLM si no se dividía en fragmentos de una o dos páginas como máximo
  También me pregunto si usaron alguna herramienta aparte

Charla de Ilya Sutskever en NeurIPS: retrospectiva de 10 años de seq2seq [video]

Mirar en retrospectiva el paper de seq2seq de 2014, diez años después

La idea central y la implementación de la época

Escalamiento, conexionismo y la era del preentrenamiento

Direcciones después del preentrenamiento

Superinteligencia, razonamiento y sistemas cualitativamente distintos

Temas surgidos en la sesión de preguntas y respuestas

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News