La capacidad “repentina” de los LLM podría ser gradual y predecible

(quantamagazine.org)

1 puntos por GN⁺ 2024-03-26 | 1 comentarios | Compartir por WhatsApp

Investigadores de Stanford consideran que algunas capacidades emergentes de los LLM quizá no aparecieron de pronto, sino que pudieron verse como saltos bruscos por la forma de medición usada para evaluar el rendimiento
BIG-bench evalúa LLM con 204 tareas y observó en algunas de ellas una mejora discontinua: el rendimiento se mantenía cerca de 0 y luego subía de golpe a partir de cierto tamaño
Las métricas de exactitud que solo distinguen correcto/incorrecto, como en sumas de tres dígitos, tratan como fallidas incluso las respuestas parcialmente correctas y pueden ocultar el proceso real de mejora
Al usar puntajes parciales por dígito, se revela una mejora gradual en la que, a medida que aumentan los parámetros, el modelo acierta más números; esto debilita la interpretación de la suma como capacidad emergente
Quedan pendientes el problema de predecir qué métricas mostrarán mejoras bruscas y cómo evaluar tareas donde la respuesta correcta real es importante, por lo que se necesita una ciencia predictiva para la próxima generación de modelos

El salto repentino de rendimiento que vio BIG-bench

Beyond the Imitation Game benchmark, es decir BIG-bench, evalúa las capacidades de los modelos de lenguaje grandes con 204 tareas creadas por 450 investigadores
En muchas tareas, el rendimiento mejoraba de forma predecible y suave a medida que los modelos crecían, pero en algunas el rendimiento se mantenía casi en 0 durante un tiempo y luego subía de repente
El paper de agosto de 2022 consideró que este comportamiento era sorprendente y difícil de predecir, y que debía incorporarse a las discusiones sobre seguridad, potencial y riesgos de la IA
A esta capacidad se la llamó emergencia (emergence), un término que alude a comportamientos colectivos que solo aparecen cuando un sistema alcanza una alta complejidad

La objeción de Stanford: podría ser una ilusión creada por las métricas, no por el modelo

Sanmi Koyejo, Rylan Schaeffer y Brando Miranda, de Stanford University, sostienen en un nuevo paper que la aparición repentina de capacidades podría originarse en la forma en que se mide el rendimiento de los LLM
La idea central es que las capacidades no surgen de manera impredecible, sino que, según la métrica de medición, una mejora suave y predecible puede parecer un salto brusco
Los investigadores reconocen el hecho de que los LLM se vuelven más efectivos a medida que aumentan de escala
Sin embargo, que la curva de mejora se vea suave o irregular y abrupta puede depender no solo del funcionamiento interno del modelo, sino también de la elección de métricas o de la falta de ejemplos de prueba

Tamaño del modelo y objeto de evaluación

Los LLM se entrenan analizando enormes datasets de texto de fuentes en línea como libros, búsquedas web y Wikipedia, y buscando conexiones entre palabras que aparecen juntas con frecuencia
El tamaño del modelo se mide por la cantidad de parámetros, que corresponden de manera aproximada a las formas en que las palabras pueden conectarse
Los principales tamaños de modelo son los siguientes
- GPT-2: 1,500 millones de parámetros
- GPT-3.5: 350,000 millones de parámetros
- GPT-4: presentado en marzo de 2023, base de Microsoft Copilot, se dice que usa 1.75 billones de parámetros
Que un LLM grande pueda realizar tareas que un modelo pequeño no puede no es el punto central del debate
Los investigadores de Stanford también reconocen que la complejidad adicional de los modelos más grandes puede mejorar el rendimiento en problemas más difíciles y diversos

El límite de la métrica de exactitud visto en sumas de tres dígitos

En el estudio BIG-bench de 2022, se evaluó que GPT-3 y LAMDA no podían resolver correctamente problemas de suma cuando tenían pocos parámetros
GPT-3 pareció poder sumar de pronto cuando fue entrenado con 13,000 millones de parámetros, y LAMDA mostró un cambio similar con 68,000 millones de parámetros
Este resultado llevó a interpretar que la capacidad de sumar emergía a partir de cierto umbral
Los investigadores de Stanford señalaron que esta evaluación solo miraba la exactitud, por lo que cualquier respuesta que no fuera completamente correcta se trataba como fallo
- Por ejemplo, si para 100+278 el modelo responde 376, esa respuesta está mucho más cerca de la respuesta real que −9.34, pero en una métrica correcto/incorrecto ambas cuentan como fallos
Los investigadores usaron una métrica de puntaje parcial que evalúa qué tan bien se predice el primer, segundo y tercer dígito por separado
Con esta métrica, se observa que, a medida que aumentan los parámetros, los LLM predicen cada vez con mayor precisión la secuencia de dígitos del resultado de la suma
Por lo tanto, la capacidad de sumar puede interpretarse no como un salto repentino e impredecible, sino como una mejora gradual y predecible

Debate aún abierto

Tianshi Li, de Northeastern University, considera que el paper de Stanford no llega a explicar cómo predecir qué métricas mostrarán mejoras bruscas en los LLM y cuándo lo harán
En ese punto, queda margen para considerar que algunas capacidades siguen siendo impredecibles
Jason Wei, de OpenAI, sostiene que en capacidades como la aritmética, donde importa la respuesta correcta, la respuesta exacta en sí es importante, por lo que los reportes previos de emergencia también son válidos
Alex Tamkin, de Anthropic, evalúa que el nuevo paper permitió dividir tareas de múltiples pasos en partes más pequeñas y reconocer la contribución de cada componente
Al mismo tiempo, Tamkin considera que no se puede decir que todos los saltos sean ilusiones, y que existe literatura donde se observan discontinuidades incluso usando predicciones de un solo paso o métricas continuas

Tareas para predecir modelos más grandes

Xia “Ben” Hu, de Rice University, considera que aunque la emergencia en los LLM actuales pueda explicarse con otras herramientas de medición, quizá la misma explicación no se aplique a LLM futuros más grandes y complejos
Hu dice que, cuando los LLM crezcan al siguiente nivel, tomarán prestado conocimiento de otras tareas y otros modelos
Para Tamkin, la discusión sobre la emergencia está directamente conectada con los esfuerzos por predecir cómo se comportarán los LLM
Como la tecnología de LLM tiene un rango de aplicación amplio, se vuelve importante construir una ciencia predictiva para no llevarnos sorpresas con la próxima generación de modelos

1 comentarios

GN⁺ 2024-03-26

Comentarios de Hacker News

Este estudio tiene algunos problemas: 1) cambiar la precisión de aprobado/reprobado por una métrica más suave como la distancia de edición de tokens puede ser un pésimo indicador sustituto de la capacidad, dependiendo de la tarea
2) incluso según las métricas de los autores, todavía se encuentran algunas capacidades emergentes potenciales
3) después de que pasa, todo parece fácil. Se puede volver a tocar los datos hasta encontrar una transformación en la que la emergencia desaparezca, pero en ese momento se usaron métricas comunes de precisión en pruebas, y el fenómeno realmente digno de atención es que los resultados fueron impredecibles y sorprendentes
El artículo tiene valor, pero no hay que llevar sus conclusiones demasiado lejos
- Como también se menciona más adelante en el texto, que una suma sea “casi correcta” no significa mucho. O está bien o está mal
  Aun así, valoro el esfuerzo porque incluso después de cambiar la forma de evaluación, siguió quedando algo de capacidad emergente
Me parece que “si usas otra vara de medir, la emergencia desaparece” aplica a la mayoría de los comportamientos emergentes
Si cambias la escala y observas cada molécula de agua por separado, no verás que de repente aparezca un bloque de hielo, sino que las moléculas se van uniendo una a una en una estructura cristalina
- No necesariamente. El problema es que la definición en aprendizaje automático es especialmente floja
  Escribí más sobre eso aquí[0]. Lo que acabas de decir explica la emergencia, pero no es lo mismo que lo que se afirmó cuando se dijo que los LLM tenían capacidades emergentes. Esa distinción también se explica en el texto
  [0] https://news.ycombinator.com/item?id=39812315
- Pero incluso si conoces la estructura molecular a 50°C y 75°C, casi no sabrás nada sobre el punto de congelación
  Otro ejemplo: si mides el número de casos de infección de cierto virus, o bien se propagará por todo el mundo (R0 > 1, por ejemplo COVID-19) o no logrará propagarse ampliamente (R0 < 1, por ejemplo Ebola). No es completamente dicotómico, pero en apariencia se ve como tal, así que es un comportamiento emergente
  En cambio, si mides directamente R0, verás un aumento gradual y será mucho más fácil predecir futuras variantes, la eficacia de vacunas, etc.
  Considero que “emergente” se refiere, por ejemplo, a una sigmoide, mientras que “gradual” se refiere a una función lineal o logarítmica
- Nadie confunde el hielo con una emergencia súbita. Incluso a simple vista queda claro que se forma gradualmente
Artículo: Are Emergent Abilities of Large Language Models a Mirage? https://arxiv.org/abs/2304.15004
Una vez que el futuro ya llegó, siempre es más fácil predecirlo
En realidad podría haber características emergentes, como las transiciones de fase, que sean difíciles de predecir incluso en retrospectiva, pero no creo que sean comunes. Incluso me pregunto si existe хотя sea un solo caso convincente en LLM
Creo que el caso más general es que una capacidad de nivel superior dependa de varias capacidades inferiores, y que sea difícil predecir esa relación. Seguramente hubo mejoras suaves en los componentes, pero hay que saber qué mirar, es decir, cuáles son los componentes clave
Para predecir una capacidad emergente, hay que identificar de antemano los componentes necesarios y también simular hasta cierto punto qué nivel debe tener cada uno para sostener el comportamiento esperado
Claro, no es solo una cuestión del tamaño del modelo o del volumen de datos; también importan el tipo y la calidad de los datos, y puede haber cambios bruscos entre versiones del modelo. Es muy difícil analizar por anticipado qué nuevos patrones o manipulaciones, es decir, qué capacidades componentes, aprenderá un modelo a partir de un conjunto de entrenamiento actualizado
También me pregunto con qué frecuencia ocurre lo contrario: casos en los que el diseñador del modelo identificó con éxito que “para hacer X se necesitan las capacidades A, B y C, y para obtener A, B y C se necesitan los nuevos datasets P y Q”. En una situación hipotética así, se habría podido medir el progreso hacia la capacidad X
- Hasta donde sé, antes de Transformer eso no ocurría en absoluto. Era porque los modelos no podían contener tantas habilidades individuales sin interferir entre sí
  La existencia misma de modelos con varias capacidades de alta calidad sigue siendo un fenómeno bastante nuevo
  Aun así, creo que hace falta ese enfoque, y es muy probable que los mejores LLM de hoy ya estén haciendo algo parecido. Solo que nadie ha revelado qué están haciendo exactamente, así que no deja de ser una suposición
“Pero en otras tareas, la mejora de capacidades no fue fluida. El rendimiento se mantuvo casi en 0 durante un tiempo y luego dio un salto repentino. Otros estudios también encontraron saltos similares de capacidad.”
Vaya, ¿no es bastante inexacto el título enviado?
- Ese párrafo resume resultados de investigaciones previas, y este artículo precisamente desafía esos resultados
- En este contexto, parece significar que esas capacidades fueron investigadas y creadas deliberadamente, no que salieron de la nada de forma repentina
  Gran parte del mundo fue tomada por sorpresa por la aparición repentina de la “IA”, pero también había personas que sabían que estas cosas se venían
Dar puntaje parcial está bien, pero si intentas entrenar al modelo para que dé la respuesta correcta, entonces sí importa si la respuesta es correcta o no
Al entrenar aritmética en modelos pequeños, he visto que incluso cuando la curva de pérdida llega a una meseta, algunos dígitos salen bien pero la respuesta sigue siendo incorrecta. Se puede seguir entrenando, pero parece que la cantidad de épocas de entrenamiento necesaria es inversamente proporcional de forma exponencial al tamaño del modelo
Entonces, un modelo con x parámetros termina tardando n² veces más que uno con 2x parámetros
A partir de cierto número de parámetros, obtener la respuesta correcta con entrenamiento por descenso de gradiente se vuelve casi imposible en la práctica
Cuantos más parámetros haya, más fácil es empujarlo hacia la convergencia, y esa sí es una métrica realmente importante
Llega un punto en que el tiempo esperado para que esa capacidad aparezca espontáneamente es mayor que una vida humana, e incluso mayor que la vida total de la humanidad. En ese sentido, si aumentar el tamaño del modelo es lo que la vuelve factible, creo que sí se puede decir que esa capacidad emerge de manera suficientemente abrupta
- El punto clave es que, aunque quieras un modelo que dé la respuesta correcta, para ver qué tan lejos está del objetivo debes usar puntaje parcial en vez de una exactitud binaria
  Si usas una métrica donde la mejora aparece de forma repentina e impredecible, la capacidad podría surgir espontáneamente y ni siquiera podrías estimar cuánto más entrenamiento hace falta
  En cambio, si una métrica de puntaje parcial mejora de forma suave y predecible, entonces existe la posibilidad de extrapolar el progreso del entrenamiento para estimar cuándo se alcanzará la exactitud objetivo, en lugar de extrapolar la exactitud directamente
  Si el tiempo estimado es demasiado largo y decides entrenar un modelo más grande, también podrías extrapolar entre tamaños de modelo para estimar qué tan grande tendría que ser
- El entrenamiento de modelos parece estar demasiado optimizado para la continuidad. Por ejemplo, una variable continua puede subdividirse infinitamente, pero la lógica y los algoritmos no son algo borroso de ese tipo, sino estructuras rígidas
  Para que un agente de aprendizaje realmente aprenda lógica y algoritmos, probablemente tiene que ser capaz de generalizar de conceptos borrosos a conceptos rígidos. No está claro si eso ocurrirá automáticamente solo por escalamiento o si hará falta un cambio fundamental
- ¿Vieron este envío? https://news.ycombinator.com/item?id=39575264
  Suena como una conversación relacionada
Es un buen paper. Aun así, emergencia no necesariamente exige un salto repentino en la métrica ni imprevisibilidad. Las nuevas capacidades también pueden aparecer gradualmente
- Cuando en aprendizaje automático se habla de “emergencia”, se refiere a una métrica con salto abrupto, tal como se explicó en el paper que introdujo el término: https://arxiv.org/abs/2206.07682
El modelo podría estarse volviendo más inteligente sin saltos discontinuos. Tal vez solo nos perdimos la señal de que se ha ido afinando continuamente porque lo estamos midiendo de una manera que no da crédito a las respuestas parciales
Esto también parece encajar hasta cierto punto con lo que parece pensar Sam Altman. OpenAI da la impresión de sentir que puede predecir bastante bien la capacidad de razonamiento de un modelo solo a partir del cómputo de entrenamiento y el tamaño de los datos
- Sam Altman es más bien una persona de ventas, y eso no es tanto su idea como algo que él repite de los muchos expertos que trabajan en OpenAI
Hasta un reloj parado acierta dos veces al día
Los LLM son motores de plausibilidad. La hipótesis fundamental que se está poniendo a prueba aquí es que, si aumenta la plausibilidad, también aumenta la precisión
Esa hipótesis se refuta fácilmente con solo mirar el contenido escrito por humanos que se usa para entrenar LLM, y por tanto todo fenómeno que dependa de ella tiene un techo. Por eso, escalar LLM por sí solo no va a producir AGI
- “Los LLM son motores de plausibilidad” es una forma de ver a los LLM, pero eso por sí solo no les impone automáticamente un techo a sus capacidades
  Los humanos son organismos que se reproducen, eso también es cierto. A primera vista, parecería que los humanos fueron seleccionados solo por su capacidad reproductiva y por lo tanto no podrían haber evolucionado para volverse inteligentes, pero en la práctica no fue así. Aunque sea una clasificación verdadera, no fija un límite superior a las capacidades humanas
  Los LLM evolucionan para preservar conocimiento de la manera más eficiente posible
  Una estrategia simple para preservar conocimiento es la memorización, y las redes neuronales sin duda pueden memorizar
  Otra estrategia es usar algoritmos. Las redes neuronales también pueden evolucionar para preservar conocimiento mediante algoritmos. Por ejemplo, se vio que una red neuronal pequeña desarrolló una estructura parecida a FFT para realizar sumas. Al principio comenzó con memorización y no era perfecta, pero al final del entrenamiento cambió a un algoritmo de suma basado en FFT y produjo resultados perfectos
  Creo que los LLM mejores preservan conocimiento mediante compresión sofisticada. Eso incluye construir un modelo del mundo y una forma de conectar el texto de entrada con ese modelo
  Eso me parece un componente de una máquina de razonamiento. Es incompleto, tiene bugs, y la arquitectura actual podría llegar pronto a su límite, pero es algo completamente distinto de la memorización pura
- Estás asumiendo que los humanos persiguen de forma estable la precisión y no la plausibilidad
  El hecho de que todo el sistema científico esté diseñado para reprimir afirmaciones que suenan plausibles pero son incorrectas más bien demuestra lo contrario
- En el sentido filosófico, sí, pero en la práctica la IA va camino de superar a los humanos en muchas tareas y trabajos que antes se consideraban requerían inteligencia
- La conclusión de que “todo fenómeno que dependa de eso tiene un techo” suena plausible, pero se rompe fácilmente con contraejemplos. Un buen estudiante puede superar a su maestro, y hasta un estudiante mediocre puede superar a todos si aprende de varios maestros
  Como comentario al margen, por eso creo que el sistema medieval de master-journeyman era muy eficiente
  En un plano más abstracto, esa conclusión parece asumir que el aprendizaje por transferencia no existe
La métrica que usan los autores me resulta confusa
La distancia de edición parece una forma rara de probar si el modelo entiende aritmética([1], Figure 3). 1+3=3 probablemente se trataría como igual de correcto que 1+1=9
Me pregunto por qué no miran cuánto se desvía la salida del modelo respecto al valor real con abs(actual-expected). También me pregunto si en esa métrica aparece un punto de inflexión
https://arxiv.org/abs/2206.07682
- Depende de cómo se haga la aritmética. Si una persona hace suma en columna, 12345+35791=58136 es un error tan grande como 48146. El resultado real es 48136, y en ambos casos solo hay una columna de dígitos equivocada. Un medio sumador binario también funciona de esa manera
  No sabemos cómo hace aritmética un LLM. La distancia de edición de tokens podría ser interesante, pero en cualquier caso la afirmación del paper en sí no cambia mucho
  Aparte, el link está mal. El paper del que hablas es este: https://arxiv.org/pdf/2304.15004.pdf

La capacidad “repentina” de los LLM podría ser gradual y predecible

El salto repentino de rendimiento que vio BIG-bench

La objeción de Stanford: podría ser una ilusión creada por las métricas, no por el modelo

Tamaño del modelo y objeto de evaluación

El límite de la métrica de exactitud visto en sumas de tres dígitos

Debate aún abierto

Tareas para predecir modelos más grandes

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News