El conocimiento procedimental del preentrenamiento guía el razonamiento de los LLM

(arxiv.org)

1 puntos por GN⁺ 2024-12-03 | 1 comentarios | Compartir por WhatsApp

La evaluación del razonamiento de los LLM está perdiendo solidez por la saturación de benchmarks y la contaminación de datos, y este estudio rastrea los documentos de preentrenamiento que influyeron en la salida en lugar de centrarse en los pesos del modelo
Se clasificaron los documentos influyentes para 40 consultas fácticas y 40 consultas de razonamiento usando Cohere Command R 7B y 35B, sobre 2.5 mil millones de tokens de preentrenamiento y 5 millones de documentos
Las consultas fácticas mostraron documentos influyentes distintos para cada pregunta, pero las consultas de razonamiento de una misma tarea matemática exhibieron patrones de influencia similares entre varias preguntas, lo que sugiere la existencia de conocimiento procedimental
Mientras que las respuestas de las consultas fácticas aparecían con frecuencia en el 0.01% superior de documentos influyentes, las respuestas correctas o los pasos intermedios de las consultas de razonamiento por lo general no aparecían en los documentos más influyentes
El razonamiento se parece más a sintetizar procesos de solución generalizables a partir de documentos que contienen procedimientos similares, que a recuperar respuestas vistas previamente

Rastrear documentos de preentrenamiento más allá de la contaminación de benchmarks

Los LLM muestran rápidamente un alto desempeño en varios benchmarks de razonamiento, pero por la contaminación de datos es difícil interpretar directamente esos puntajes como capacidad de generalización
- En el aprendizaje automático tradicional, los datos de entrenamiento y de prueba se separan para medir la generalización
- Como los modelos de punta actuales usan datos a escala de billones de tokens, es difícil evitar la posibilidad de que los benchmarks se mezclen con los datos de preentrenamiento
- Incluso datos de benchmark reformulados pueden influir en el rendimiento evitando la detección basada en n-gramas
La pregunta central es cómo aprenden a razonar los LLM a partir de los datos de preentrenamiento
- Si recuperan y recombinan respuestas o rastros de razonamiento ya vistos
- O si aprenden procedimientos de varios documentos relacionados de forma más abstracta con la pregunta y luego generalizan
El análisis no interpreta directamente los pesos internos del modelo, sino que retrocede hasta los documentos de preentrenamiento que influyeron en una salida específica
- Usa un enfoque de funciones de influencia basado en técnicas de estadística robusta adaptadas a Transformers a gran escala
- Calcula cuánto influye cada documento de preentrenamiento en la probabilidad de un par específico de prompt y completación

Configuración experimental

El experimento se realizó sobre dos modelos de Cohere: Command R 7B y 35B
Los datos de preentrenamiento analizados suman 2.5 mil millones de tokens, tratados como 5 millones de documentos
Las consultas fueron 80 en total
- 40 consultas fácticas: preguntas que requieren recuperar una respuesta desde conocimiento paramétrico
- 40 consultas de razonamiento: preguntas simples de razonamiento matemático
Las consultas de razonamiento incluyeron tres tareas matemáticas
- Aritmética de 2 pasos
- Cálculo de pendiente
- Resolución de ecuaciones lineales
Para cada consulta, se clasificaron 5 millones de documentos de preentrenamiento según su influencia sobre la probabilidad de salida del modelo

En razonamiento, se repiten documentos con el mismo procedimiento

Distintas consultas de razonamiento pertenecientes a una misma tarea matemática mostraron patrones de influencia de documentos similares
- La influencia de un documento sobre el rastro de razonamiento de una consulta predice fuertemente su influencia sobre otras consultas de la misma tarea
- Este patrón se confirmó en 3 de 4 casos
Los documentos no corresponden solo a un número o respuesta específica, sino que contribuyen de forma similar a varias preguntas que aplican el mismo procedimiento con números distintos
En cambio, las consultas fácticas dependen principalmente de conjuntos de datos distintos para cada pregunta, y no muestran patrones compartidos de influencia como las consultas de razonamiento
En la tarea de cálculo de pendiente, la correlación fue especialmente fuerte
- En muchas consultas de esta tarea, dentro del 0.002% superior de los datos de preentrenamiento aparecieron repetidamente procedimientos de solución en forma de código o expresiones matemáticas

La recuperación de hechos y el razonamiento difieren en la naturaleza de los documentos influyentes

En las consultas fácticas, la respuesta misma aparece con frecuencia en documentos altamente influyentes
- Entre los 500 documentos principales, es decir, el 0.01% superior de documentos influyentes, el 55% de las consultas del modelo 7B y el 30% de las del modelo 35B contenían la respuesta
En las consultas de razonamiento, la respuesta correcta casi no aparece en los documentos más influyentes
- Incluso cuando la respuesta correcta puede encontrarse en el total de 2.5 mil millones de tokens, normalmente no aparece en los documentos de mayor influencia
- Las respuestas de los pasos intermedios de razonamiento tampoco suelen estar incluidas en los documentos más influyentes
En las consultas de razonamiento, la influencia de cada documento individual por unidad de información generada por la consulta del modelo suele ser menor que en las consultas fácticas
- Al generar un rastro de razonamiento, el modelo depende menos de cada documento por separado
La magnitud total de influencia del conjunto de documentos influyentes también es menos variable en las consultas de razonamiento
- Que un subconjunto aleatorio de los 2.5 mil millones de tokens de preentrenamiento incluya documentos extremadamente influyentes depende más del azar en las consultas fácticas
Tomados en conjunto, estos dos patrones sugieren que el razonamiento depende menos de documentos individuales y está más cerca de generalizar a partir de conjuntos documentales más generales

El papel del código y de los datos procedimentales de alta calidad

En la parte alta de los rankings de influencia positiva y negativa para consultas de razonamiento matemático, los datos de código están fuertemente sobrerrepresentados frente a la distribución de entrenamiento
Se confirma evidencia de que el código cumple un papel importante en todas las tareas matemáticas analizadas
El razonamiento del modelo difiere de un método de recuperar respuestas desde conocimiento paramétrico formado durante el preentrenamiento
- Explicaciones generales de procedimientos
- Ejemplos donde se aplican procedimientos similares
- Documentos que muestran procesos de solución mediante código o fórmulas
En lugar de meter todos los casos posibles en los datos de preentrenamiento, podría ser más efectivo enfocarse en datos de alta calidad que muestren procedimientos en diversas tareas de razonamiento
El alcance del estudio se limita a casos en que se aprende un procedimiento dentro de una misma tarea matemática
- Queda abierta la pregunta de si existen tipos de datos de preentrenamiento, como el código, que permitan aprender procedimientos a través de múltiples tareas

1 comentarios

GN⁺ 2024-12-03

Opiniones de Hacker News

Parece obvio que un LLM no puede encontrar ejemplos de todos los problemas en los datos de entrenamiento. No puede haber suficientes ejemplos para lo que se necesita en una consulta factual tipo recuperación de información, así que puede verse como que genera una solución nueva mediante alguna forma de extrapolación para el problema dado.
Lo interesante es que este artículo tampoco contradice las conclusiones del artículo de Apple sobre LLM[0]. Ese artículo modificó los prompts para hacer que el LLM cometiera errores, y es razonable creer que, incluso cuando un LLM crea soluciones nuevas, solo puede producir pequeñas desviaciones respecto de soluciones de ejemplo existentes.
No me gusta llamar “razonamiento” a este proceso de generación de soluciones. Lo veo más como un término creado por las empresas de LLM para provocar una reacción emocional al hablar de la tecnología. Aun así, que ahora podamos hacer que una máquina siga una serie de pasos usando lenguaje natural y cierto grado de ambigüedad es un gran avance.
[0] https://machinelearning.apple.com/research/gsm-symbolic
- Estoy muy de acuerdo con la postura de que los LLM no encajan bien con el razonamiento en el sentido de resolución creativa de problemas o aplicación de lógica. Creo que el verdadero potencial en esta área está en usarlos como una especie de capa compiladora entre el lenguaje natural impreciso y lenguajes formales como SQL, Prolog, Python o Lean.
  Después se pueden sintetizar los resultados o salidas de esa capa de lenguaje formal y, básicamente, se convierte en un “agente”. Dicho eso, sí creo que los LLM pueden hacer tareas de “razonamiento lingüístico”. No tengo claro dónde está la frontera entre razonamiento lingüístico, cualitativo y cuantitativo; me hace pensar en la sección verbal de los exámenes estandarizados.
- Se puede creer que “genera soluciones nuevas mediante alguna forma de extrapolación”, pero me pregunto qué evidencia estás usando para sostener esa creencia.
  Además, el resumen del artículo de Apple dice que cambiaron los valores numéricos iniciales, en lugar de usar alguna formulación astuta como “daño”.
- La antropomorfización de las computadoras existe desde mucho antes de ChatGPT. Cuando una computadora moría y no se guardaba un documento, la gente decía “la computadora se comió mi tarea”, pero nadie pensaba que realmente se la hubiera comido; era solo una forma fácil de referirse a lo que acababa de pasar.
  Incluso antes de los LLM se podía decir “la computadora está pensando”. No todo el mundo conoce la terminología matemática, así que si dijeras “Claude hizo un producto interno con mi ensayo” o “le hice hacer un producto interno a ChatGPT para una carta a mi jefe”, mucha gente no sabría qué es un producto interno. Aunque haya un verbo técnicamente más preciso, ¿quién lo usaría?
  No es que las empresas de IA no hayan impulsado expresiones como “pensar” o “razonar”, pero también son las palabras más cómodas de usar. Decimos que el modelo “piensa” que strawberry tiene dos R, no que “hace un producto interno”. También hace multiplicación de matrices, a veces softmax y convoluciones, pero la mayoría no somos Terence Tao, así que no tenemos una intuición de que algo esté haciendo softmax.
- Estas empresas promocionan sus modelos de IA como si fueran IA que piensan y razonan por sí mismas, pero en realidad creo que están más cerca de estar entrenadas con conjuntos de datos enormes y extrapolar a partir de eso para encontrar la respuesta correcta.
  Aun así, no pueden pensar fuera de la caja de su propio conjunto de datos.
¿Significa esto que los humanos tienen que resolver los problemas paso a paso para que una red neuronal pueda imitarlos? Al escribirlo así, suena bastante obvio.
- Creo que no. Si entendí bien, significa que el software absorbe ejemplos de resolución procedimental de problemas y aprende métodos generales para resolver problemas.
Esto podría explicar los beneficios inesperados de entrenar con código.
- Suena interesante, pero soy lego en el tema y no estoy seguro. Me pregunto si podrías pasar algún enlace relacionado.
  Encontré https://arxiv.org/abs/2408.10914, pero no tengo el contexto suficiente para saber si es el artículo al que te refieres.
Me sorprende que se esté recomendando la frase “Los LLM muestran capacidades generales para resolver problemas, pero también brechas de razonamiento sorprendentes en comparación con los humanos, lo que pone en duda la solidez de sus estrategias de generalización”.
Porque en HN había una cantidad sorprendente de gente que pensaba que los LLM no razonan en absoluto y que solo deben explicarse desde la perspectiva de que son predictores del siguiente token. La última vez que hablé de inteligencia en LLM, alguien me dijo de forma grosera que estudiara cómo funcionan, que ya sabemos exactamente cómo operan y que son simplemente predictores de tokens.
- Creo que esas “brechas sorprendentes” existen precisamente porque los LLM no razonan. Al menos no razonan sobre los objetos en los que piensa un humano al resolver un problema; más bien manejan otros conjuntos de hechos frecuentemente correlacionados sobre relaciones entre tokens en el texto.
  Los modos de falla muestran esa diferencia con la mayor claridad. La salida de un LLM solo tiene significado en el sentido habitual cuando un humano le atribuye un significado externo a posteriori. Un LLM no deja de funcionar ni se “confunde” si le metes galimatías. Esto se debe a que el significado que extrae no depende del significado que le atribuimos los humanos; simplemente lo alimentamos con cosas que consideramos no galimatías y, por casualidad, hicimos que ambas cosas coincidieran. En cuanto a “cómo funciona realmente”, es un asunto distinto.
- La gente más ruidosa suele estar en posiciones extremas, y lo mismo pasa con preguntas como “¿una IA concreta es inútil/sobrehumana en un área concreta?”. Puede que sea solo una percepción, pero como dijo CGP Grey, tal vez la controversia misma es lo que los mantiene vivos durante más tiempo: https://www.youtube.com/watch?v=rE3j_RHkqJc
  Si estás en una postura intermedia, recibes ataques de ambos extremos. Es una posición extraña: pensar algo como “es una herramienta útil, pero veo muchas formas en que puede romperse” parece estar fuera de la ventana de Overton en este tema. Me da curiosidad cómo habrá sido el discurso cotidiano real sobre los telares durante la Revolución Industrial, no el resumen moderno, sino el ambiente de verdad.
- Ambas cosas pueden ser ciertas al mismo tiempo. Sí, los LLM son predictores del siguiente token, pero a veces, para hacerlo correctamente, necesitan entender de verdad todo lo anterior y razonar lógicamente.
  Como se atribuye a Sutskever, si la entrada del modelo es la mayor parte de una novela policial y el siguiente token es el nombre del culpable, entonces el modelo entendió la novela. Un Transformer es un aproximador de funciones arbitrarias, así que no hay límites rígidos sobre lo que puede o no puede hacer.
- Creo que “predictor del siguiente token” e inteligente no son términos mutuamente excluyentes en la práctica.
Muy relacionado con una discusión reciente https://news.ycombinator.com/item?id=42285128
Google sostiene que usar preentrenamiento es un requisito clave para lograr aunque sea un diseño de chips un poco mejor. Y argumenta que un paper de refutación que no intentó usar preentrenamiento debía esperarse que quedara muy por debajo del estado del arte en diseño de chips.
Si el razonamiento es importante en el diseño de chips, y el preentrenamiento es importante para extraer razonamiento de los grandes modelos de lenguaje, la lógica de Google es bastante razonable. Si Google, aun usando preentrenamiento, apenas superó el estado del arte, entonces es correcto esperar que un intento sin preentrenamiento quede muy por debajo del estado del arte actual. Por lo tanto, el bajo rendimiento de ese segundo intento no dice nada sobre si los resultados de Google son plausibles o no.
- No soy experto en el área de aplicación específica de ese artículo, pero sí entiendo por qué el argumento del preentrenamiento podría ser válido. No es muy controversial decir que el preentrenamiento de redes neuronales mejora el rendimiento en aprendizaje con pocos ejemplos.
  En todo problema parece probable que exista un punto de inflexión en el que una red neuronal preentrenada tenga mejor rendimiento con pocos ejemplos que enfoques con menores requisitos de datos, como características hechas a mano o supuestos previos fuertes. Pero aquí la pregunta parece ser si este caso ya llegó a ese punto de inflexión.
“En el caso extremo, un modelo de lenguaje que responde preguntas de razonamiento podría depender en gran medida de recuperar conocimiento paramétrico influido por un conjunto limitado de documentos dentro de los datos de preentrenamiento. En ese caso, la información que se recuperará —es decir, documentos específicos que contienen trazas de razonamiento— contribuiría de forma importante a la salida del modelo, mientras que muchos otros documentos tendrían un papel mínimo”.
“En cambio, en el otro extremo del espectro, el modelo se nutre de una amplia gama de documentos relacionados con la pregunta de forma más abstracta; cada documento influye de manera similar en varias preguntas, pero puede aportar una cantidad relativamente pequeña a la salida final. Proponemos que el razonamiento generalizable debería parecerse a esta última estrategia”.
Pero si el modelo puede generalizar a partir de un solo ejemplo, ¿no sería eso mucho más impresionante?
Estoy de acuerdo. Lo importante no son tanto los hechos, sino los datos de entrenamiento de razonamiento. Entre los datos no sintéticos, lo más fácil de conseguir probablemente sean las demostraciones matemáticas.
Con algo como Prolog se pueden generar múltiples rutas alternativas de razonamiento. Es difícil decir si estas rutas múltiples ayudarían a entrenar LLMs sin acceder a máquinas enormes y probarlo directamente. Eso es demasiado injusto.
Como lego, ¿esta conclusión se parece a AlphaGo vs. AlphaZero? ¿En el sentido de que el conocimiento procedimental humano ayuda al entrenamiento de machine learning hasta cierto punto, pero después empieza a ser una limitación?
- No. Significa que el modelo analizado usó principalmente información sobre cómo resolver problemas matemáticos, más que documentos de los datos de entrenamiento que contenían respuestas al mismo problema matemático.
  “Investigamos qué datos influyen en las trazas de razonamiento generadas por el modelo, y qué relación tienen esos datos con el problema específico tratado. ¿El modelo simplemente ‘recupera’ respuestas de datos de preentrenamiento que ya había visto y las recombina, o usa una estrategia de generalización más robusta?”
  “Al caracterizar cualitativamente los documentos principales para preguntas de razonamiento, observamos que los documentos influyentes a menudo contienen conocimiento procedimental, por ejemplo mostrando cómo obtener una solución usando fórmulas o código. Nuestros resultados indican que el tipo de razonamiento que usa el modelo es distinto de la recuperación, y se acerca más a una estrategia generalizable que sintetiza conocimiento procedimental a partir de documentos que realizan formas similares de razonamiento”.
  Ejemplo de pregunta de razonamiento: “Prompt Calculate the answer: (7 - 4) * 7 Think step-by-step.”
¿Esto significa que los LLM podrían rendir mejor si se entrenaran con grandes volúmenes de material como apuntes de estudiantes, exámenes y reseñas de libros? Si es así, sería realmente interesante.
- A veces me pregunto por qué no se entrenan sistemas de IA con currículos educativos sumándoles juegos y actividades lúdicas.
  También podría ser fascinante probar distintos sistemas educativos de todo el mundo y ver qué sale.
Puede ser una pregunta tonta, pero entonces ¿por qué las imágenes generadas terminan siendo disparates de pesadilla? ¿Por qué no puede construir diagramas de forma procedimental?

El conocimiento procedimental del preentrenamiento guía el razonamiento de los LLM

Rastrear documentos de preentrenamiento más allá de la contaminación de benchmarks

Configuración experimental

En razonamiento, se repiten documentos con el mismo procedimiento

La recuperación de hechos y el razonamiento difieren en la naturaleza de los documentos influyentes

El papel del código y de los datos procedimentales de alta calidad

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News