Según hallazgos recientes, los LLM tienen dificultades con tareas composicionales

(quantamagazine.org)

11 puntos por GN⁺ 2025-02-03 | 5 comentarios | Compartir por WhatsApp

Los LLM tienen dificultades con las tareas composicionales (Compositional Task), lo que sugiere que sus capacidades tienen límites
- Este problema muestra que los LLM no pueden razonar más allá de lo que han visto en los datos de entrenamiento
El 17 de diciembre de 1962, Life International publicó un rompecabezas lógico compuesto por 15 oraciones
Cada oración daba una pista, como “el británico vive en la casa roja” o “en la casa del centro se bebe leche”
Los atributos como el color de las cinco casas, la nacionalidad de los residentes, las mascotas y las bebidas eran todos distintos, y la pregunta clave era “¿quién tiene la cebra?”
Este problema se conoce como Einstein’s puzzle (o riddle), y recientemente se ha usado como métrica para medir la capacidad de razonamiento de varios pasos de los modelos de machine learning, en especial los modelos de lenguaje de gran escala (LLM)
Nouha Dziri, científica investigadora del Allen Institute for AI, y sus colegas aplicaron LLM como ChatGPT a este rompecabezas para confirmar sus limitaciones
Quedó en evidencia que a los LLM les cuesta resolver problemas complejos que van más allá de lo que vieron en sus datos de entrenamiento
Esto muestra la dificultad del razonamiento composicional (compositional reasoning), que consiste en “integrar los resultados resueltos paso a paso hasta llegar a la respuesta final”
El equipo de Dziri sostiene que los LLM tienen una limitación estructural porque se entrenan solo mediante predicción de palabras
Otros investigadores también demostraron que la arquitectura transformer, hoy ampliamente usada, tiene limitaciones matemáticas para resolver este tipo de problemas complejos
Aunque siguen apareciendo modelos cada vez más potentes, surge la perspectiva de que quizá no puedan resolver de manera fundamental todos los problemas de razonamiento composicional
Andrew Wilson (NYU) comentó que este tipo de estudios lleva a la comunidad de investigación en IA a reconsiderar si debe seguir impulsando un enfoque centrado en transformers

Las dudas que despiertan resultados sorprendentes

Según Dziri, cuando los LLM empezaron a mostrar capacidades lingüísticas sorprendentes, creció la curiosidad por saber si realmente podían razonar
Aunque los LLM se entrenan de una forma simple —prediciendo cómo completar oraciones— a partir de la enorme cantidad de texto disponible en internet, aun así logran realizar tareas complejas como procesamiento de lenguaje natural, resumen de documentos y generación de código
OpenAI o1, GPT-4, Gemini de Google y Claude de Anthropic son algunos de los grandes modelos representativos
Pero estos modelos a veces también cometen errores inesperados en problemas que a los humanos les parecen simples
Por ejemplo, se han reportado casos en los que fallan con frecuencia incluso en multiplicaciones sencillas
Según la investigación de Dziri, cuando se le pidió a GPT-4 hacer multiplicaciones de tres cifras, solo acertó el 59%; con multiplicaciones de cuatro cifras, la tasa cayó drásticamente al 4%
En versiones modificadas de Einstein’s puzzle, cuando las casas eran pequeñas (2-3 atributos) mostraba alta precisión, pero cuando los atributos pasaban a 4-5, la tasa de éxito bajaba de forma dramática
Cuando GPT-3 fue ajustado finamente con 1.8 millones de datos de multiplicación, resolvía bien los casos dentro del rango incluido en el entrenamiento, pero al preguntarle en un formato distinto al de los ejemplos de entrenamiento, la precisión se desplomaba
La conclusión es que el modelo no entendía el algoritmo en sí, sino que más bien imitaba apoyándose en los ejemplos de entrenamiento

Límites evidentes

El problema que Dziri y otros investigadores señalan en común es la falta de “capacidad de razonamiento composicional”
Binghui Peng (Stanford University) observó durante su doctorado en Columbia que los LLM fallaban con frecuencia en preguntas que combinaban hechos, como “¿quién es el padre del padre?”
Calculó cuántos parámetros necesitaba una capa simple de transformer para resolver este tipo de problema, y concluyó que si el tamaño del dominio es mayor que el número de parámetros del modelo, entonces el problema no puede resolverse
Después, incluso al extenderlo a transformers de múltiples capas, demostró que al enfrentarse a problemas complejos de razonamiento composicional, la limitación matemática seguía siendo insalvable
Es decir, al aumentar la escala del modelo puede resolver problemas más difíciles, pero si al mismo tiempo también aumenta la dificultad del problema, vuelve a aparecer el límite
Algunos investigadores probaron otras estructuras de redes neuronales aparte de transformers, como los state-space models, pero se confirmaron limitaciones similares

Intentos por superar los límites

Se han propuesto varias medidas complementarias para superar las limitaciones de los LLM
Por ejemplo, el equipo de Tom Goldstein (University of Maryland) añadió información posicional al ingresar números en un transformer, lo que permitió realizar operaciones con cifras más grandes
Con este trabajo, un modelo entrenado con números de 20 dígitos mostró 98% de precisión incluso en sumas con números de 100 dígitos
Otro método consiste en la técnica de chain-of-thought, que presenta paso a paso el proceso de resolución dentro del prompt
Se ha observado que modelos como GPT-4 muestran, mediante este método, el potencial para resolver problemas más complejos
Esto se basa en el principio de “descomponer un gran problema en una cadena de problemas pequeños”, y se ha propuesto una interpretación teórica según la cual este enfoque amplía el rango de operaciones que un transformer puede manejar
Sin embargo, los modelos reales no muestran esta capacidad en todos los problemas, y los resultados varían según el método de entrenamiento y la estructura del modelo
En última instancia, como los LLM se basan en pattern matching, siempre existirán límites en el caso de problemas de razonamiento composicional grandes o complejos
Aun así, para los usuarios generales estas limitaciones podrían no ser tan importantes
En cambio, para los investigadores que construyen los modelos, entender y corregir las limitaciones estructurales es una tarea clave
Dziri enfatiza que “si logramos comprender con precisión el funcionamiento interno de los LLM, aumentan las posibilidades de resolver sus problemas fundamentales”

5 comentarios

ned0909 2025-02-05

Eso fue antes de la era del razonamiento.

bakyeono0 2025-02-04

Hay un problema porque el símbolo ~ se reconoce como marca de tachado de Markdown. Agradecería que lo corrigieran.

rabolution 2025-02-04

Al programar usando LLM, por eso he visto que mientras más baja sea la dependencia entre componentes y mejor se separen las responsabilidades, mejor funcionan. La verdad, también me da la impresión de que con las personas pasa lo mismo. ;)

hided62 2025-02-03

El artículo en sí es reciente, pero parece que la base del texto es anterior a o1.

Preguntaron algo como: "La hija de la hermana de la madre del hermano menor del padre, ¿qué grado de parentesco tiene conmigo?"
4o claramente tiene limitaciones, pero o1 incluso evitaba todas las trampas.

GN⁺ 2025-02-03

Opiniones de Hacker News

Los LLM, como otros modelos de aprendizaje automático, tienen la característica de hacer coincidencia de patrones en los datos de entrada para producir resultados estadísticamente probables
- El "Chain of thought" combinado con aprendizaje por refuerzo permite resolver problemas difíciles
- Se necesita una definición clara del éxito y un modelo de recompensas
- La capacidad humana para resolver problemas también depende de la coincidencia de patrones, y los humanos pueden integrar grandes cantidades de información de forma eficiente
Los LLM son una maravilla de la IA y están avanzando cada dos meses en cosas que antes se consideraban imposibles
- Algunos científicos están subestimando los logros de los LLM
- LeCun dijo que los LLM son un callejón sin salida y les planteó a los investigadores otra dirección
- El hecho de que los resultados de los LLM de Meta estén rezagados frente a los de otras empresas podría estar relacionado con este escepticismo
Hay mucha desinformación sobre la investigación en LLM
- Los modelos de hace 6-12 meses solo pueden hacer razonamiento simple
- Las tareas lógicas y algorítmicas complejas requieren pensamiento de sistema 2
- Los LLM pueden pensar mediante programación
o3-mini-high pudo generar código Prolog rápidamente
- El código Prolog dado como ejemplo logró resolver el problema con éxito
Los resultados de investigación recientes tratan sobre GPT-3, 3.5 y la primera generación de 4
ChatGPT se siente como un motor de búsqueda rápido, con muchas alucinaciones y contexto limitado
- Hay muchas promesas sobre avances futuros, pero poco progreso real
Hay que distinguir si los resultados de investigación analizan un LLM puro o un motor de síntesis con LLM
- El desempeño de o3 en ARC-AGI-1 muestra la capacidad de un motor de síntesis
Los LLM pueden fallar en preguntas simples que requieren pensamiento en 2D o 3D
- La IA puede entrenarse para representar bien el mundo 2D/3D
Cuando en un artículo se mencionan las limitaciones de los LLM, unos meses después aparece un chatbot sin esas limitaciones
- Estas limitaciones no son fundamentales
Para cuando se publica la investigación académica, muchas veces ya han pasado varios meses
- Si quieres conocer los límites de la tecnología más reciente, es mejor consultar redes sociales que artículos académicos