- Los LLM tienen dificultades con las tareas composicionales (Compositional Task), lo que sugiere que sus capacidades tienen límites
- Este problema muestra que los LLM no pueden razonar más allá de lo que han visto en los datos de entrenamiento
- El 17 de diciembre de 1962, Life International publicó un rompecabezas lógico compuesto por 15 oraciones
- Cada oración daba una pista, como “el británico vive en la casa roja” o “en la casa del centro se bebe leche”
- Los atributos como el color de las cinco casas, la nacionalidad de los residentes, las mascotas y las bebidas eran todos distintos, y la pregunta clave era “¿quién tiene la cebra?”
- Este problema se conoce como Einstein’s puzzle (o riddle), y recientemente se ha usado como métrica para medir la capacidad de razonamiento de varios pasos de los modelos de machine learning, en especial los modelos de lenguaje de gran escala (LLM)
- Nouha Dziri, científica investigadora del Allen Institute for AI, y sus colegas aplicaron LLM como ChatGPT a este rompecabezas para confirmar sus limitaciones
- Quedó en evidencia que a los LLM les cuesta resolver problemas complejos que van más allá de lo que vieron en sus datos de entrenamiento
- Esto muestra la dificultad del razonamiento composicional (compositional reasoning), que consiste en “integrar los resultados resueltos paso a paso hasta llegar a la respuesta final”
- El equipo de Dziri sostiene que los LLM tienen una limitación estructural porque se entrenan solo mediante predicción de palabras
- Otros investigadores también demostraron que la arquitectura transformer, hoy ampliamente usada, tiene limitaciones matemáticas para resolver este tipo de problemas complejos
- Aunque siguen apareciendo modelos cada vez más potentes, surge la perspectiva de que quizá no puedan resolver de manera fundamental todos los problemas de razonamiento composicional
- Andrew Wilson (NYU) comentó que este tipo de estudios lleva a la comunidad de investigación en IA a reconsiderar si debe seguir impulsando un enfoque centrado en transformers
Las dudas que despiertan resultados sorprendentes
- Según Dziri, cuando los LLM empezaron a mostrar capacidades lingüísticas sorprendentes, creció la curiosidad por saber si realmente podían razonar
- Aunque los LLM se entrenan de una forma simple —prediciendo cómo completar oraciones— a partir de la enorme cantidad de texto disponible en internet, aun así logran realizar tareas complejas como procesamiento de lenguaje natural, resumen de documentos y generación de código
- OpenAI o1, GPT-4, Gemini de Google y Claude de Anthropic son algunos de los grandes modelos representativos
- Pero estos modelos a veces también cometen errores inesperados en problemas que a los humanos les parecen simples
- Por ejemplo, se han reportado casos en los que fallan con frecuencia incluso en multiplicaciones sencillas
- Según la investigación de Dziri, cuando se le pidió a GPT-4 hacer multiplicaciones de tres cifras, solo acertó el 59%; con multiplicaciones de cuatro cifras, la tasa cayó drásticamente al 4%
- En versiones modificadas de Einstein’s puzzle, cuando las casas eran pequeñas (2-3 atributos) mostraba alta precisión, pero cuando los atributos pasaban a 4-5, la tasa de éxito bajaba de forma dramática
- Cuando GPT-3 fue ajustado finamente con 1.8 millones de datos de multiplicación, resolvía bien los casos dentro del rango incluido en el entrenamiento, pero al preguntarle en un formato distinto al de los ejemplos de entrenamiento, la precisión se desplomaba
- La conclusión es que el modelo no entendía el algoritmo en sí, sino que más bien imitaba apoyándose en los ejemplos de entrenamiento
Límites evidentes
- El problema que Dziri y otros investigadores señalan en común es la falta de “capacidad de razonamiento composicional”
- Binghui Peng (Stanford University) observó durante su doctorado en Columbia que los LLM fallaban con frecuencia en preguntas que combinaban hechos, como “¿quién es el padre del padre?”
- Calculó cuántos parámetros necesitaba una capa simple de transformer para resolver este tipo de problema, y concluyó que si el tamaño del dominio es mayor que el número de parámetros del modelo, entonces el problema no puede resolverse
- Después, incluso al extenderlo a transformers de múltiples capas, demostró que al enfrentarse a problemas complejos de razonamiento composicional, la limitación matemática seguía siendo insalvable
- Es decir, al aumentar la escala del modelo puede resolver problemas más difíciles, pero si al mismo tiempo también aumenta la dificultad del problema, vuelve a aparecer el límite
- Algunos investigadores probaron otras estructuras de redes neuronales aparte de transformers, como los state-space models, pero se confirmaron limitaciones similares
Intentos por superar los límites
- Se han propuesto varias medidas complementarias para superar las limitaciones de los LLM
- Por ejemplo, el equipo de Tom Goldstein (University of Maryland) añadió información posicional al ingresar números en un transformer, lo que permitió realizar operaciones con cifras más grandes
- Con este trabajo, un modelo entrenado con números de 20 dígitos mostró 98% de precisión incluso en sumas con números de 100 dígitos
- Otro método consiste en la técnica de chain-of-thought, que presenta paso a paso el proceso de resolución dentro del prompt
- Se ha observado que modelos como GPT-4 muestran, mediante este método, el potencial para resolver problemas más complejos
- Esto se basa en el principio de “descomponer un gran problema en una cadena de problemas pequeños”, y se ha propuesto una interpretación teórica según la cual este enfoque amplía el rango de operaciones que un transformer puede manejar
- Sin embargo, los modelos reales no muestran esta capacidad en todos los problemas, y los resultados varían según el método de entrenamiento y la estructura del modelo
- En última instancia, como los LLM se basan en pattern matching, siempre existirán límites en el caso de problemas de razonamiento composicional grandes o complejos
- Aun así, para los usuarios generales estas limitaciones podrían no ser tan importantes
- En cambio, para los investigadores que construyen los modelos, entender y corregir las limitaciones estructurales es una tarea clave
- Dziri enfatiza que “si logramos comprender con precisión el funcionamiento interno de los LLM, aumentan las posibilidades de resolver sus problemas fundamentales”
5 comentarios
Eso fue antes de la era del razonamiento.
Hay un problema porque el símbolo
~se reconoce como marca de tachado de Markdown. Agradecería que lo corrigieran.Al programar usando LLM, por eso he visto que mientras más baja sea la dependencia entre componentes y mejor se separen las responsabilidades, mejor funcionan. La verdad, también me da la impresión de que con las personas pasa lo mismo. ;)
El artículo en sí es reciente, pero parece que la base del texto es anterior a o1.
Preguntaron algo como: "La hija de la hermana de la madre del hermano menor del padre, ¿qué grado de parentesco tiene conmigo?"
4o claramente tiene limitaciones, pero o1 incluso evitaba todas las trampas.
Opiniones de Hacker News
Los LLM, como otros modelos de aprendizaje automático, tienen la característica de hacer coincidencia de patrones en los datos de entrada para producir resultados estadísticamente probables
Los LLM son una maravilla de la IA y están avanzando cada dos meses en cosas que antes se consideraban imposibles
Hay mucha desinformación sobre la investigación en LLM
o3-mini-highpudo generar código Prolog rápidamenteLos resultados de investigación recientes tratan sobre GPT-3, 3.5 y la primera generación de 4
ChatGPT se siente como un motor de búsqueda rápido, con muchas alucinaciones y contexto limitado
Hay que distinguir si los resultados de investigación analizan un LLM puro o un motor de síntesis con LLM
Los LLM pueden fallar en preguntas simples que requieren pensamiento en 2D o 3D
Cuando en un artículo se mencionan las limitaciones de los LLM, unos meses después aparece un chatbot sin esas limitaciones
Para cuando se publica la investigación académica, muchas veces ya han pasado varios meses