La ilusión del pensamiento: comprender las limitaciones de los LLM de razonamiento

(ml-site.cdn-apple.com)

21 puntos por GN⁺ 2025-06-07 | 1 comentarios | Compartir por WhatsApp

Los Large Reasoning Models (LRMs) han mostrado cierta mejora de desempeño al resolver problemas complejos, pero también han dejado en evidencia limitaciones fundamentales y problemas de escalabilidad
Los LRMs muestran un fenómeno en el que el proceso de razonamiento colapsa bruscamente a medida que aumenta la dificultad del problema; además, el análisis revela una paradoja: cuando el esfuerzo de razonamiento (uso de tokens) supera cierto umbral, incluso disminuye
Al comparar LLM estándar y LRMs bajo los mismos recursos computacionales, los LLM estándar son mejores en baja dificultad, los LRMs tienen ventaja en dificultad intermedia, y en alta dificultad ambos fallan
Los LRMs muestran limitaciones decisivas en el razonamiento algorítmico explícito y en procesos de pensamiento consistentes, y exhiben conductas distintas o inconsistentes según cada entorno de rompecabezas
Este estudio confirma los problemas de confiabilidad y los límites de escalabilidad de los modelos actuales de razonamiento, por lo que el diseño de la próxima generación de IA requiere evaluaciones más precisas y mejoras arquitectónicas
Paper de Apple: "The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity"

Resumen general y objetivo del estudio

Con la reciente aparición de modelos especializados en razonamiento basados en grandes modelos de lenguaje (LRMs), surge la necesidad de investigar la estructura de su “pensamiento” y sus límites durante la resolución de problemas
Actualmente, la mayoría de las evaluaciones se centran en la tasa de aciertos en benchmarks de matemáticas y programación, lo que no mide con precisión ni la contaminación de datos ni la calidad del proceso interno de “pensamiento”
Este estudio introduce entornos de rompecabezas cuya complejidad puede ajustarse con precisión manteniendo la estructura lógica, para analizar no solo la respuesta final sino también el flujo de razonamiento interno

Entorno de evaluación y método experimental

Diseño de los entornos de rompecabezas

Para ajustar la complejidad de forma sistemática y controlar el experimento, se utilizaron los siguientes cuatro entornos de rompecabezas
- Torres de Hanói: la dificultad se ajusta con el número de discos; no se evalúa si la solución es óptima, sino si llega al estado objetivo
- Saltos de fichas: la complejidad se controla con la cantidad de fichas rojas, azules y espacios vacíos; el objetivo final es intercambiar sus posiciones
- Cruce del río: la dificultad se ajusta con el número de pares actor-agente y la capacidad del bote, trasladando a todos bajo restricciones
- Mundo de bloques: se ajusta con el número de bloques, pasando del estado inicial al estado objetivo de apilamiento

En cada entorno, la complejidad puede incrementarse gradualmente ajustando la cantidad de elementos del rompecabezas.

Principales resultados experimentales

1. Tres patrones de razonamiento según la complejidad

Baja complejidad: en muchos casos, el LLM estándar resulta más eficiente (ahorra tokens) que los LRMs y también logra mayor tasa de aciertos
Complejidad intermedia: el proceso de pensamiento largo (Chain-of-Thought) y la autorreflexión de los LRMs muestran ventajas de desempeño
Alta complejidad: ambos modelos presentan colapso inmediato del desempeño (tasa de aciertos 0), y en ese punto los LRMs incluso reducen el uso de tokens de razonamiento, mostrando una ineficiencia paradójica

2. Análisis profundo de las trazas de razonamiento

“Exceso de pensamiento (overthinking)”: en problemas de baja complejidad, los LRMs encuentran la respuesta correcta al principio pero luego repiten exploraciones erróneas, mostrando un patrón de desperdicio innecesario de cómputo
Dificultad intermedia: tras detectar respuestas incorrectas, avanzan gradualmente hacia la correcta, pero necesitan más exploración que antes
Alta dificultad: se confirma un “fenómeno de colapso” en el que no logran producir una solución correcta a lo largo de todo el flujo de razonamiento

3. Límites en la ejecución de algoritmos

Incluso cuando se proporciona un algoritmo definido en el prompt, el modelo no logra ejecutarlo de forma confiable ni siquiera de manera simple
Esto sugiere una carencia esencial en la capacidad de manipulación simbólica para seguir con precisión una estructura lógica, no solo para “encontrar la respuesta”

4. Problemas de benchmark y contaminación de datos

En benchmarks matemáticos existentes (MATH500, AIME24, AIME25), la brecha de desempeño entre modelos que “piensan” y los que no lo hacen no es consistente
En el caso de AIME25, la posible contaminación de datos deja en evidencia la dificultad de evaluar la verdadera capacidad de razonamiento del modelo

Conclusiones e implicaciones del estudio

Este trabajo introduce un entorno de evaluación de precisión basado en rompecabezas y ofrece un análisis empírico profundo para determinar si los LLM de razonamiento realmente poseen capacidad de pensar y dónde aparecen sus límites
Los modelos actuales de razonamiento tienen un límite fundamental: colapsan por completo más allá de cierto nivel de complejidad, y esto no se resuelve aumentando el presupuesto de tokens ni reforzando simplemente la self-reflection

Se cuestionan las limitaciones de los métodos de evaluación existentes y se propone un entorno experimental de medición
Incluso los modelos de razonamiento SOTA actuales todavía no aseguran una capacidad general de resolución de problemas
Existen límites de escalamiento en el uso de tokens de razonamiento según la complejidad
Se introduce una evaluación basada en trazas del proceso de pensamiento, analizando mecanismos de autocorrección y búsqueda de errores
Se observan fallas e inconsistencias en la ejecución de algoritmos explícitos

Estos resultados subrayan la importancia del diseño de la próxima generación de IA, de la evaluación de confiabilidad y de medir el desempeño de los modelos en entornos libres de contaminación de datos

Tendencias relacionadas de investigación

Intentos diversos de dotar a los modelos de capacidad de razonamiento, como CoT (Chain-of-Thought), técnicas de autoverificación y promoción del pensamiento basada en aprendizaje por refuerzo
Se vuelve evidente la dificultad de obtener datos CoT de alta calidad y las limitaciones de los enfoques supervised/RL
Ejemplos representativos incluyen DeepSeek-R1 y Claude 3.7 Sonnet Thinking
Se plantea el problema de la confiabilidad de las métricas de evaluación debido al fenómeno de “exceso de pensamiento” (overthinking) y a la contaminación de benchmarks
Se enfatiza la necesidad de evaluaciones basadas en entornos de rompecabezas que permitan controlar finamente la complejidad del problema

Tareas futuras y limitaciones

Se necesita más investigación sobre las limitaciones fundamentales que muestran los modelos de razonamiento al seguir lógica explícita y manipular símbolos
Incluso entre los distintos casos de entornos de rompecabezas, el comportamiento del modelo es inconsistente (por ejemplo, diferencias de desempeño entre Hanói y Cruce del río), lo que sugiere posibles límites del razonamiento basado en datos
Al diseñar sistemas de IA, es indispensable una validación precisa que incluya el flujo intermedio de razonamiento y la consistencia lógica

Este análisis ofrece implicaciones importantes no solo para aplicaciones prácticas, sino también para el diseño y el sistema de evaluación de la próxima generación de IA de razonamiento.

1 comentarios

GN⁺ 2025-06-07

Opiniones de Hacker News

Creo que una de las razones por las que esto nos confunde es que los LLM usan lenguaje; si lees ‘Biology of Large Language Models’ y ‘Safety Alignment Should Be Made More Than Just a Few Tokens Deep’, se nota que lo que realmente ocurre dentro es completamente distinto a los humanos, así que hay muchas partes en las que el resultado se siente extraño
Al diseñar sistemas con tecnología o pensar en estructuras que produzcan un resultado mayor que la suma de sus partes, sigue siendo muy difícil entender con claridad cuáles son exactamente sus capacidades
Aunque uno conozca su mecanismo de funcionamiento, hay algo raro en verlos manejar lenguaje que se siente casi como magia
Por eso también escribí este texto para ordenar mis ideas
Me parece que este tipo de investigación es realmente extraordinaria, y creo que hará falta mucho más esfuerzo para entender cómo aprovechar bien los tokens y construir las cosas de la manera correcta
[Enlaces de referencia]
- Biology of Large Language Models
- Safety Alignment Should Be Made More Than Just a Few Tokens Deep
- Me identifico con la idea de querer construir una estructura donde el sistema completo sea mayor que la suma de sus partes; personalmente creo que la programación cumple justo ese papel
  Si divides el trabajo o el problema en unidades pequeñas con la mínima interacción posible, se forma una estructura donde su combinación produce un resultado mayor
  Si este proceso se integra bien en el flujo de trabajo de programación, tengo la convicción de que incluso un LLM con bajo rendimiento podría usarse naturalmente como parte de la solución
- Por el contrario, también creo que el sistema completo puede terminar siendo peor que cada una de sus partes
  Hay casos en los que las tareas individuales se hacen bien, pero al combinarlas todo se enreda
  Es algo que seguramente mejorará con el tiempo, pero como no se puede optimizar todo, también me pregunto si al final un enfoque especializado podría ser más eficiente
Creo que el lenguaje humano en sí no es perfecto como herramienta cognitiva, pero sí funciona bien en capas superiores, no en el nivel fundamental, sino en comunicación y razonamiento de alto nivel
El lenguaje humano es inherentemente ambiguo e incompleto, así que me parece insuficiente para construir una cognición fuerte en comparación con una forma de interactuar directamente con el entorno
Por eso, si uno toma la fluidez verbal y la capacidad de recuperar conocimiento de los modelos LLM/LRM como medida de inteligencia, es muy fácil dejarse engañar
Me parece realmente brillante la idea de introducir entornos de rompecabezas donde la dificultad pueda ajustarse de manera sistemática, en lugar de depender de benchmarks tradicionales como problemas de matemáticas
También es interesante el análisis de tres regiones de rendimiento: en tareas simples funcionan los modelos existentes, en complejidad intermedia funcionan los LRM, y en alta dificultad todos colapsan
Siento que necesitamos dibujar muchos más “mapas” de estas regiones de complejidad
Me da curiosidad cómo se mapea el valor económico sobre esas regiones de complejidad
Para entenderlo, creo que se necesitan métodos de evaluación sofisticados que vayan más allá de rompecabezas comunes y puedan aplicarse también a trabajo económico real
Creo que la intuición central que los autores quieren transmitir es la creencia de que estos modelos son seres “omniscientes pero torpes”
No recuerdo haber visto un paper que trate esta duda adecuadamente en términos cuantitativos, así que también en esta investigación parece difícil unificar del todo las opiniones
Los optimistas de la IA creen que la torpeza de los modelos ha disminuido, mientras que los escépticos piensan que solo aumentó la cantidad de conocimiento, así que será difícil cerrar esa diferencia de posturas
Aun así, creo que este tema debe seguir discutiéndose
Porque con modelos omniscientes pero tontos, la IA no pasará de un rol de asistente al nivel del SaaS actual, ni hablar de una superinteligencia artificial (ASI), así que su impacto económico también sería limitado
Ojalá los autores logren resolver muy bien este problema algún día
- Seguimos poniéndole adjetivos humanos a esta tecnología —omnisciente, tonta y demás— y la antropomorfizamos, pero en realidad creo que es una herramienta pura, sin nada de eso
  Lo que hace un LRM es simplemente ajustar datos de contexto —datos generados por sí mismo— para llegar a la respuesta final
  El proceso en sí es una idea excelente, pero aun así no resuelve limitaciones fundamentales como las alucinaciones
  También he visto el fenómeno de que durante una conversación el modelo primero presenta una lógica cercana a la respuesta correcta, pero luego, entre sucesivos “¡espera!” y auto-negaciones, termina arruinando el resultado
  Creo que atribuirle demasiadas características humanas solo sirve para inflar el mercado y obstaculizar el progreso
  Al final, esta tecnología no es inteligencia artificial real, sino un motor masivo de emparejamiento de patrones y generación probabilística de datos
  Sigue siendo útil en la práctica, pero si se le adjudican rasgos excesivamente humanos, la discusión se enturbia
- Con la IA siento al mismo tiempo expectativa y miedo, porque en los últimos años no se ha vuelto tanto más “inteligente”, pero sí ha mejorado enormemente en capacidad práctica real
  Su uso de conocimiento, herramientas y contexto ha aumentado muchísimo
  Por eso, lo que más miedo me da es que la “capacidad de razonamiento/agencia” esté en estado latente
  Es decir, sospecho que además de tener conocimiento casi omnisciente, solo faltan uno o dos breakthroughs para que pueda realizar juicios estratégicos realmente precisos en paralelo
  Si esas dos cosas se combinan, el resultado sería de verdad aterrador
  Porque podría aparecer una IA que guiara mi propio flujo de pensamiento, como cuando hablas con un genio que piensa seis jugadas por delante de ti
  Incluso los investigadores de IA más punteros tienen razonamiento + agencia como máxima prioridad, así que el avance podría llegar rápido
  Hoy los LLM son excelentes en discriminación instantánea, pero
  1. razonamiento/pensamiento estratégico realmente largo y por etapas
  2. acción estratégica basada en razonamiento con reflejos rápidos (al nivel en que expertos llegan a una respuesta de una sola intuición)
    siguen siendo dos puntos débiles
    Para resolverlo, quizá haga falta un razonamiento de sistema 2 verdaderamente fundamental (siendo el “sistema 1” el transformer actual), o quizá baste con mejores datos y algoritmos que les permitan adquirir “intuición estratégica” con rapidez
    Claro, también puede ser que la dificultad del problema sea tan alta que implique barreras escalonadas, o que simplemente haga falta una cantidad abrumadora de poder de cómputo
    Así que no estoy seguro, pero me da mucho miedo pensar que sí podría haber un avance realmente potente
- Tampoco veo una razón particular por la que un ser omnisciente pero tonto tenga que detenerse justo en el nivel de la inteligencia humana
Me pregunto si Apple realmente está fracasando en IA, o si simplemente cambió la dirección de su I+D porque cree que la IA no es tan importante
- Viendo cómo últimamente se están metiendo funciones de IA en masa en productos de consumo, da la impresión de que el objetivo no es tanto beneficiar al usuario como presumir capacidad técnica ante los inversionistas
  En la práctica, Apple, Google, Meta, Microsoft y Samsung están promocionando con mucho ruido funciones de IA que no cumplen las expectativas, y los resultados no son buenos
  Por eso, siento que el hecho de que Apple esté pensando en una nueva dirección podría incluso ser una señal positiva
- Si se ve con un poco menos de cinismo, también podría ser un intento de bajar las expectativas para no sobrevalorar las posibilidades reales de los LLM
  Incluso una “Siri más inteligente” en los productos de Apple no puede convertirse en un verdadero asistente de IA como Jarvis de Iron Man
  En la práctica, da la impresión de que los inversionistas tienen expectativas mucho más exageradas
  Si se ve con más cinismo, creo que Apple lleva mucho tiempo escondiendo su debilidad en machine learning
  Por ejemplo, cuando Siri estaba muy por detrás de Google, después justificaron la situación diciendo que “como protegen los datos, no pueden entrenar bien”
  Paper relacionado
- Creo que cada empresa tiene su propio marco narrativo
  OpenAI y Anthropic también tienen incentivos claros para exagerar las capacidades de los LLM, así que no se puede acusar solo a Apple de ser parcial
Me identifiqué muchísimo con lo que muestra el paper: al experimentar con rompecabezas diversos y complejos, los LRM fallan por completo al superar cierto nivel de dificultad, y además aparece un límite extraño donde el esfuerzo de razonamiento sube un poco al aumentar la complejidad del problema, pero luego más bien cae
He vivido exactamente lo mismo en programación: al principio puedes ir haciendo cosas cada vez más complejas, pero al pasar cierto umbral todo se derrumba y da la sensación de que ya ni siquiera lo intenta
Para usar bien LLM como Claude o aider, es importante gestionar con cuidado la complejidad del problema que recibe el modelo
Me acordé de aquella época en que se sentía que la discusión sobre AGI (inteligencia artificial general) estaba “a la vuelta de la esquina”
El hype cycle de Gartner parece haber captado muy bien el patrón de estos flujos tecnológicos
- Cuando el progreso tecnológico sigue una curva en S, la subida es tan pronunciada justo antes del quiebre que es muy difícil predecir cuándo realmente empezará a desacelerarse
  Cuando salió el primer Boeing 747 en 1968, nadie en ese momento habría imaginado que la industria aeronáutica pasaría más de medio siglo sin grandes cambios
- Es exactamente la misma situación que con los autos autónomos
  Parece que ya están “a punto”, pero no logran doblar la “esquina”
- En realidad, esa atmósfera de que la AGI estaba “a la vuelta de la esquina” era de hace apenas 2 años
  Si se pasara de GPT2 a AGI en solo 10 años, seguiría siendo algo increíblemente rápido
- Se siente como si el progreso tecnológico hubiera llegado a un 80%: ya se resolvió la parte fácil, pero el 20% restante es tan difícil que podría tomar años
- Desde la aparición de las computadoras, con la AGI siempre ha quedado el eslogan de que “ya casi llega”
  Algunos problemas, como la traducción automática, se consideran resueltos en la práctica porque se fue bajando poco a poco el estándar de lo que cuenta como “solución”, no porque realmente nos hayamos acercado a la AGI
  La AGI en sí se parece más a una especie de escatología secularizada (una religión)
Creo que entornos de rompecabezas como Tower of Hanoi, Checkers Jumping, River Crossing o Block World serían cosas que todos los LLM podrían resolver perfectamente si de verdad se les permitiera escribir código
Los humanos también se equivocan fácilmente si hacen multiplicaciones de 20 dígitos a mano, así que no creo que sea un problema que los LLM no puedan hacerlo
- Los humanos han diseñado misiles e ingeniería de precisión incluso sin computadoras, y si invierten más tiempo, estrategia y esfuerzo, o usan herramientas como papel, al final resuelven el problema
  El cerebro humano no fue diseñado para este tipo de cálculo, pero la fortaleza de la inteligencia general está en que de algún modo encuentra su propia forma de lograrlo
- Presentan un paper sobre un nuevo framework donde los LLM cumplen el rol de “policy teacher” para entrenar agentes de RL
  La idea es que, con instrucciones dadas por el LLM maestro, se puede entrenar rápidamente a un agente pequeño de RL, y si después se añade aprendizaje con retroalimentación del entorno, el estudiante termina completando tareas mejor que el propio maestro
  Paper relacionado
- Creo que la razón por la que todos los LLM resuelven bien este tipo de problemas es que probablemente ya tienen montones de ejemplos de soluciones guardados en su codebase
- La razón por la que los humanos no pueden y la razón por la que los LLM no pueden es completamente distinta
  A los LLM muchas veces simplemente no se les da bien la multiplicación en sí; los humanos, en cambio, en muchos casos no lo hacen porque sencillamente no quieren
Me llamó la atención la frase del paper sobre que “los cálculos precisos son difíciles y el razonamiento muestra inconsistencia según el rompecabezas”
Creo que LLM/LRM deberían apoyarse en áreas emparentadas con la automatización por IA, como lógica, optimización y programación con restricciones (IA)
Como material de referencia, también recomiendo la charla colaborativa de John Hooker de CMU, la conferencia de Gerald Sussman del MIT, Google OR-Tools y la plataforma MiniZinc
Me pareció impactante el resultado de la investigación: en las tareas más simples funcionan los LLM, en complejidad intermedia funcionan los LRM y, en alta dificultad, todos fracasan
- Se siente un poco de sarcasmo, pero me cuesta expresarlo con claridad, eso pienso