Siete respuestas al artículo de Apple sobre los "límites de los LLM de razonamiento" y sus propias limitaciones

(garymarcus.substack.com)

15 puntos por GN⁺ 2025-06-15 | 2 comentarios | Compartir por WhatsApp

El artículo de Apple La ilusión del pensamiento: comprender las limitaciones de los LLM de razonamiento generó un gran impacto al cuestionar la hipótesis de escalado en IA
Hubo siete objeciones representativas en respuesta, pero el autor de este texto, Gary Marcus (profesor emérito de NYU), considera que ninguna resulta convincente
Predominan argumentos que desvían el punto central o evaden el problema, como "los humanos también se equivocan", "el límite de longitud de salida" o "el autor del paper es un pasante", sin resolver la vulnerabilidad de fondo
Algunas observaciones, como "usar código para resolver el problema", sí tienen valor, pero la conclusión es que solo subrayan aún más la necesidad de una IA neuro-simbólica
Un estudio reciente de SalesForce también muestra que el desempeño de los LLM en razonamiento complejo de múltiples turnos en escenarios reales de negocio es de apenas 35%, en línea con las preocupaciones del paper de Apple

Siete respuestas al paper de Apple sobre razonamiento y sus limitaciones

Introducción

El paper de Apple Illusion of Thinking: comprender las limitaciones de los LLM de razonamiento llamó fuertemente la atención de la industria, la prensa y la academia al exponer las limitaciones de los modelos de lenguaje grandes en razonamiento y ejecución algorítmica
Más de 150 mil personas leyeron la publicación explicativa del paper resumida por Gary Marcus
The Guardian publicó una columna que cita esa publicación, y también aparecieron versiones en ACM y en francés, lo que prueba el interés global
En respuesta, defensores de la GenAI reaccionaron críticamente al paper y plantearon varias objeciones, pero ninguna logra refutar el punto de fondo

1. “Los humanos también tienen dificultades con problemas complejos y exigencias de memoria”

La afirmación de que los humanos también tienen dificultades es cierta, pero justamente la razón por la que se crearon las computadoras y la IA fue para resolver con precisión cálculos y tareas repetitivas que los humanos no pueden hacer bien
Como ejemplo, en el rompecabezas de la Torre de Hanoi, los sistemas tradicionales de IA simbólica pueden ejecutarlo sin errores
Si se hablara de AGI, debería mostrar un desempeño más avanzado; quedarse solo en una categoría de errores similar a la humana puede considerarse una limitación
El punto central del paper de Apple es que, a medida que los LLM se alejan en complejidad y en distribución de aprendizaje, ya no se puede confiar en que ejecuten correctamente un algoritmo
Decir que “los humanos también se equivocan” es desviar la discusión

2. “Los LRM no pueden resolverlo por el límite en el número de tokens de salida”

Los LRM (large reasoning models) sí tienen límites de longitud de salida, pero algunos casos del estudio —por ejemplo, Hanoi con 8 discos y 255 pasos— caben perfectamente dentro del rango que pueden generar
Una IA simbólica bien diseñada no se ve afectada por este problema, y la AGI tampoco debería verse afectada
El límite de tokens es un bug, no una solución
Si ni siquiera pueden ejecutar con fiabilidad algoritmos básicos, mucho menos podrán resolver problemas del mundo real como estrategia militar o biología

3. “El autor del paper es un pasante”

Esto cae en un ad hominem, irrelevante para el fondo del asunto. Es un error que ignora las prácticas científicas
En realidad, el autor es un prometedor estudiante de Ph.D., y el paper tiene seis autores en total (cuatro con Ph.D., incluidos investigadores reconocidos como Samy Bengio)
La calidad del paper es lo importante, no el estatus del autor

4. “Con un modelo más grande sí se puede”

En algunos modelos más grandes se han reportado mejoras, pero ni siquiera es posible predecir qué tamaño sería suficiente
Incluso dentro de la misma arquitectura de LRM aparecen resultados inconsistentes, como acertar con 6 discos y fallar con 8
Falta confiabilidad y predictibilidad del modelo; habría que validarlo previamente en todos los problemas, lo que lo deja lejos de la AGI

5. “Si usa código, puede resolver el problema”

Algunos LLM sí pueden resolver el problema mediante código, pero eso muestra la ventaja de la IA neuro-simbólica
Una AGI/IA en el sentido pleno debería poder hacer razonamiento y retrotrazado basados en comprensión conceptual, incluso sin código
Así como un examen evalúa la comprensión conceptual de un estudiante, aquí también hace falta una verdadera comprensión conceptual por parte del LLM

6. “El experimento solo tiene 4 ejemplos y el problema de Hanoi tampoco es perfecto”

Puede que los cuatro ejemplos del paper no sean perfectos, pero coinciden con resultados de múltiples investigaciones previas, y se siguen reportando casos similares de falla
Investigadores como Tal Linzen de NYU también han aportado evidencia adicional sobre estas limitaciones

7. “Eso ya lo sabíamos”

Muchos investigadores ya conocían desde hace tiempo la fragilidad de generalización de los LLM
Pero en el contexto público e industrial, vale la pena destacar que este paper ha concentrado la atención sobre el tema
- Es importante que se haya convertido en una oportunidad para que la industria preste atención seriamente y discuta las posibilidades de AGI, que hasta ahora habían sido sobrevaloradas o exageradas
Incluso entre investigadores han aparecido respuestas contradictorias, diciendo al mismo tiempo que “está equivocado” y que “ya era algo sabido”

Conclusión

Entre las objeciones anteriores no hay ninguna especialmente decisiva o convincente
El paper de Apple vuelve a mostrar con claridad que escalar por sí solo no es la respuesta para llegar a la AGI
La tecnología actual de LLM muestra límites claros en confiabilidad, generalización y razonamiento conceptual
De hecho, figuras clave como Sam Altman también parecen estar tomando seriamente la situación actual

El paper de SalesForce y evidencia adicional convergente

Holistic Assessment of LLM Agents Across Diverse Business Scenarios and Interactions

En su paper más reciente, SalesForce presentó un benchmark de evaluación de LLM basado en escenarios reales de negocio (ventas a clientes, servicio, B2B/B2C, etc.)
La tasa de éxito es de 58% en interacciones de un solo turno (una pregunta-respuesta), pero cae drásticamente a 35% en interacciones de múltiples turnos
En particular, la ejecución de flujos de trabajo supera el 83%, pero hay límites en razonamiento múltiple y cambio de contexto
Casi no hay conciencia de confidencialidad (Confidentiality awareness); se puede mejorar con prompts, pero con una caída de desempeño
Quedan claras las limitaciones de los LLM frente a la complejidad y realismo de los entornos empresariales, y se vuelve más evidente la necesidad de integrar razonamiento multiturno, confidencialidad y diversas habilidades laborales

Resumen

Tanto el paper de Apple como el de SalesForce muestran que la generación actual de LLM tiene limitaciones serias en razonamiento complejo real, conversaciones de múltiples turnos y ejecución algorítmica
Para acercarse a la AGI será necesario ir más allá del escalado, hacia una integración neuro-simbólica y mejoras estructurales
Es significativo que la industria y los investigadores hayan empezado a prestar atención de lleno al debate sobre estas limitaciones

2 comentarios

fanotify 2025-06-16

Altman escribió en su ensayo que "dentro de 10 años, quizá pasemos de un año en el que resolvemos la física de altas energías a otro en el que empecemos la colonización espacial". Añadió que las personas que intenten "conectarse" directamente a la IA mediante interfaces cerebro-computadora verán cómo sus vidas cambian de manera fundamental.
Esta retórica está acelerando la adopción de la IA en toda nuestra sociedad. En este momento, DOGE (la Oficina del Primer Ministro) la está usando para reestructurar el gobierno, el ejército la está aprovechando para volverlo más letal y, a menudo con consecuencias desconocidas, se le está confiando la educación de nuestros hijos.
Es decir, uno de los mayores riesgos de la IA es que sobreestimemos sus capacidades, confiemos en ella más de lo necesario aunque se haya demostrado que muestra tendencias antisociales como el "chantaje oportunista", y dependamos de ella hasta un punto poco sensato. Al hacerlo, nos volvemos vulnerables a la posibilidad de que la IA falle en los momentos más importantes.
"Puedes usar la IA para generar distintas ideas, pero todavía requiere una revisión considerable", dice Ortiz. "Por ejemplo, si vas a preparar una declaración de impuestos, es mejor usar una herramienta parecida a TurboTax que ChatGPT".

Extracto del artículo de WSJ, Why Superintelligent AI Isn't Taking Over Anytime Soon

GN⁺ 2025-06-15

Opinión de Hacker News

Se plantea que es cierto que los humanos tienen dificultades con problemas complejos y con la carga de memoria, pero que eso no lo es todo. Se enfatiza que se espera que las máquinas den resultados mejores que los humanos. Si admitimos que los humanos también cometen estos errores y al mismo tiempo insistimos en que esa capacidad es necesaria dentro de la definición de “capacidad de pensar”, entonces se comparte la idea de que se llegaría a la conclusión de que el pensamiento humano mismo también es una ilusión
- Yo también coincido, pero creo que la parte relacionada con AGI es un argumento equivocado. La postura es que AGI se define justamente como una IA capaz de realizar todas las tareas al nivel de un humano promedio
- Siento que ninguno de los dos lados es realmente claro. Me da la impresión de que a preguntas cualitativas solo se les están dando respuestas cuantitativas
Se valora como un buen texto de análisis sobre el paper de Apple y las críticas de Gary Marcus. Para una discusión más detallada, se recomienda esta publicación relacionada en LessWrong
- Se menciona una duda sincera: si la opinión de Gary Marcus sigue siendo válida. Sus críticas se sienten más filosóficas que científicas, y cuesta ver qué produce realmente o dónde se verifica su lógica
- Respecto a lesswrong.com, se expresa la postura de que no se le tiene demasiada confianza porque se ve como un grupo que sigue las ideas de cierta figura específica (por ejemplo, Yud)
Se comparte la idea de que los LLM pueden producir resultados que parecen “razonamiento” cuando existe una solución similar aprendida en el pasado, pero que colapsan ante problemas completamente nuevos. No sería razonamiento en sentido estricto, pero en la práctica sigue siendo bastante útil. También se considera bastante útil la capacidad de recuperar soluciones repetidamente, del mismo modo que es útil repetir verificaciones de hechos. Se señala que Marcus puede tener razón en lo técnico, pero que su tono se inclina más a lo emocional que a lo explicativo
- Si de verdad fueran tan buenos repitiendo soluciones similares sería impresionante, pero en la práctica se comparte la experiencia de que estas herramientas a menudo ni siquiera repiten bien una misma solución y, además, inventan sobre la marcha resultados plausibles (alucinaciones), así que la molestia de tener que verificar todo cuidadosamente por separado sigue siendo grande
- Si al menos hicieran bien eso, ya sería revolucionario, pero sigue siendo una visión idealizada casi de ensueño. Se menciona una experiencia reciente donde Gemini confundió izquierda y derecha incluso en un problema de libro de texto muy básico
- Cansa la típica afirmación de que “los LLM son solo loros”. En mi experiencia, los LLM sí pueden razonar y resolver problemas completamente nuevos que no estaban en los datos de entrenamiento. He probado muchísimos casos y hay bastantes ejemplos relacionados. Para resumir en una sola respuesta a los demás interlocutores, primero hay que aclarar qué se entiende por “razonamiento” y por “resolver problemas nuevos”. Personalmente veo el razonamiento como una categoría, y no como algo idéntico a la inteligencia general. Que un LLM no pueda resolver siempre problemas difíciles no significa que razonar en sí sea imposible. En mi opinión, la capacidad de razonamiento de los LLM en general es débil, pero no estoy de acuerdo con la idea de que no puedan razonar en absoluto ni resolver ningún problema nuevo.
  1. Se puede argumentar que la predicción del siguiente token ya es una tarea que requiere razonamiento
  2. También han sido exitosos diversos experimentos donde se les pide traducir a lenguajes hipotéticos completamente inexistentes. Hay mucha investigación sobre in-context learning y zero-shot
  3. Se han probado toda clase de desafíos/juegos/acertijos para verificar la capacidad de razonamiento, pero al final hay casos en los que los LLM los terminan resolviendo uno por uno (por ejemplo, el acertijo del Monty Hall problem, otro ejemplo de acertijo anterior); incluso hay modelos entrenados antes de que esos acertijos fueran publicados
  4. También existen muchos estudios sobre out-of-context reasoning (por ejemplo, este paper en arXiv) Como puntos adicionales de refutación,
  5. Aunque el modelo falle a partir de cierto umbral de complejidad, ya es bastante impresionante que los modelos más recientes resuelvan hasta cierto punto este tipo de acertijos difíciles. Lo que GPT-3.5 no podía hacer, los modelos actuales sí lo logran. Sigue habiendo progreso gradual en razonamiento. Cuanto más grandes y más inteligentes son los modelos, mejor responden a tareas zero-shot, y se considera que eso está correlacionado con mejoras en capacidad de razonamiento
  6. El propio paper tiene datos que apuntan a la idea de “modelos más grandes = mejor desempeño”. Claude 3.7 muestra un rendimiento muy superior al de DeepSeek y mantiene una resolución estable a lo largo de secuencias largas. Con mejores modelos y más tokens, el rendimiento sube rápido en problemas de dificultad intermedia. Que no puedan resolver solo los “problemas difíciles” no significa en absoluto que no puedan razonar. Hace unos años se decía que ni siquiera podían con la dificultad intermedia, pero ahora el panorama ya cambió
- Esa postura sería más bien lo opuesto al razonamiento. Los defensores de la IA intentan presentar a los LLM como si fueran inteligentes o como si razonaran, pero en realidad no pueden hacer razonamiento creativo o inteligente. El verdadero razonamiento significa encontrar por cuenta propia una solución innovadora para un problema nunca antes visto. Los LLM solo extraen probabilísticamente soluciones que ya estaban en los datos, y no tienen ninguna capacidad real de estimar o inferir una solución auténtica
Se señala que muchas de las contraargumentaciones y réplicas en realidad son débiles, o casi podrían quedar absorbidas dentro del punto 5. El núcleo del texto es si el LLM puede escribir código o usar un sistema lógico. Se plantea la pregunta de si el razonamiento vacío en ausencia de acceso a herramientas (alucinaciones/respuestas equivocadas) realmente implica ausencia de razonamiento verdadero, y si la expectativa real no debería ser una IA que, como un humano inteligente, “reconozca los límites de lo que puede hacer”
- En resultados experimentales reales, se observa que el modelo produce hasta 100 pasos y luego responde algo como “a partir de aquí son demasiados, así que solo explicaré el método para resolverlo”, reconociendo claramente sus límites. Sin embargo, en algunos casos esas respuestas también fueron calificadas como incorrectas. Se comparte este ejemplo de respuesta real del modelo. Por ejemplo, cuando se vuelve demasiado complejo, responde algo como “[es difícil explicar todos los ensayos individuales, así que en su lugar describiré el método de solución]”; en cierto modelo (Sonnet), al pasar de 7 elementos deja de hacer razonamiento paso a paso directo y pasa a explicar solo un algoritmo o enfoque general de solución
- Salvo el punto 3, en realidad no me parecen tan débiles la mayoría de las refutaciones. Más bien siento que el texto original construye muchos hombres de paja. La razón por la que el punto 1 aparece tanto es la afirmación de que “este paper demostró que los LLM no pueden razonar”. Pero el autor insiste en hablar de AGI y cambia la propia definición hacia un hombre de paja (“las máquinas tienen que hacer más que los humanos”, por ejemplo). La definición real de AGI es una IA capaz de hacer tareas al nivel de un humano promedio, no una superinteligencia, y el autor lo malinterpreta. De hecho, en problemas como Tower of Hanoi, los LLM ya muestran un desempeño superior al del humano promedio. En la práctica, una persona común no puede resolver un Tower of Hanoi de 8 discos sin anotar nada, mientras que un LLM sí puede. Aun así, todavía hay muchas barreras que los modelos deben superar para llegar a una AGI real. El punto 5 también sería un hombre de paja del tipo “no pueden traer código de la web”, cuando en realidad se pueden dar ejemplos de que resuelven problemas nuevos escribiendo código directamente. Estos puntos no son críticas al paper, sino señalamientos fácticos sobre sus límites. Este paper solo mostró límites de razonamiento de los LLM y, en realidad, sin hacer afirmaciones exageradas, solo describió limitaciones; pero como el título era provocador, mucha gente tendió a no leer bien el contenido
Frente a la afirmación de “un acertijo que hasta un niño puede resolver fácilmente”, se admite que en realidad resolver mentalmente, sin anotar nada, una Torre de Hanói de 8 discos es difícil. Se cuestiona si la comparación entre humanos e IA realmente está siendo justa
La razón por la que este tipo de artículos resulta bienvenida es que hace falta enfriar un poco la excesiva fiebre de hype alrededor de la IA. Si uno está pensando seriamente en usar nuevas herramientas de IA en la realidad, hay que pausar el entusiasmo y mirar con frialdad las limitaciones reales y la verdadera naturaleza de esta tecnología. Es impresionante y práctica en varios ámbitos, pero impulsar un boom indiscriminado termina beneficiando, en última instancia, directa o indirectamente, solo a quienes tienen intereses económicos en ello
- Se evalúa que Gary Marcus no representa “poner los pies en la tierra”, sino más bien el tipo de figura que aumenta su notoriedad personal oponiéndose a la corriente principal de la IA. Este texto también sería lógico, pero mostraría un cambio de postura respecto de papers anteriores donde había afirmado con fuerza que eran un “golpe letal” para los LLM. Sus textos parecen razonables en el tono, pero al leer varios se percibe una tendencia consistente
- De hecho, incluso entre quienes invierten en IA, es probable que el boom excesivo solo beneficie a negocios tipo pump and dump o a vendedores de educación y consultoría, mientras que quienes realmente quieren crear innovación podrían terminar enfrentándose pronto a un invierno de IA
- Hay una postura de desconfianza instintiva hacia los LLM. La gran mayoría de las veces que me han escrito código, la calidad ha sido pésima; ahora mismo no me gustan mucho ni los uso con frecuencia. Pero aun así espero que con el tiempo evolucionen hasta ser herramientas bastante útiles. Dicho eso, en mi opinión Marcus no tiene ninguna autoridad para participar en esta discusión. Sus comentarios solo vierten exageraciones improductivas en vez de una discusión sustantiva, y eso termina dándole demasiada munición al campo excesivamente anti-IA. Incluso se lo califica como una especie de “respectability laundering”: citarlo hace que cualquier crítica parezca válida
- Quisiera escuchar críticas de alguien que realmente sepa qué es el test/train split en machine learning. Que una persona tan desconectada del ML actual hable sobre capacidades de la IA me parece, más bien, un fenómeno muy simbólico del miedo a la IA
- Se pone en duda cuán útil es realmente. Llevamos más de un año oyendo afirmaciones como “10x de productividad en trabajo del conocimiento”, pero la pregunta es dónde están de verdad esos resultados transformadores. ¿Una nueva generación de suites de oficina? ¿Una producción masiva de apps móviles? ¿Una revolución en el mercado editorial? Al final, fuera de memes de Ghibli o modas de contenido tipo ‘RETURNS’, se expresa escepticismo sobre si existe un producto realmente sustancial
Si alguien tiene curiosidad por el paper original, se comparte el enlace al original
- Como material de investigación y referencia, también se presentan el paper: The Illusion of Thinking – fortalezas y límites de los modelos de razonamiento (PDF) y el comentario A Knockout Blow for LLMs?. Se pregunta si hay algún otro material recomendable
Se menciona que en un examen de matemáticas se ponen problemas de cálculo diferencial e integral no para que el estudiante solo dé el resultado del cálculo, sino para evaluar su comprensión conceptual. El equipo de Apple también quiso ver si el LLM entendía conceptualmente el problema de Hanoi. Un LLM puede “descargar” el código correcto, pero el argumento es que en problemas nuevos o entornos dinámicos ese “descargar código” sin comprensión conceptual tiene límites. Sin embargo, en realidad los LLM no descargan código, sino que tienen la capacidad de “escribirlo” directamente. Si un estudiante en un examen escribiera un programa general de derivadas/integrales, eso más bien demostraría una comprensión conceptual todavía mayor
- Se opina que si ese estudiante solo consultó notas extremadamente escasas en comparación con los parámetros de un LLM, eso no resultaría convincente
Se considera importante la cita del paper de Salesforce que dice que “los agentes mostraron una capacidad de confidencialidad casi cercana a cero”
Se da el ejemplo de que cuando los humanos hicieron aviones se decía que “no eran pájaros”, y cuando hicieron submarinos se decía que “no eran peces”, pero el progreso siguió ocurriendo. La cuestión central es elegir si uno va a aprender rápido el potencial de esta herramienta y aprovecharla, o quedarse atrás. Como consejo, se transmite que una “actitud de aprendizaje” aporta más para adaptarse al futuro que quedarse escuchando las afirmaciones negativas interminables de la misma persona