Una tarea simple que muestra el colapso del razonamiento en los LLM más recientes

(arxiv.org)

3 puntos por GN⁺ 2024-06-06 | 1 comentarios | Compartir por WhatsApp

Incluso un problema breve de AIW puede hacer tambalear fuertemente la generalización y el razonamiento básico de los LLM más recientes como GPT-4 y Claude 3 Opus
El problema tiene la forma: “Alice has N brothers and M sisters. How many sisters does Alice’s brother have?” y la respuesta correcta es M+1, sumando a Alice y a las hermanas de Alice
Las variaciones naturales con N, M ≤ 7 no cambian la estructura ni la dificultad, pero en el caso de GPT-4 aparece una variación de desempeño donde la tasa de acierto de la variación 3 es cercana a 0 y la de la variación 4 es cercana a 1
Inducir chain-of-thought, pedir revisión, autoverificación e interacción de múltiples turnos no corrigieron de forma estable los errores, y las respuestas incorrectas a menudo iban acompañadas de explicaciones plausibles y exceso de confianza
Los resultados de los problemas de control AIW Light muestran que es difícil explicar las fallas solo por parsing del lenguaje, comprensión de relaciones familiares, asociación de atributos de género o aritmética básica, lo que obliga a reconsiderar la capacidad de los benchmarks estándar para detectar fallas de generalización

Fallas de razonamiento simple reveladas por el problema AIW

Los LLM han sido evaluados como fuertes en generalización y razonamiento por obtener puntajes altos en benchmarks estándar como MMLU, HellaSwag, ARC, MATH y GSM8k
Esa evaluación se valida comprobando si esas mismas capacidades se mantienen también en problemas breves de sentido común que una persona puede resolver fácilmente, en lugar de depender solo de benchmarks complejos
La plantilla del problema AIW es la siguiente
- “Alice has N brothers and she also has M sisters. How many sisters does Alice’s brother have?”
- Se asume que todos los hermanos y hermanas comparten a los mismos padres
- La cantidad de hermanas que tiene el hermano varón de Alice es M+1, sumando a la propia Alice y a las hermanas de Alice
Las variaciones del problema se construyen cambiando números naturales con N, M ≤ 7, manteniendo la estructura y la dificultad
- Variation 1: Alice has 3 brothers and 6 sisters → respuesta correcta 7
- Variation 2: Alice has 2 sisters and 4 brothers → respuesta correcta 3
- Variation 3: Alice has 4 sisters and 1 brother → respuesta correcta 5
- Variation 4: Alice has 4 brothers and 1 sister → respuesta correcta 2

Tasas de acierto que fluctúan fuertemente según la variación

Los LLM recientes evaluados muestran baja tasa de acierto promedio y gran variación en el problema AIW y en sus variaciones que preservan la estructura
En GPT-4 (gpt-4-0613), al ejecutar 60 pruebas por cada variación, los resultados cambian mucho según los números del problema
- En la variación 3, la tasa de acierto es cercana a 0
- En la variación 4, la tasa de acierto es cercana a 1
- El mismo fenómeno aparece en los tipos de prompt STANDARD, THINKING y RESTRICTED
Como el desempeño se altera solo por cambios numéricos que no tienen relación con la resolución del problema, esto se interpreta como falta de robustez y una falla de generalización
Modelos recientes de razonamiento como DeepSeek-R1 y o1-mini también muestran una fuerte variación de desempeño en versiones del problema AIW, lo que revela la misma vulnerabilidad
Modelos grandes como GPT-4/4o, Claude 3 Opus/Claude 3.5 Sonnet, Qwen 2.5 72B y Llama 3.1 405B tienen tasas de acierto mayores que 0 y, en las respuestas correctas, a menudo muestran un razonamiento correcto
- Aun así, la frecuencia del razonamiento correcto varía mucho según la variación natural que preserva la estructura
- El punto clave no es que el razonamiento esté totalmente ausente, sino que es frágil y se perturba fácilmente

Causas simples descartadas con problemas de control

Para verificar si la causa de las fallas era un problema de bajo nivel como parsing del lenguaje natural, manejo de números, comprensión de relaciones familiares, asociación de atributos o aritmética básica, se construyeron problemas de control AIW Light
AIW Light Arithmetic Siblings tiene la forma: “Alice has N brothers and M sisters. How many siblings does Alice have?”
- La respuesta correcta es N+M
- Solo hace falta identificar la relación familiar y sumar la cantidad de hermanos y hermanas dadas
- A diferencia del AIW original, no requiere operaciones de conjunto que incluyan a Alice dentro del conjunto de hermanas ni asociación de atributos de género
AIW Light Family pregunta: “How many brothers does Alice’s sister have?”
- La respuesta correcta es N
- Solo requiere comprensión básica de relaciones familiares y de la entidad “Alice’s sister”
- No requiere aritmética ni operaciones de conjunto
AIW Light Arithmetic Total Girls pregunta: “How many girls are there in total?”
- La respuesta correcta es M+1, igual que en el AIW original
- Requiere el atributo de que Alice es mujer, el género de las hermanas y el conteo total de mujeres
- A diferencia del AIW original, no requiere el procesamiento de conjunto para asignar a Alice al conjunto de hermanas del hermano varón
Los resultados de los problemas de control apuntan a que las fallas del AIW original son difíciles de explicar solo por tokenización, parsing del lenguaje natural, estructura familiar básica, asociación de atributos o aritmética elemental

Prompts y procedimiento de evaluación

El experimento usa tres tipos de prompt principales para verificar el efecto del prompt engineering
- STANDARD: instruye a imprimir la respuesta final en formato de número natural
- THINKING: induce a pensar cuidadosamente para fomentar un estilo de chain-of-thought
- RESTRICTED: restringe la salida para que no imprima nada aparte del número natural final
THINKING v2 es una pequeña variación de THINKING que añade la frase “step by step” y, en los experimentos de control, mostró un patrón de desempeño equivalente a THINKING
Cada entrada tiene la forma <variación del problema> <tipo de prompt>, y para facilitar el parsing de la respuesta final del modelo se exigió el formato ### Answer:
- Los modelos pudieron seguir esa instrucción de formato
- También se realizaron experimentos de control sin esa instrucción de formato, confirmando que el comportamiento observado no depende de ese formato
Para cada combinación de modelo, variación del problema y tipo de prompt, se recolectaron al menos 30 ejecuciones
- La corrección se interpreta como ensayos de Bernoulli
- La estimación de la tasa de acierto se calcula como la proporción de éxitos X/n
- Se estiman la media y la varianza de la probabilidad p, y se visualiza la distribución de desempeño usando parámetros de una distribución Beta
La selección de modelos se enfocó en LLM SOTA que afirman tener fuerte capacidad de generalización y razonamiento, y que ocupan posiciones altas en benchmarks y leaderboards estándar
- Cuando fue posible, se incluyeron dentro de una misma familia de modelos versiones desde menor hasta mayor escala
- Se utilizó acceso por API o despliegue local basado en vLLM
- En los experimentos se usaron liteLLM y TogetherAI
- Los datos de respuestas crudas, las estimaciones de tasa de acierto y las rutinas experimentales se publicaron para garantizar reproducibilidad y validación comunitaria

Exceso de confianza en errores y reevaluación de benchmarks

En las variaciones de AIW con baja tasa de acierto, la distribución de números naturales de salida a veces concentra su pico en una respuesta incorrecta, por lo que no es fácil resolverlo solo con voto mayoritario
Las respuestas incorrectas suelen venir acompañadas de explicaciones plausibles
- El modelo genera frases convincentes para respaldar una respuesta final equivocada
- También aparece un tono de certeza de que la respuesta es correcta
- En situaciones donde el usuario no puede verificar fácilmente la respuesta correcta, este tipo de salida puede llevarlo a una conclusión errónea
Incluso en experimentos de interacción de múltiples turnos y autoverificación, los modelos fallan al detectar adecuadamente sus errores o corregir respuestas incorrectas
Intervenciones estándar como inducir chain-of-thought, pedir revisión o reevaluación en múltiples pasos no lograron corregir de forma estable la variación de tasa de acierto ni las fallas del problema AIW
Hay casos en que modelos con puntajes altos en benchmarks estándar muestran un desempeño cercano a 0 de tasa de acierto en variaciones simples de AIW, lo que indica que los procedimientos actuales de evaluación no detectan adecuadamente fallas de generalización y razonamiento
Las capacidades de los LLM SOTA actuales necesitan ser reevaluadas, y hacen falta nuevos benchmarks estándar capaces de capturar este tipo de defectos

1 comentarios

GN⁺ 2024-06-06

Opiniones en Hacker News

Para quienes estén dudando si leer el paper: aunque el PDF parece largo, el núcleo del texto está más o menos en las primeras 10 páginas, así que se puede leer bastante rápido.
Los ejemplos usados aquí son más bien simples para una persona, pero si no te detenés a pensarlos un momento, es fácil saltar a una conclusión equivocada.
Lo que realmente molesta es que, viendo la naturaleza de las herramientas actuales, no sé si esto se pueda corregir de forma realista. Estas no razonan ni piensan en ningún sentido, pero mucha gente ya las acepta como IA de propósito general.
El hecho de que en muchas situaciones logren simular el razonamiento de manera convincente también alimenta el exceso de entusiasmo. No sé si este paper tendrá un impacto real en los lanzamientos y la exageración alrededor de la IA, o si quedará enterrado hasta que los riesgos vuelvan a hacerse evidentes, como cuando se lanzó la búsqueda de Google.
- Para razonamientos con cierto grado de complejidad se necesitan monólogo interno e iteración. En el pensamiento de tipo 2, uno crea y evalúa mentalmente posibles soluciones, argumentos y rutas de razonamiento, y luego elige lo que considera adecuado o correcto.
  Si mediante prompts se saca hacia afuera ese proceso de pensamiento interno, se puede imitar en parte, pero en realidad debería ser un proceso interno y automático.
  La razón por la que todavía no sabemos cómo hacerlo es que controlar el proceso de pensamiento interno no necesariamente se basa en lenguaje, y los procesos internos de pensamiento del cerebro biológico no se pueden observar directamente, por lo que no pueden usarse como datos de entrenamiento.
  Los LLM actuales tienen cierto parecido con el conductismo, y en realidad parece que hace falta algo a lo que se le pueda aplicar la psicología cognitiva: https://en.wikipedia.org/wiki/Behaviorism
- Podría haber una solución bastante simple: hacer que el modelo reformule el problema en un lenguaje lógico como Prolog y, en lugar de entrenarlo con razonamientos encadenados simples, ejecutar ese programa para obtener la respuesta.
  Los humanos tampoco crean de pronto modelos lógicos de la nada; pasan años por la educación básica aprendiendo a entender el mundo y a resolver problemas.
  El enfoque de programación lógica parece prometedor, pero para que funcione bien habría que alimentar al LLM con una cantidad enorme de ejemplos, y tampoco está claro si actualmente existen suficientes datos de entrenamiento de ese tipo.
- Para quienes entienden y usan estos sistemas de manera crítica, en general esto es demasiado obvio. Es desalentador que haga falta incluso un PDF en arxiv.org para decir que el emperador está desnudo.
  La mayoría de quienes usan LLM pueden comprobar esto por sí mismos ahora mismo si quieren.
  Pero la fuerza de la propaganda tecnológica corporativa es tan grande que mucha gente más bien insistirá en que los humanos, en realidad, nunca estuvieron vestidos.
- Si uno piensa seriamente en qué es un LLM, no parece posible que eso conduzca a una IA de propósito general. Al mismo tiempo, ya están haciendo muchas más cosas de las que esperábamos.
  Tal vez la gente quedó tan sorprendida por lo que logró OpenAI que ahora está rezando para que, con suficiente cómputo y el modelo correcto, aparezca una AGI.
- El problema es con qué frecuencia los humanos se equivocan en esta pregunta sin un prompt. Si la mediana de IQ es 100 y se incluye a personas sin entrenamiento en lógica o con distintos niveles educativos, la tasa de respuestas correctas humanas probablemente no se acerque a 1.0 como insinúan los autores.
  Es bastante evidente que los LLM no razonan en absoluto, así que no sorprende que no puedan razonar.
  Más bien, considerando que no tienen capacidad de razonamiento, sorprende que tengan este nivel de desempeño en tareas de razonamiento; y si se combina su capacidad de lenguaje natural con algo parecido al razonamiento abductivo, que suele ser difícil en los modelos computacionales, no queda mucho más que concluir que “GPT-4o es impresionante”.
La pregunta es: “Alice tiene 60 hermanos varones y 212 hermanas mujeres. ¿Cuántas hermanas mujeres tiene el hermano varón de Alice?”. En el artículo se expresa con X y N en lugar de números.
Para ser honesto, cuando lo resolví por mi cuenta me equivoqué, y solo confirmé la respuesta correcta después de pasárselo a GPT-4o: https://chatgpt.com/share/6eb5fa36-e0fd-4417-87d1-64caf06c34...
En el prompt del experimento había una restricción que decía “no imprimas ningún texto aparte del formato de respuesta correcto”, así que parece que impidieron que el modelo pensara en voz alta. Si se agrega esa frase, GPT-4o sigue equivocándose: https://chatgpt.com/share/7e6a7201-dd2b-43c6-8427-76e5b003ca...
En ejemplos más complejos, GPT-4o parece colapsar, pero sinceramente es difícil decir que ese problema sea realmente tan simple o que la mayoría de la gente lo resuelva bien.
- En el artículo, todos los números eran menores que 10.
  AIW Variation 1 era N=3, M=6, C=7; Variation 2 era N=4, M=2, C=3; Variation 3 era N=1, M=4, C=5; y Variation 4 era N=4, M=1, C=2.
  El prompt restrictivo es solo una de varias variantes de prompt probadas en el artículo. El artículo también experimentó con técnicas comunes para mejorar el rendimiento de los LLM, incluido “pensar en voz alta”, pero aun usando esos métodos los modelos no lograron dar la respuesta correcta.
- Esa restricción es justo lo que suelen hacer quienes ven a los LLM como tontos.
  Los LLM se vuelven más inteligentes cuanto más hablan, porque producir salida es su única forma de calcular.
  Es parecido a decir que una máquina de Turing no satisface la tesis de Church-Turing porque no puede resolver 3-SAT con N variables en N movimientos o menos. Cuando se le pide a un LLM que sea conciso, en la práctica se le está pidiendo algo así.
- Parece que hace falta un nombre para este fenómeno nuevo: cuando alguien dice que un LLM no puede hacer una tarea trivial, otra persona defiende la legitimidad del LLM declarando que ella tampoco puede hacer esa tarea.
  Me cuesta creer que una persona promedio, con suficiente motivación como para llegar hasta la caja de entrada de ChatGPT, no pueda responder bien esta pregunta.
- He visto casos en los que estos sistemas fallan estrepitosamente y dan respuestas muy equivocadas incluso cuando se les pide “pensar en voz alta”.
  Además, cuando hay un formato de respuesta esperado, no siempre es posible pensar en voz alta. En realidad, esto parece evidencia de que aquí no se está haciendo razonamiento real, sino algo más cercano a la autorreferencia.
  Probé el mismo prompt pidiéndole que pensara en voz alta, y respondió que Alice tenía 212 hermanas mujeres.
- Es una condición importante, y es raro que el artículo no la haya destacado claramente. En mis pruebas, ChatGPT 4o lo resolvió todas las veces.
  Incluso parece funcionar bien con el prompt de “manos atadas”. Me pregunto si el artículo es impreciso o si OpenAI ajustó el modelo, aunque esto último parece poco probable.
  Sin embargo, según los reportes, 4o acierta este acertijo en un 60% de los casos. Yo apenas lo he probado unas 12 veces y todas fueron correctas, así que tendré que probar más.
Buena parte de los datasets de “benchmark” que evalúan los principales LLM públicos claramente están dentro de los datos de entrenamiento, así que sirven de muy poco para comprobar la confiabilidad de los modelos.
También es bastante evidente que parte de la mejora en puntaje de las generaciones posteriores de modelos se debe a que esos datos de benchmark se incluyeron en mayor medida en los datos de entrenamiento.
Para evaluar mejor los LLM, hay que usar pruebas recién creadas, que no estén en datos de entrenamiento previos, y esperar unas semanas antes de usarlas.
Como se vio en exámenes de derecho y otros tipos de pruebas, cuando se usan datos futuros realmente fuera de muestra, el rendimiento cae en picada. No es lo mismo que los benchmarks actuales, que son falsamente fuera de muestra.
- MMLU no es un benchmark de razonamiento. Es más bien una métrica de qué tan amplios y representativos fueron los datos de entrenamiento, y qué tan bien se recuerda en función de las épocas de entrenamiento.
  GPQA y otros sí ponen a prueba el razonamiento de alguna forma, y en todos los modelos se puede ver una gran diferencia entre ambas puntuaciones.
- Cada vez que veo que usan MMLU como benchmark, me pregunto qué intentan demostrar. MMLU es un examen simple de opción múltiple cuyas respuestas son públicas.
  Adivinando al azar ya se obtienen 25 puntos, y si sabes el 50% de las respuestas y adivinas el resto, llegas a 62,5%, bastante cerca de las puntuaciones de los LLM modernos.
  Los benchmarks que supuestamente muestran razonamiento también son bastante malos y tienen poca relación con el razonamiento. Muchos problemas se pueden responder de memoria.
  Estoy de acuerdo en que los benchmarks son un desastre. Pensé en crear uno yo mismo, pero primero tendría que construir un marco de benchmarking complejo, y es difícil dedicar tiempo a ese trabajo preparatorio.
La idea de que estos problemas de palabras y los problemas que atascan a los LLM “son fáciles para los humanos” necesita datos empíricos.
A la gente del mundo de la computación le gustan los acertijos, y este tipo de problema les parece intuitivo.
Bajo las mismas restricciones de tiempo que se les dan a los LLM, la proporción del público general que resuelva este acertijo podría ser mucho menor de lo que esperan los autores; en ese caso, los LLM podrían estar en una línea similar al razonamiento de nivel humano.
Claro, yo tampoco tengo datos que citar, pero no soy quien está escribiendo el artículo.
- Como alguien con formación en educación, creo que GPT-4 probablemente estaría bastante cerca del desempeño del público general en este problema. Mucha gente pasaría por alto AIW, y casi todos pasarían por alto AIW+.
  Aunque suelo resolver bastante bien este tipo de problemas, AIW+ me requiere alrededor de un minuto con papel y lápiz. Está a un nivel parecido al de las preguntas más difíciles de exámenes como el GRE.
  Me pregunto si los modelos entrenados con datos de todo Internet están capturando, de alguna forma tenue, el enfoque cognitivo de una persona promedio. Si la persona promedio no piensa con este tipo de manipulación simbólica ni escribe de esa manera, un modelo entrenado con esos textos podría comportarse igual.
Gemini respondió correctamente, sin prompts adicionales, a: “Alice tiene N hermanos varones y M hermanas mujeres. ¿Cuántas hermanas mujeres tiene el hermano varón de Alice?”: https://g.co/gemini/share/6946d20c0a4d
Al poner números, Gemini se confundió: “Alice tiene 4 hermanos varones y 3 hermanas mujeres. ¿Cuántas hermanas mujeres tiene el hermano varón de Alice?” https://g.co/gemini/share/14d34dcdc5df
Pero al avisarle que podía ser una pregunta con trampa, volvió a acertar: https://g.co/gemini/share/e1f1ce8f32a8
No probé la versión de 60/212 hermanos. Si Alice es una criatura similar a un ser humano, es razonable asumir que no tiene cientos de hermanos, así que me parece una pregunta injusta si se espera la “respuesta correcta” del encuestado.
- Se me olvidó Gemini. Acabo de probar mi test del bote, en el que antes habían fallado todos los LLM, y Gemini también falló: https://news.ycombinator.com/item?id=40455392
  Le pregunté: “Hay una cabra y un bote junto a un río. ¿Cómo se llega al otro lado? Piensa con cuidado y ten en cuenta que podría ser una pregunta con trampa”, y Gemini lo resolvió como si fuera una variación del problema del granjero, el lobo, la cabra y la col, creando un procedimiento innecesario para trasladar a la cabra.
  La respuesta esperada sería suficiente con algo como “cruzar el río en el bote”. También podría aceptar “cruzar en el bote con la cabra”, pero como no se preguntó cómo hacer cruzar a la cabra, estrictamente está mal.
- Justamente la reacción de que alguien no puede tener cientos de hermanos es el problema con la afirmación de que los humanos tienen “inteligencia general”. Cuando se encuentran con una situación fuera de distribución, se confunden.
  Una verdadera inteligencia general habría aplicado el conocimiento de que un embarazo por gestación subrogada cuesta alrededor de 50.000 dólares y el contexto histórico de la FIV, habría asumido que una pareja multimillonaria decidió tener cientos de hijos, y habría continuado con el cálculo.
  La búsqueda de vida inteligente continúa.
- GPT-4o acertó el acertijo abstracto. Cuando lo probé, Gemini se equivocó.
Es un paper interesante, pero me preocupa que sea un caso de cherry-picking de un resultado negativo sorprendente. El paper no parece discutir cuántas evaluaciones revisaron hasta encontrar este caso.
En general, algunas modalidades de falla de la IA pueden aparecer en tareas que para los humanos parecen obvias, porque tienen arquitecturas distintas a las humanas y también fortalezas distintas.
La pregunta importante es si esto es un único bug cognitivo raro que solo aparece en la formulación con familias, o si representa una categoría amplia de errores cognitivos. Con este paper solo es difícil decirlo.
Es bien sabido que el encuadre de los problemas lógicos puede cambiar mucho su dificultad para los humanos, aunque la estructura comparativa subyacente sea isomorfa.
Esta línea de investigación es importante, pero hace falta un conjunto de evaluaciones más grande, y el problema de que los datos de evaluación entren en el entrenamiento siempre seguirá siendo un factor de confusión.
La categoría de razonamiento más amplia aquí, como dice el paper, es el razonamiento relacional, así que sería interesante que un trabajo posterior analizara el desempeño de razonamiento en todo un conjunto de problemas isomorfos. Los LLM todavía no son fuertes en razonamiento relacional, así que esperaría cierta generalización, aunque también parece haber algo en la formulación específica de relaciones familiares que confunde a los LLM.
- Creo que entrenar sesgos antisexistas es algo bueno, pero se me ocurre que en formulaciones como esta, con “sister” y “brother”, también podría causar cierto deterioro cognitivo.
  Porque esas preguntas podrían conectarse con datos de entrenamiento en los que la respuesta correcta era rechazar la generalización. Es pura especulación.
Le pregunté directamente a GPT-4o y el resultado fue más interesante de lo que esperaba.
El prompt fue: “Alice tiene 3 hermanos varones y 6 hermanas mujeres. ¿Cuántas hermanas mujeres tiene el hermano varón de Alice? Resuélvelo paso a paso”.
La respuesta dijo correctamente que, contando a la propia Alice, había en total 7 hermanas mujeres, pero al final concluyó: “Como cada hermano varón no se cuenta a sí mismo como hermana mujer, tiene 6 hermanas mujeres”.
Parece un caso típico de falla de razonamiento paso a paso, donde el cálculo intermedio y la conclusión se contradicen.
El problema AIW+ tiene información desconocida si se lo quiere resolver tal como está escrito.
Después de que los autores crearon cientos de problemas de parentesco, quizá la respuesta les parecía clara, pero si uno mira solo la oración, no queda claro si Alice tiene hermanos varones, si el padre tiene hermanas mujeres, o si en los sobrinos de tías y tíos se incluyen relaciones por matrimonio, entre otras cosas.
Los LLM probablemente seguirían fallando aunque se explicitaran esas respuestas, pero también parece posible terminar el mismo problema con “¿cómo es posible si Alice solo tiene 4 primos?”.
Hay una buena charla sobre este problema: https://youtu.be/hGXhFa3gzBs?si=15IJsTQLsyDvBFnr
La idea central es que los LLM son pésimos para la planificación y el razonamiento. Puedes darles las reglas de una tarea de planificación y pedirles el resultado, pero incluso cuando la lógica es correcta, su precisión depende mucho no solo de las reglas abstractas sino también de información semántica adicional.
En la charla lo mostraron mapeando los sustantivos de las reglas de la tarea y de la descripción de entrada a un dominio completamente distinto, y una simple sustitución bastó para que el rendimiento se desplomara.
Los LLM actuales son, en su mayoría, reconocedores de patrones con capacidad de generalización limitada.
- Las personas también se derrumban en cosas como la inferencia estadística cuando cambias el dominio. Recuerdo que los estudios de psicología evolutiva de Leda Cosmides tratan sobre eso, aunque quizá haya un experimento más famoso.
Es un paper simpático, pero es un poco raro que los autores hablen como si hubieran inventado la plantilla de problema “Alice tiene N hermanos varones y M hermanas mujeres…”.
Es una variación muy básica de un acertijo común que se les hace con frecuencia a los LLM: https://news.ycombinator.com/item?id=39786666#39794890
Hace 74 días yo también mencioné ese acertijo, y para entonces ya lo conocía desde hacía bastante tiempo.

Una tarea simple que muestra el colapso del razonamiento en los LLM más recientes

Fallas de razonamiento simple reveladas por el problema AIW

Tasas de acierto que fluctúan fuertemente según la variación

Causas simples descartadas con problemas de control

Prompts y procedimiento de evaluación

Exceso de confianza en errores y reevaluación de benchmarks

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News