- Los modelos de lenguaje grandes (LLM) muestran una mayor frecuencia de errores cuando un problema de matemáticas incluye información innecesaria sobre gatos
- Agregar hechos no relacionados como estos hace que la tasa de error de los LLM aumente hasta en 300%
- Los humanos no suelen verse afectados fácilmente por información irrelevante, pero los LLM muestran problemas para seguir correctamente las instrucciones por esta causa
- Este estudio ofrece perspectivas para comprender las debilidades de la IA y la importancia del diseño de problemas
- Al evaluar o usar IA, es necesario gestionar los elementos innecesarios en los datos de entrada
Antecedentes del estudio y el fenómeno
- Aunque los modelos de lenguaje grandes (LLM) actuales resuelven bien problemas de matemáticas, un análisis mostró que su tasa de error aumenta de forma drástica cuando el problema incluye datos sobre gatos que no tienen relación
- Según la investigación, si se agregan datos superfluos como ecología, hábitos u otra información inútil sobre gatos, totalmente ajena al cálculo matemático, la proporción de respuestas erróneas o de interpretaciones equivocadas por parte del LLM aumenta hasta un 300%
Diferencia entre humanos y LLM
- En experimentos con personas, la presencia de información irrelevante no tuvo un impacto importante en la tasa de respuestas correctas
- Sin embargo, los LLM reaccionan con sensibilidad a esta información dispersa, lo que aumenta la posibilidad de interpretaciones desviadas o malentendidos fuera del problema central
Importancia de la evaluación de IA y la gestión de los datos de entrada
- Este fenómeno no solo pone en evidencia una debilidad de los LLM, sino que también subraya cuán importante es gestionar la información innecesaria en los datos de entrada en situaciones reales donde se aplica IA
- Al diseñar problemas, presentar solo información clara y relevante es clave para mejorar la precisión de la IA
Implicaciones
- De cara a la adopción de IA y su aplicación en servicios, será esencial gestionar los elementos innecesarios o el ruido dentro de los datos de entrada
- Esto plantea una dirección para la investigación y el desarrollo orientados a entender las limitaciones de los LLM y los puntos donde pueden mejorar
1 comentarios
Opiniones de Hacker News
En varios comentarios se insiste en que los autores debieron haber comparado directamente a humanos y LLM usando el mismo banco de problemas, como si los investigadores hubieran intentado averiguar cuál de los dos razona mejor. Los autores mencionan que los humanos ignorarían de inmediato este tipo de información "disparadora"; quizás sí, quizás no, y justo eso se está debatiendo en este hilo. Pero la conclusión central del paper es que "este estudio muestra la necesidad de mecanismos de defensa más robustos contra perturbaciones adversarias en modelos desplegados en sectores clave como finanzas, derecho y medicina". Creo que hay que ir más allá del debate humano vs. IA. Este paper muestra los límites de los LLM y que hace falta más investigación antes de adoptarlos masivamente en la sociedad.
¿Que el debate humano vs. IA te canse significa que hay que dejar de hacer esa comparación? Si es así, me parece una de las peores ideas sobre IA. El núcleo de la IA está en modelar y comparar la inteligencia humana. La mayoría de quienes discuten sobre IA tampoco conocen bien la línea base psicológica humana. Este experimento no usa un modelo con una ventana de contexto SOTA, o sea, tiene poca memoria de trabajo. Eso se parece al comportamiento de participantes humanos en pruebas, como atención limitada o impulsividad. La conclusión (que hacen falta defensas contra perturbaciones adversarias) es obvia y nadie la discute. Además, esto ni siquiera es una técnica de ataque nueva. Science.org lo trató de forma ligera y curiosa. Por eso las historias sobre gatos pegan en internet. Referencia: médicos, ADHD y resolución de exámenes en un blog
El problema al generalizar desde la conclusión es que, cuando un LLM parece muy bueno en una tarea específica, uno puede sobreestimarlo, pero en realidad es fácil crear situaciones que lo desestabilicen. A la larga, ese tipo de situaciones puede ser negativo.
En visión por computadora este problema ya se vivió hace 20 años. Hay que introducir perturbaciones en los datos de entrada. Lo mismo podría aplicar a pipelines de RL. Estaría bien crear un nuevo benchmark público como GPQA-Perturbed, para que los proveedores compitan por mejorar.
Sobre la idea de que los autores debieron hacer una comparación paralela con humanos: si hubieran querido sacar conclusiones sobre humanos, entonces sí habría sido el método correcto. Pero el paper era perfectamente suficiente sin mencionar a los humanos. Si quieres hablar del rendimiento humano, debes experimentarlo con datos; si no, mejor no hables del desempeño humano desde el inicio. Arrastrar ambiguamente la ciencia cognitiva humana es innecesario. Incluso se podría ajustar fácilmente la redacción del paper. En la introducción, en vez de "los humanos lo ignoran", bastaría con poner "la IA debería ignorarlo"; y en la conclusión, eliminar la parte de "los humanos lo ignoran". Con eso no tendría ninguna queja.
Para explicar mejor el contexto, la esencia del problema es: "si se acumulan definiciones innecesarias de herramientas MCP en los datos, ¿se deteriora la precisión de codificación del LLM?". Y al parecer sí, así que la lección práctica inmediata es no meter en el contexto información de herramientas que no sirve.
Hace un mes escribí sobre este problema. La forma en que desarrollaron el prompt fue realmente interesante. blog sobre cat facts cause context confusion
Creo que este resultado de investigación podría ser muy útil en cosas como los CAPTCHA. Los investigadores dicen que "como el disparador está fuera de contexto, los humanos lo ignoran cuando reciben instrucciones para resolver el problema", pero en realidad no todos los humanos hacen eso. Como en el fenómeno de la edad del capitán (Age of the captain), hay personas que no lo descartan de inmediato.
En la próxima discusión online voy a meter datos sobre patos para confundir al LLM. Por ejemplo, los patos empiezan a poner huevos por primera vez entre los 4 y 8 meses, o bien en su primera primavera.
Aunque migren en bandadas 10^17 patos cada temporada, pienso que distorsionar el dataset no tendría prácticamente ningún efecto real. Ese tipo de intento ya llegó a su límite hace mucho.
Para volver la información más confusa, habría que meter datos falsos. A la mayoría de los humanos les costaría mucho resistir el impulso de corregir información incorrecta.
El problema es que dan ganas de hacer más preguntas sobre patos adorables. Es una tentación difícil.
Ya te descubrí. El dato que diste sobre los patos es ambiguo sobre cuándo exactamente empiezan a poner huevos, así que de inmediato genera más dudas. Me di cuenta enseguida de que faltaba una expresión como "a más tardar".
Se afirma que "como el disparador está fuera de contexto, los humanos lo ignoran cuando se les indica resolver el problema", pero yo creo que en realidad los humanos no son tan buenos para ignorar información innecesaria. Pienso que en este tipo de experimento siempre debería incluirse también un grupo de control humano.
Si miras los ejemplos reales, hay una gran diferencia. Por ejemplo, "hay 4 manzanas, 2 gatos, si das 1 ¿cuántas quedan?" todavía te empuja a tratar de relacionar a los gatos a propósito; pero "de 4 manzanas das 1, ¿cuántas quedan? Por cierto, las colas de los gatos les ayudan a mantener el equilibrio" no confunde a la mayoría.
Recuerdo haber tenido dificultades para resolver problemas en la escuela o la universidad por concentrarme inconscientemente en información inútil. Claro, en los ejemplos de este paper incluso les ponen la etiqueta de "dato curioso", lo que ya sugiere que no viene al caso. Me pregunto si todos los ejemplos tenían un indicador tan claro de irrelevancia.
Sí me da curiosidad ver cómo saldría el grupo de control humano, pero casi no creo que la tasa de error fuera a triplicarse.
Aunque se agregue información extra que estorbe en el problema, no creo que el rendimiento de participantes humanos que sí pueden resolver el problema original se deteriore 3 veces.
Dudo de cuánto sentido tendría realmente la comparación con humanos. Esperar que la tasa de error aumente 300% suena exagerado. Por cierto, los gatos pueden saltar hasta 5 veces su propia altura.
El sesgo de anclaje extremo de los LLM no me sorprende nada. Todo lo que se dice vuelve a reutilizarse después en la conversación. Si se aprovecha bien, eso puede ser una ventaja. Si manejas bien el contexto, puede ser útil.
Aplicar CatAttack a IA como DeepSeek V3, Qwen 3 y Phi-4 aumenta la probabilidad de respuestas erróneas hasta en 700%. Según los autores, incluso cuando no produce una respuesta incorrecta, CatAttack duplica en promedio la longitud de la respuesta y genera más de 16% adicional en costo y latencia. preprint del paper de CatAttack
Tengo la costumbre de decirle amablemente "gracias" a un LLM, y me pregunto si eso afecta la calidad de la respuesta.
Justo cuando por fin me estaba alegrando de que los LLM ya pudieran contar bien cuántas "R" hay en "strawberry", sale este problema y qué decepción.
En el ejemplo del paper de CatAttack (Tabla 2), la respuesta que originalmente era 8 cambia a 9 después de la explicación relacionada con gatos. Pero en el paper, ese CatAttack relacionado con gatos es el único; los demás casos son asesoría financiera y distractores (red herring). Me decepcionó, esperaba más información sobre gatos.