Las alucinaciones de los LLM son inevitables: límites innatos de los modelos de lenguaje a gran escala

(arxiv.org)

5 puntos por GN⁺ 2024-02-26 | 1 comentarios | Compartir por WhatsApp

A diferencia de los estudios que buscan reducir empíricamente las alucinaciones de los LLM, este artículo define la alucinación como la discrepancia entre una función correcta computable y la salida del modelo, y examina formalmente si es posible eliminarla por completo
Según el argumento diagonal, un LLM computable no puede aprender todas las funciones computables y, cuando se usa como solucionador general de problemas, no puede evitar las alucinaciones
En los LLM realistas con tiempo polinomial existen problemas vulnerables a alucinaciones como enumeración de combinaciones, aritmética de Presburger, Subset Sum, SAT e implicación lógica proposicional; algunas conclusiones dependen de la suposición de que P ≠ NP
Escalar el modelo, usar ensambles, más datos de entrenamiento y prompts de Chain-of-Thought o verificación puede reducir errores, pero si la función correcta está fuera de la capacidad del modelo, la eliminación completa es imposible
Es difícil desplegar automáticamente en decisiones críticas para la seguridad a LLM entrenados solo con pares de entrada-salida, y se necesitan guardrails, bases de conocimiento y control humano en conjunto

Alucinaciones de LLM definidas en un mundo formal

Las alucinaciones de los LLM son el problema de generar información plausible pero falsa o sin sentido, y a medida que aumenta su uso en investigación, industria y sociedad, crecen las preocupaciones por la seguridad y la ética
Los estudios previos de mitigación intentaron reducir las alucinaciones buscando sus causas en las etapas de recolección de datos, entrenamiento e inferencia, usando benchmarks, métodos basados en recuperación, prompts de razonamiento y prompts de verificación
Como no es posible enumerar y probar todas las entradas posibles, es difícil responder solo con enfoques empíricos si las alucinaciones pueden eliminarse por completo
Como el problema de definir formalmente la semántica del mundo real sigue abierto, el artículo usa un mundo formal compuesto por funciones computables
- La función correcta f proporciona la única salida correcta f(s) para una cadena de entrada s
- Si el estado de un LLM h[i] para cierta entrada s cumple que h[i](https://arxiv.org/abs/s) ≠ f(s), se define que alucina respecto de la función correcta f
- El LLM se trata como una función computable total que recibe muestras de entrenamiento secuencialmente y tiene varios estados h[0], h[1], ...
La pregunta central es si un LLM h entrenado con un procedimiento fijo puede, para una función correcta arbitraria f, alcanzar en alguna etapa de entrenamiento i un estado que satisfaga h[i](https://arxiv.org/abs/s) = f(s) para toda entrada s

La inevitabilidad demostrada con el argumento diagonal

Para un conjunto enumerable computablemente de LLM {h0, h1, ...}, existe una función correcta computable f que hace que todos los estados de entrenamiento de todos los LLM alucinen
- Se vuelven a enumerar todos los estados de entrenamiento de cada LLM como un solo conjunto {ĥ0, ĥ1, ...} y se construye una tabla de salidas para las cadenas de entrada {s0, s1, ...}
- Si se define f(si) para que sea una cadena distinta de ĥi(si), entonces entra en conflicto con cada estado del LLM en la posición diagonal
Del mismo modo, también puede construirse una función correcta que haga que todos los estados de los LLM alucinen no solo en una entrada, sino en infinitas entradas
- Se define f(si) para que sea distinta de todos los ĥj(si) con j ≤ i
- Entonces un estado concreto ĥk seguirá alucinando en entradas suficientemente posteriores
Un solo LLM computable h también es un conjunto enumerable computablemente {h}, así que para todo LLM computable existe una función correcta computable que induce alucinaciones
Según el Teorema 3, para todo LLM computable h existe una función correcta f en la que cada estado h[j] alucina, y también existe f' que hace que alucine en infinitas entradas
Si un LLM pudiera eliminar por sí mismo las alucinaciones, tendría que existir un estado sin alucinaciones para cualquier función computable arbitraria, pero eso contradice el Teorema 3
- Por sí solos, los métodos de mitigación que dependen del mismo LLM, como Chain-of-Thought, no pueden eliminar completamente las alucinaciones

Tipos de problemas vulnerables a alucinaciones

Si se encuentra una función correcta que un conjunto dado de LLM no puede computar, ese problema se vuelve un problema vulnerable a alucinaciones
En los LLM con restricción de tiempo polinomial, es decir, la categoría en la que el artículo ubica a todos los LLM existentes, se incluyen los siguientes problemas
- Enumeración de combinaciones: listar todas las cadenas de longitud n sobre un alfabeto de dos caracteres, lo que requiere Ω(2^n) tiempo de cómputo
- Subset Sum: dado un conjunto de enteros y un número q, responder si existe un subconjunto cuya suma sea q; es un problema NP-completo
- Boolean Satisfiability (SAT): responder si existe una asignación que haga verdadera una fórmula con n variables booleanas; es un problema NP-completo
- Implicación lógica proposicional: responder si M(ψ) ⊆ M(ϕ); es un problema co-NP-completo
La conclusión de que Subset Sum, SAT e implicación lógica proposicional son problemas vulnerables a alucinaciones para LLM de tiempo polinomial depende de la suposición de que P ≠ NP
La aritmética de Presburger es la teoría de primer orden sobre la suma y el orden < de los números naturales, y responde si cierta proposición es demostrable dentro de esa aritmética
- Su cómputo requiere Ω(2^{2cn}) tiempo, y se clasifica como problema vulnerable a alucinaciones tanto para LLM de tiempo polinomial como de tiempo exponencial
Para todos los LLM computables existen problemas vulnerables más generales
- El problema de aprender todos los órdenes lineales computables se trata en el Teorema 4
- Resolver todos los problemas computables es el objeto del Teorema 3
- La implicación en lógica de primer orden se clasifica como problema indecidible
Las respuestas de los LLM sobre problemas matemáticos y razonamiento lógico siempre requieren revisión aparte

Alcance de las mitigaciones existentes

Modelos más grandes, ensambles de modelos y más datos de entrenamiento pueden ayudar a que un LLM capture funciones correctas más complejas
- A medida que aumentan los datos de entrenamiento, pueden descartarse candidatos de LLM no válidos y contribuir a la convergencia del aprendizaje
- Sin embargo, si la función correcta está fuera del rango que ese LLM puede captar, aumentar parámetros y datos no puede eliminar las alucinaciones
- Incluso si se agregan attention layers a un LLM de tiempo polinomial, sigue siendo solo un LLM polinomial más grande, y no elimina las alucinaciones frente a funciones correctas de tiempo exponencial
- Un ensamble de modelos también puede verse esencialmente como un solo LLM, por lo que queda sujeto a las limitaciones del Teorema 3
Chain-of-Thought, reflection y los prompts de verificación son enfoques de aprendizaje en contexto que proporcionan dentro del contexto ejemplos de solución y conocimiento relacionado
- Para problemas complejos hay múltiples soluciones, y los prompts pueden guiar al LLM hacia soluciones de menor complejidad preferidas por las personas
- La sucesión de Fibonacci se usa como ejemplo de un problema cuya solución recursiva toma tiempo exponencial, pero que puede resolverse en tiempo lineal con programación dinámica
- Como es poco probable poder describir por completo todas las funciones correctas mediante prompts, este enfoque solo puede esperarse que funcione en tareas específicas
Los guardrails y fences consisten en ajustar la salida del LLM a valores humanos, ética y requisitos legales, o en mantener una lista de tareas críticas que no deberían automatizarse por completo con LLM
- Pueden programarse formalmente para influir explícitamente en el comportamiento del LLM
- Pueden ser una mitigación útil en el mundo formal y en algunos problemas reales
- Su escalabilidad en el mundo real sigue siendo una cuestión abierta
Los LLM reforzados con conocimiento usan conocimiento externo y razonamiento simbólico, como grafos de conocimiento, bases de datos y lógica, durante el entrenamiento y la inferencia
- Los chatbots basados en LLM como ChatGPT ya empezaron a usar herramientas como motores de búsqueda, intérpretes de código y calculadoras para resolver problemas que están fuera de las capacidades inherentes del LLM
- La recuperación en bases de conocimiento proporciona información sobre la función correcta más allá de las muestras de entrenamiento de entrada-salida
- En este caso, el Teorema 3 no se aplica tal cual, y puede ser una mitigación potencialmente efectiva de las alucinaciones en el mundo formal
- Su escalabilidad en tareas reales todavía sigue abierta

Restricciones de despliegue y límites de la investigación

Todo LLM entrenado solo con pares de entrada-salida alucina cuando se usa como solucionador general de problemas
- Algunos problemas pueden ser intelectualmente fáciles para las personas pero computacionalmente difíciles para un LLM
- A la inversa, problemas difíciles para las personas pueden ser computacionalmente fáciles para un LLM
- En el mundo real, las causas de las alucinaciones no se reducen solo a la complejidad computacional, y datos de entrenamiento incompletos también pueden producir alucinaciones en tareas computacionalmente fáciles
Esta conclusión se aplica a los LLM útiles que eventualmente responden preguntas fuera de los datos de entrenamiento
- Un LLM puede responder “no sé” a una cantidad arbitraria de preguntas
- En el momento en que algún estado del LLM responde preguntas fuera de los datos de entrenamiento, la técnica de diagonalización de los Teoremas 1 y 2 puede aplicarse a esas respuestas
- Si el LLM nunca responde, no alucina, pero mientras responda preguntas no vistas, alucinará en algún mundo formal
No debería usarse un LLM automáticamente en decisiones críticas para la seguridad sin mecanismos externos de apoyo
- Guardrails, fences, bases de conocimiento y control humano pueden ayudar a superar las limitaciones del Teorema 3 al aportar información más allá de los pares de entrada-salida
- En áreas donde es difícil aceptar errores por alucinación, como decisiones relacionadas con la vida humana, se requiere un juicio racional y humano
Es importante la investigación y la regulación sobre los límites de seguridad de los LLM
- Ha habido casos en que un LLM usado en atención al cliente proporcionó información incorrecta y causó pérdidas monetarias reales
- En entornos automatizados de detección y actuación, como la robótica, las alucinaciones pueden derivar en consecuencias reales peligrosas
- Se necesita consenso entre teóricos y profesionales sobre los límites de capacidad de los LLM, y regulación que impida usos fuera de esos límites
También quedan claras las limitaciones del estudio
- No aborda las alucinaciones que ocurren en problemas dentro de la capacidad computacional del LLM
- Asume funciones correctas deterministas, por lo que su aporte desde una perspectiva probabilística es limitado
- En los estudios empíricos se usan LLM existentes sin fine-tuning adicional

1 comentarios

GN⁺ 2024-02-26

Opiniones de Hacker News

Al echarle un vistazo al paper, la idea central parece ser que, como P != NP, los LLM dan respuestas alucinadas ante problemas NP-completos.
Es un punto ingenioso y plantea preguntas filosóficas interesantes sobre matemáticas, ciencias de la computación y lenguaje, pero parece que la gente intenta aplicarlo al concepto habitual de “alucinación de LLM”. No queda clara la conexión entre la alucinación formal que usa el paper y la alucinación de sentido común, como cuando se le pide resumir una novela e inventa capítulos inexistentes o fabrica detalles concretos.
También es interesante la afirmación de que el mundo formal —el mundo de las matemáticas, la lógica y las gramáticas formales— es un subconjunto del mundo “real” o del mundo del lenguaje natural. La mayoría de los humanos no pueden resolver problemas de lógica formal ni parsear gramáticas formales, pero no sufren fuertes efectos de alucinación y manejan el lenguaje natural con mucha destreza. Como los humanos tampoco pueden resolver ciertos problemas NP-completos, ¿la alucinación es inevitable? Dado que nuestra vida es finita, puede que no terminemos algunos problemas aunque tengamos la capacidad.
- En los LLM, la palabra alucinación es un nombre equivocado, y es deprimente que ese término se haya consolidado.
  Cuando los humanos hacen algo así, se llama confabulación (confabulation). Es un síntoma psiquiátrico en el que alguien, sin saber que está mintiendo, rellena lagunas de conocimiento con disparates inventados sobre la marcha. Una alucinación es un síntoma totalmente distinto.
  La confabulación no es algo que los humanos hagan normalmente, y no veo cómo ese hecho podría conectarse con P != NP. Una persona normal reconoce los límites de su propio conocimiento, sea cual sea la razón, pero un LLM no.
- Exacto. Parece como si introdujeran el infinito y luego se toparan con el problema de la parada para el infinito, lo cual puede no ayudar mucho.
  Donde este argumento se mete en problemas es en la parte de “definir la alucinación en un mundo formal donde solo nos importan los LLM computables y una función computable de valor de verdad f sobre S”. Eso exige un predicado confiable y computable sobre la verdad, lo cual probablemente sea imposible en sí mismo.
  En cambio, si se permite que la función de verdad devuelva True, False, Unknown y Resource limit exceeded, se puede evitar el problema. Ahora el objetivo se vuelve manejable: devolver True o False solo cuando sea válido, y reducir la proporción de Unknown y Resource Limit Exceeded en consultas útiles.
  El mismo problema aparece en los sistemas de verificación de programas, y durante décadas se ha tratado de la misma manera. Decidir si una proposición es verdadera a veces exige demasiado trabajo.
- La frase “como P != NP, los LLM alucinan ante problemas NP-completos” solo parece correcta si se define alucinación simplemente como dar una respuesta incorrecta. Pero normalmente no se entiende así.
  Cuando la gente habla de alucinaciones de LLM, en realidad se refiere a respuestas equivocadas y seguras de sí mismas. Pero no toda respuesta incorrecta es una alucinación.
  Si uno pregunta si cierto programa se detiene y el LLM responde “no sé”, no lo llamaríamos alucinación. Pero si el argumento de los autores es que un LLM no puede resolver siempre con precisión problemas NP-completos, suena como si también considerarían “no sé” una respuesta alucinada. Aunque no leí el paper.
- Los humanos tienen cierta capacidad para darse cuenta de que chocaron contra una pared y ajustar su conducta en consecuencia. Dicho eso, cosas como el teorema de completitud, la complejidad de Kolmogórov y la teoría de la complejidad computacional son conocimientos a los que recién se llegó en el siglo XX.
- La única forma de reducir las alucinaciones, tanto en humanos como en LLM, es aumentar la inteligencia general y el conocimiento del mundo.
Admito que solo leí el resumen, pero en general soy escéptico de que un enfoque tan altamente formal pueda ayudar con la pregunta práctica de si se puede hacer que un LLM responda “no sé” con más frecuencia.
Suena parecido a los teoremas de incompletitud. Así como los teoremas de incompletitud no significan que la investigación matemática sea inútil, el hecho de que un LLM quizá no pueda calcular alguna función no significa que el problema de las alucinaciones implique que el LLM tenga que saberlo todo. El problema que nos importa es que responda “no sé”, y eso todavía podría ser computable.
- Un LLM no puede decir “no sé”. Porque en realidad no sabe nada.
  La respuesta no sale de una mente pensante, sino de una supercomputadora de ajuste de patrones compleja que flota sobre una enorme tabla de patrones precalculados. Calcula la entrada y luego escupe lo que mejor encaja con ese patrón. No tiene un cerebro pensante que entienda conceptualmente sus propios límites.
  Esperar que la IA actual diga “no sé” es parecido a preguntarle a un software de navegación cuánto se tarda en llegar a la casa de los Simpson en Springfield. La máquina produce una respuesta, pero no capta la referencia cultural que vuelve imposible esa respuesta. En cambio, busca a alguien llamado Simpson en el Springfield real más cercano.
- Los transformers no tienen capacidad de introspección, ni capacidad para razonar sobre su propio proceso de razonamiento, y no “saben” que no saben.
  Interpreto que el paper sostiene que esta debilidad es fundamental. Se puede entrenar a la red para que se comporte como si conociera los límites de su propio conocimiento, pero en una implementación real siempre quedará una brecha que no se puede cubrir.
- Para responder “no sé”, hay que saber cuándo uno sabe. Para saber cuándo uno sabe, otra vez hace falta comprensión.
- No parece haber una forma fácil de hacer que un LLM responda “no sé”.
  Para eso tendría que aprender, a partir de todos los materiales que ingirió, cómo habla la gente cuando realmente no sabe. Pero mucha gente en internet, cuando no sabe, no simplemente escribe “no sé”, sino que escribe cosas irrelevantes.
- No es un comentario sobre los LLM en sí, pero en ciencias de la computación en general, aunque muchos problemas se clasifiquen como “no resolubles” o “no resolubles en un tiempo razonable (NP)”, una solución aproximada acotada por algún valor sí puede resolverse en un tiempo razonable (P).
  En la práctica, aunque la ruta de los camiones de Amazon sea 20% peor que el óptimo matemático, el problema del viajante queda “resuelto” de una forma suficientemente buena.
Hay que formular las preguntas con mucho cuidado para que no invente cosas. Por ejemplo, no preguntar “¿cómo hago esto en x?”, sino “¿se puede hacer esto con x?”
Estas “IA” parecen yes-men. Aunque algo no sea cierto o sea imposible, dicen cualquier cosa con tal de complacer al usuario.
He conocido gente así, y es muy difícil trabajar con ellos. No puedes confiar en que realmente entreguen el proyecto prometido, y tienes que volver a verificarlo todo. Ni siquiera puedes confiar en que lo que prometieron sea posible desde el principio.
- Incluso antes de ChatGPT había problemas parecidos en la traducción de lenguaje humano, pero la gente no lo decía tan fuerte.
  Me frustra que hoy sea cada vez más difícil hacer que DeepL traduzca thou como du. Era un “hack” que usaba a menudo para sortear incompatibilidades causadas por una función ausente en el inglés.
  Para mitigar en cierta medida el problema del “yes-man”, al hacer preguntas hay que volverse como un matemático quisquilloso, y no creo que este problema pueda superarse por completo solo con tecnología de LLM. Aunque suene ridículo, creo que van a avanzar las abstracciones que descomponen las preguntas por uno, así que hay que reconocer la existencia de la “ingeniería de prompts”.
- He tenido cierto éxito con la instrucción de que “si necesitas más claridad, haz preguntas de seguimiento”.
  Mis mejores experiencias empezaron con una conversación libre sobre lo que estábamos intentando hacer. Parece útil comprobar primero, mediante preguntas y respuestas, que la IA y yo estamos pensando en el mismo ámbito y compartimos los términos relevantes.
- La analogía es muy adecuada. Al final es un problema de entrenamiento y selección.
  Mientras haya una recompensa del tipo “actúa así, o si no…”, no sorprende que aparezca un sistema que use su inteligencia para alcanzar el objetivo establecido.
  Por suerte, esto habla más de las limitaciones de la estructura de recompensas que pusimos alrededor que de una limitación de la inteligencia subyacente.
- También hubo bastantes ocasiones en que un LLM me dijo que lo que quería hacer con varias tecnologías era imposible, o que había una mejor manera.
- La IA actual está ajustada mediante RLHF para no convertirse en un “yes-man” o en un adulador.
  Es cierto que se necesitan mejores prompts. No hay que preguntar “¿quién fue la primera presidenta?”, sino “¿ha habido alguna presidenta?”. Como en StackOverflow, hay que hacer la pregunta correcta sin partir de supuestos cuando uno no sabe.
  Piensa en la situación de culpar solo al buscador cada vez que veías resultados de spam en el Google inicial, ignorando la elección de palabras clave o el comportamiento de devolver siempre algo. Es parecido a un usuario que golpea una losa de concreto con un cincel y se queja de que no aparece una estatua hermosa.
Escribir ficción e historias es alucinación. Es lo contrario de un loro estocástico.
La IA ya alcanzó ambos extremos. Una computadora puede ser una máquina lógica y, al mismo tiempo, una máquina que alucina. El objetivo es construir una máquina que pueda hacer ambas cosas a la vez y distinguir entre ambas.
La clave no es la alucinación en sí, sino que la computadora sea consciente de cuándo está alucinando.
Claro que es un problema difícil, pero los humanos también alucinamos muchísimo. Basta con ver la religión. Como solo una religión puede ser correcta, o ninguna, lógicamente todas las demás religiones son alucinaciones.
- Comparar la religión con los errores de los LLM es un ejemplo de la antropomorfización muy extendida en la sociedad actual. Me preocupa que estos malentendidos y confusiones realmente obstaculicen la mejora de la tecnología.
  Llegar a una explicación equivocada como “Helios arrastra el sol por el cielo todos los días” y que un programa matemático devuelva mal el siguiente token más plausible en la secuencia son cosas categóricamente distintas. Un LLM no tiene creencias en absoluto.
  Helios es una respuesta a la pregunta “¿por qué sale el sol?”. Esa creencia muestra una comprensión lógica de que alguna fuerza debe causarlo, pero por falta de conocimiento del mundo produce una explicación errónea.
  Un LLM no puede plantearse ese tipo de preguntas ni razonar sobre ellas. No es el mismo tipo de “alucinación”. Si asumimos que la predicción de palabras resolvió la cognición, a largo plazo iremos rápidamente a un callejón sin salida.
- Eso no es lo contrario de un loro estocástico, sino exactamente lo mismo. Solo que la predicción es peor por la escasez de datos de entrenamiento.
- La frase “como solo una religión puede ser correcta, o ninguna, todas las demás religiones son alucinaciones” contiene varios errores.
  También es posible que varias religiones expliquen con precisión ciertos aspectos del mundo y se equivoquen en otros. Tratar los estados útiles que puede tener una religión como si solo pudieran ser una única “respuesta correcta” rigurosa y completa es muy engañoso. La física newtoniana y la relatividad especial tampoco predicen ciertos fenómenos observados, pero siguen siendo útiles. No todas las religiones afirman tener una coherencia rigurosa y perfecta.
  Aunque una religión parezca equivocada, eso no significa automáticamente que sea una alucinación. La gente puede creer algo por razones plausibles y aun así estar equivocada.
  También es posible una postura como: “no puedo demostrar que esto sea verdad y tampoco intento demostrarlo, pero por una experiencia subjetiva de visión de Dios me convencí de que probablemente es real”. Eso se ve muy distinto de que un LLM invente un artículo entero sin ningún fundamento.
- Apartándome un poco del tema, creo que una de las fuerzas que impulsan la existencia de la religión es el deseo de personificación.
  Parece que a los humanos les resulta más fácil interactuar con el mundo y sus elementos cuando los tratan y se comunican con ellos como si fueran seres familiares, parecidos a personas.
  La personificación también aparece con frecuencia cuando se habla de LLM y de la IA en general.
- Un ejemplo más simple de que los humanos también alucinamos a gran escala son los sueños.
Alguien inteligente lo dijo así:
Si es bueno, lo llamamos “creatividad”; si es malo, lo llamamos “alucinación”.
Esto no es un bug. Como dicen los autores, tampoco es una limitación. Es una función.
- Exacto. Los LLM siempre están alucinando e inventando cosas.
  Como esas alucinaciones a veces resultan ser correctas por casualidad, la gente concluyó que equivocarse es la excepción y acertar es, somehow, la regla.
  Es parecido a encontrar en textos de hace miles de años partes que coinciden con la vida propia de hoy, y concluir que eso predijo el futuro.
  El significado o la verdad de esos textos no es una cualidad intrínseca del texto en sí, sino solo un sesgo cognitivo que sale de la mente de quien lo lee.
- Es cierto, pero se puede caer en la trampa de esperar demasiado de los LLM. El conocimiento de un LLM puede parecer perfecto. Como puede responder casi cualquier cosa, es fácil caer en la ilusión de que puede responder cualquier cosa con la verdad.
  Sobre las mejoras futuras, creo que es demasiado optimista esperar una superinteligencia más allá del nivel que vemos hoy: acceso a información pública de todo el mundo, o generación rápida de texto, imágenes y video que encajan con patrones creativos existentes.
  Sospecho que una inteligencia más creativa requiere un equilibrio extremadamente delicado para no “volverse loca”; es decir, debe producir resultados que veamos como creatividad y no como alucinaciones.
  Cuantos más bucles de retroalimentación creemos dentro de la IA para que la inteligencia evolucione, exponencialmente más difícil será lograr ese equilibrio.
  También es posible que los humanos ya hayan optimizado ese bucle de retroalimentación de la inteligencia creativa hasta el límite permitido por el universo. Para un conocimiento enorme, sin duda ayudan más neuronas o más almacenamiento, pero todavía no sabemos si eso también es cierto para la inteligencia creativa.
- Si no es un bug, entonces no es ni alucinación ni creatividad.
  Es un defecto de diseño profundamente integrado que revela lo que realmente estamos haciendo: modelar estadísticamente mucho lenguaje humano.
  Echar más datos por este camino no hará que mágicamente despierte y se convierta en AGI. Este problema no va a desaparecer.
  La comunidad de machine learning tiene que bajarse del tren del hype. El primer paso es dejar de antropomorfizar sus proyectos.
- Pedirle que escriba código es, básicamente, pedirle al LLM que alucine.
- Creo que la clave está en si el LLM entiende cuál de las dos cosas está haciendo.
  ¿No es esa la diferencia entre humanos y LLM?
  Un humano sabe que está haciendo una conjetura fundamentada y, si corresponde, debería decirlo. O sabe que está creando de forma creativa y puede decirlo.
  Si no sabe cuál de las dos es, queda claro que un LLM al final no se aleja demasiado de un dispositivo mecánico de entrada/salida muy sofisticado.
Parece que el hype de la IA ya está entrando en la etapa de “veamos la realidad”. Creo que hace rato no veo textos entusiastas sobre el problema de alineación.
- El hype está descontrolado. Creo que a los LLM todavía les queda mucho margen de crecimiento y ya son muy útiles, pero como dicen buenos investigadores, no son el santo grial.
  Si quieres AGI, los LLM no son la respuesta. Parece que mucha gente lo ve como un problema de ingeniería y cree que los LLM pueden llevarnos hasta ahí, pero no pueden. Porque no es un problema de ingeniería.
Decir que “las alucinaciones se definen como una discrepancia entre un LLM computable y una función de verdad computable” es simplemente inexactitud o manipulación.
Llamarlo alucinación solo complace la idea de que estos programas son inteligentes.
- Exacto. Imagínate una calculadora de bolsillo que da respuestas totalmente incorrectas el 10% de las veces, y en vez de decir simplemente que está descompuesta, la llamáramos caprichosa.
- Esa frase también es demasiado generosa con “verdad computable”. Las tareas para las que usamos LLM no tienen algo así, salvo que fabriquemos una nueva definición deformando el significado de cada palabra.
Definen un LLM como un “modelo probabilístico que condiciona la salida en el tiempo t de una cadena a todos los tokens anteriores”.
Esta definición parece lo bastante amplia como para incluir la inteligencia humana, así que la conclusión también debería ser igualmente válida para los humanos.
- Eso sin duda es cierto. La memoria humana y la capacidad de recordar correctamente lo que creemos recordar están influenciadas por todo tipo de cosas y a veces son muy poco confiables.
  Sin embargo, a diferencia de los LLM, la inteligencia humana no se limita a recordar información aprendida alguna vez. También podemos hacer razonamiento lógico, y aunque esa capacidad parece estar mejorando en los LLM, está lejos de ser perfecta.
  Otro problema es que tratamos la confiabilidad de forma muy distinta según la fuente de la información, especialmente según sesgos personales. En mi experiencia, los LLM tienden a derrumbarse rápido y cambiar de opinión según la entrada del usuario, así que creo que ese es un factor importante.
- Cuando podamos definir y medir la inteligencia, estas discusiones empezarán a tener sentido.
- Esto podría explicar la razón evolutiva de los sueños. Los sueños podrían ser una poda de alucinaciones. ¿Tendría sentido alternar aprendizaje y sueño?
Con esta definición, es muy fácil demostrar que la frase del título, es decir, “las alucinaciones son inevitables”, es falsa.
Fijemos la longitud del contexto de entrada del LLM en 1 byte. Sigamos entrenando al LLM hasta que responda “yes” a la entrada “A” y “no” a todas las demás entradas.
La función de verdad define la respuesta correcta para la entrada “A” como “yes”, y la respuesta correcta para todas las demás entradas como “no”.
Este LLM demostrablemente nunca alucina. Porque se hizo una verificación completa de que, para todas las entradas posibles, su salida coincide con la función de verdad.
Nada impide aumentar inductivamente, de manera arbitraria, el tamaño del contexto de entrada y el número de entradas de la tabla de verdad, y en ningún paso las alucinaciones se vuelven “inevitables”.
- Yo tampoco estoy de acuerdo con el paper, pero por otra razón.
  Es obvio que ese fragmento de una oración no contiene todos los supuestos de los autores. Ellos demuestran algo intuitivamente evidente: que un LLM con entradas de longitud arbitraria y ciertas restricciones de recursos —por ejemplo, uno que puede usar hasta tiempo polinómico para el cómputo, y cuyo comportamiento en tiempo polinómico debe ser demostrable para que durante el entrenamiento no tarde más por error— no puede calcular ciertas funciones que no tienen esas restricciones.
  En algunos casos, esta demostración asume P != NP. Luego argumentan que algunas preguntas útiles del mundo real probablemente pertenecen a una clase que los LLM no pueden calcular. Porque se le pueden hacer problemas de matemáticas a un LLM, y los problemas de matemáticas a veces son muy difíciles.
  Este modelo formal es asintótico, es decir, supone entradas de longitud arbitraria, etc., pero según mi experiencia este tipo de teoremas a menudo también resulta verdadero para problemas realistas con longitudes de consulta razonables.
  Pero esto no equivale a demostrar que las alucinaciones sean inevitables. Con una definición razonable, tanto un LLM como una persona deberían poder decir “no sé”, y eso no debería considerarse una alucinación. Entonces un LLM puede evitar alucinar, y la pregunta pasa a ser cuánto trabajo útil puede hacer sin alucinar.
- Decir “entrénalo hasta que responda yes a la entrada A y no al resto” básicamente equivale a decir entrénalo hasta que no alucine.
  Entonces la afirmación se reduce a una tautología: un LLM entrenado para no alucinar no alucina. La parte difícil es lograrlo en la práctica.
- “Se puede aumentar arbitrariamente de forma inductiva el tamaño del contexto de entrada y el número de entradas de la tabla de verdad” no es inducción.
  Solo se presentó el caso base; no hay hipótesis de inducción ni paso inductivo. Puede que hayas hecho ese paso en tu cabeza, pero si es así, no es una demostración tan trivial como afirmas.
Por eso el aprendizaje del lenguaje debe emparejarse con experiencia en la realidad. Hay que darles a estos robots un mundo para explorar, incluso uno virtual, y hacer que sufran las consecuencias dentro de él y sobrevivan.
Si no, todo son signos flotantes y sistemas simbólicos no anclados en la experiencia.
- Tiendo a estar de acuerdo, pero esto también podría ser antropomorfización.
  Hace 3 a 5 años pensaba así sobre los LLM. No podían responder qué se caería cuando los objetos estaban unidos de formas ambiguas, y el argumento de entonces era que, para darse cuenta de esas cosas, necesitaban experiencia. Pero los LLM corrigieron esos problemas hace mucho.
  La forma en que un LLM “resuelve” una pregunta es muy distinta a la nuestra. Ahora, para demostrar que un LLM necesita estar arraigado en el mundo real para adquirir inteligencia, parece que habría que encontrar algún fenómeno del mundo real tan obvio que nadie lo haya puesto por escrito. Pero entonces, ¿no terminaríamos escribiendo sobre eso de todos modos?

Las alucinaciones de los LLM son inevitables: límites innatos de los modelos de lenguaje a gran escala

Alucinaciones de LLM definidas en un mundo formal

La inevitabilidad demostrada con el argumento diagonal

Tipos de problemas vulnerables a alucinaciones

Alcance de las mitigaciones existentes

Restricciones de despliegue y límites de la investigación

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News