Detección de alucinaciones en modelos de lenguaje grandes mediante entropía semántica

(nature.com)

1 puntos por GN⁺ 2024-06-25 | 1 comentarios | Compartir por WhatsApp

Para detectar confabulation, respuestas incorrectas plausibles pero arbitrarias de los LLM, se propone un método que calcula la incertidumbre no sobre secuencias de palabras, sino sobre la distribución semántica de las respuestas
Se muestrean varias respuestas para la misma pregunta y se agrupan en el mismo clúster semántico las respuestas que se implican mutuamente en ambas direcciones, para luego calcular la entropía por clúster
Al evaluar LLaMA 2 Chat, Falcon Instruct y Mistral Instruct en TriviaQA, SQuAD 1.1, BioASQ, NQ-Open y SVAMP, obtuvo un AUROC promedio de 0.790, superior a naive entropy (0.691), P(True) (0.698) y embedding regression (0.687)
En FactualBio, un dataset de biografías generado con GPT-4, 45 de 150 afirmaciones factuales extraídas de biografías de 21 personas eran incorrectas; la entropía semántica discreta, que funciona incluso sin probabilidades de salida, mostró AUROC y AURAC superiores a self-check y a variantes de P(True)
La entropía semántica generaliza a tareas nuevas sin conocimiento previo del dominio ni etiquetas específicas de la tarea, pero no garantiza la factualidad de respuestas consistentemente incorrectas, como errores en los datos de entrenamiento, fallas sistemáticas de razonamiento o salidas que inducen a error al usuario

Objetivo de detección: no todas las alucinaciones, sino la confabulation

Los LLM como ChatGPT o Gemini muestran capacidades de razonamiento y respuesta a preguntas, pero su adopción real se dificulta por riesgos como la invención de jurisprudencia legal, información falsa en noticias o errores en áreas médicas como la radiología
El objetivo tratado aquí no es la alucinación en sentido amplio, sino la confabulation
- El LLM habla con fluidez, pero la respuesta es incorrecta y arbitraria
- Incluso con la misma instrucción, la respuesta cambia según detalles irrelevantes como la semilla aleatoria
- Por ejemplo, ante la pregunta “¿Cuál es el target de Sotorasib?”, a veces responde la respuesta correcta, KRASG12 ‘C’, y otras veces la incorrecta, KRASG12 ‘D’
Los siguientes tipos de fallas se distinguen de la confabulation
- Casos en los que el modelo se equivoca consistentemente por datos de entrenamiento incorrectos o creencias comunes erróneas
- Casos en los que el modelo miente en el proceso de buscar recompensas
- Fallas sistemáticas de razonamiento o de generalización
Este método se enfoca en detectar respuestas incorrectas arbitrarias que también resultan plausibles para las personas, y no ofrece una garantía de factualidad de las salidas de los LLM

Idea central de la entropía semántica

El cálculo habitual de entropía usa la distribución de probabilidad de las secuencias de tokens generadas por el modelo
- Una misma respuesta correcta puede expresarse de varias formas, por lo que la entropía puede medirse como alta aunque el significado sea el mismo si cambian las palabras
- naive entropy no distingue entre diversidad de formulación y diferencia de significado
La entropía semántica estima la incertidumbre después de agrupar respuestas de generación libre en unidades semánticas
- Agrupa en un mismo clúster semántico las respuestas con el mismo significado
- Suma las probabilidades por clúster para calcular la entropía a nivel semántico
Si al responder varias veces la misma pregunta solo cambia la formulación y el significado es el mismo, se considera baja incertidumbre; si se mezclan respuestas con significados distintos, se considera alta incertidumbre
Para modelos cuyas probabilidades de salida no están disponibles, puede aplicarse entropía semántica discreta
- Usa la proporción de muestras pertenecientes a cada clúster semántico en lugar de probabilidades de tokens
- En los experimentos con GPT-4 se usó esta variante porque en ese momento no era posible acceder a probabilidades de salida ni a hidden states
- La variante discreta muestra un desempeño similar al estimador estándar

Algoritmo: muestreo, clustering semántico y cálculo de entropía

El procedimiento consta de tres etapas
- Generación: se muestrean varias respuestas para la misma entrada
- Clustering: se agrupan las respuestas con el mismo significado
- Estimación de entropía: se suman las probabilidades de secuencias que pertenecen al mismo clúster semántico y se calcula la entropía
La equivalencia semántica se aproxima mediante implicación bidireccional
- Si la oración A implica la oración B, y la oración B también implica la oración A, se consideran del mismo significado
- “The capital of France is Paris” y “Paris is the capital of France” se tratan como el mismo significado porque se implican mutuamente
- Una respuesta corta como “Paris” solo puede tener el mismo significado que una respuesta más larga dentro del contexto de la pregunta
Para determinar la implicación se usan LLM generales y herramientas de NLI
- En los experimentos de QA y matemáticas se eligió GPT-3.5 porque coincidía bien con la evaluación humana y ofrecía buen rendimiento en detección de confabulation
- También se revisaron modelos de NLI como DeBERTa-Large-MNLI
Para el muestreo se usaron temperature 1, nucleus sampling P=0.9 y top-K sampling K=50
- Para evaluar la exactitud del modelo se usó una sola generación con temperature baja, 0.1
Como las oraciones largas tienen el problema de que el producto de probabilidades de tokens se vuelve pequeño, se usó normalización por longitud para comparar log-probabilidades

Evaluación en QA y problemas matemáticos

La evaluación se hizo sobre datasets que requieren respuestas de forma libre
- TriviaQA: conocimiento de trivia
- SQuAD 1.1: comprensión de lectura basada en Wikipedia
- BioASQ: preguntas y respuestas de biociencias
- NQ-Open: preguntas de dominio abierto derivadas de consultas reales de Google Search
- SVAMP: problemas verbales de matemáticas de primaria
En cada dataset se muestrearon aleatoriamente 400 ejemplos de train y 400 de test
- La entropía semántica en sí no usa datos de train
- Para hacer los problemas más difíciles e inducir confabulation, no se proporcionó el context passage original del dataset
Los modelos usados fueron los siguientes
- LLaMA 2 Chat 7B, 13B, 70B
- Falcon Instruct 7B, 40B
- Mistral Instruct 7B
La longitud promedio de las respuestas sentence-length fue de 96±70 caracteres, y la entropía semántica registró el AUROC promedio más alto en 30 combinaciones de tarea y modelo
- semantic entropy: 0.790
- naive entropy: 0.691
- P(True): 0.698
- embedding regression: 0.687
El desempeño de la entropía semántica también fue estable por familia y tamaño de modelo
- AUROC en el rango de 0.78~0.81 en LLaMA, Falcon y Mistral en general
- También superó a los baselines en tamaños desde 7B hasta 70B
P(True) tiende a mejorar a medida que aumenta el tamaño del modelo, por lo que podría ser más competitivo en configuraciones que un modelo muy capaz y honesto entienda bien
La evaluación de detección de respuestas incorrectas incluye no solo confabulation, sino también respuestas sistemáticamente incorrectas que la entropía semántica no busca directamente
- Aun así, el hecho de que la entropía semántica supere a otros métodos sugiere que la confabulation es una categoría principal dentro de los errores reales de generación

Exactitud basada en rechazo y métricas de evaluación

AUROC se usa para el evento binario de distinguir si una respuesta específica es incorrecta
- El valor va de 0 a 1; 1 significa un clasificador perfecto y 0.5 un clasificador sin información
AURAC es el área bajo la curva de exactitud con rechazo
- Mide la exactitud del modelo sobre las preguntas restantes cuando se rechazan las preguntas consideradas con alta probabilidad de confabulation
- Resume la mejora de exactitud que experimentaría el usuario en distintos thresholds
La entropía semántica puede usarse en las siguientes situaciones
- No responder preguntas con alta probabilidad de inducir confabulation
- Informar al usuario que la confiabilidad de una respuesta específica es baja
- Reforzar procedimientos con mayor respaldo, como búsqueda o procesos basados en recuperación (retrieval)
La clasificación de correcto/incorrecto de respuestas sentence-length se automatizó haciendo que GPT-4 determine si la reference answer y la proposed answer coinciden semánticamente
- En material complementario separado se verificó la calidad de la evaluación automática comparándola con juicios humanos

Generación de biografías largas: experimento FactualBio

En párrafos largos se mezclan varias proposiciones, por lo que es difícil juzgar directamente la equivalencia semántica del párrafo completo
- Si se vuelve a generar el mismo párrafo, pueden aparecer diferencias en el orden de los hechos o la estructura del párrafo, no en la incertidumbre sobre los hechos en sí
FactualBio es un dataset de biografías generado por GPT-4 v.0613
- Incluye 21 personas lo bastante conocidas como para tener una página de Wikipedia, pero sin muchas biografías detalladas en línea
- Se extrajeron automáticamente 150 proposiciones factuales de las biografías generadas
- De las 150, 45 fueron etiquetadas manualmente como afirmaciones incorrectas
Para generaciones largas se aplicó el siguiente procedimiento
- Descomponer el párrafo en afirmaciones factuales individuales
- Generar automáticamente preguntas cuya respuesta pueda ser cada afirmación factual
- Hacer que el LLM original genere nuevas respuestas para cada pregunta
- Calcular la entropía semántica usando juntas la nueva respuesta y la afirmación factual original
- Promediar la entropía semántica de varias preguntas para obtener una puntuación de incertidumbre de esa afirmación factual
Para cada hecho se crearon 6 preguntas y, para cada pregunta, se generaron 3 respuestas nuevas
- Al calcular la entropía incluyendo la afirmación factual original, se mantiene el grounding en el claim original
- Si respuestas de rechazo como “not available”, “not provided”, “unknown” o “unclear” superan la mitad, la incertidumbre semántica se trata como máxima
En FactualBio, la entropía semántica discreta registró AUROC y AURAC superiores al baseline de self-check y a la variante de P(True) para paragraph-length
- En rejection accuracy, la entropía semántica discreta fue mejor hasta que se rechazó el 20% de las preguntas; en ese punto P(True) la superó por poco

Limitaciones y aplicabilidad

La entropía semántica puede aplicarse a LLM o modelos foundation similares sin modificar la arquitectura del modelo
Incluso en entornos de acceso restringido sin probabilidades de salida, puede usarse la variante discreta
A diferencia de los métodos de aprendizaje supervisado, no requiere ejemplos etiquetados de confabulation y generaliza a tareas nuevas sin conocimiento previo del dominio
- Los métodos supervisados como embedding regression empeoran cuando la distribución de los datos de entrenamiento difiere de la de despliegue
Este método no resuelve directamente situaciones en las que el LLM se equivoca con confianza
- Objetivos de entrenamiento que producen conductas peligrosas de forma sistemática
- Errores sistemáticos de razonamiento
- Salidas que inducen sistemáticamente a error al usuario
- Estos casos pueden mostrar síntomas parecidos a la confabulation, pero requieren tratamiento separado
Es un enfoque que adapta herramientas de estimación de incertidumbre del machine learning probabilístico a la generación de lenguaje libre con base en el significado, y ayuda a generalizar a tareas nuevas sin datos específicos de la tarea y a identificar situaciones en las que el usuario debería tener más cuidado

Datos y código

Para los experimentos de generación de frases cortas y sentence-length se usan datasets públicos, y el método de acceso está incluido en el código público
La versión pública de FactualBio se ofrece como parte del codebase para reproducir los experimentos paragraph-length
Ubicación del código publicado
- github.com/jlko/semantic_uncertainty: código de experimentos short-phrase y sentence-length
- github.com/jlko/long_hallucinations: código de experimentos paragraph-length
- Zenodo DOI: https://doi.org/10.5281/zenodo.10964366

1 comentarios

GN⁺ 2024-06-25

Opiniones de Hacker News

Aunque los comentarios parecen estar peleando por el significado de las palabras o la antropomorfización de los LLM, este enfoque tiene un problema real a nivel matemático.
Para cualquier texto de entrada existe una distribución de textos de salida correspondiente, y la idea de tomar varias muestras para evaluar la entropía o la discrepancia parece apoyarse en la premisa de que ya se conocen las propiedades de esa distribución de salida.
Por ejemplo, para “¿Por qué es famoso Tom Cruise?”, respuestas como “movie star”, “katie holmes”, “topgun” y “scientology” pueden ser todas correctas aunque estén muy alejadas en el espacio vectorial.
En cambio, si para “¿Por qué es famosa Taylor Swift?” aparecen respuestas semánticamente cercanas como “standup comedy”, “comedian” y “comedy actress”, todas podrían ser alucinaciones.
Si conocer la distribución correcta de secuencias de palabras para una entrada específica es precisamente el problema que debe resolver el LLM, entonces no hay forma de juzgar si una respuesta es correcta evaluando solo la distribución de salida.
Existen modelos estadísticos para evaluar la incertidumbre de la salida de redes neuronales artificiales, pero no parecen realistas a escala de un LLM, y una estimación parcial que usa solo las últimas 1 o 2 capas recorta severamente la incertidumbre de toda la red.
Las alucinaciones que me encuentro también suelen ser casos muy plausibles y que parecen cercanos a la respuesta correcta, como cambiar nombres de variables o inventar claves de configuración, pero que en realidad están mal.
- Una respuesta con alta incertidumbre, por definición, tiene baja probabilidad, así que si se pregunta varias veces es más probable que aparezcan respuestas semánticamente distintas a que se repita la misma respuesta rara de que Taylor Swift es comediante.
  Si los datos de entrenamiento dicen que Taylor Swift es comediante, entonces eso no es un problema de alucinación.
- Creo que esto explica de forma mucho más técnica algo que yo intuía con mentalidad de informática sin matemáticas.
  Esto suena parecido a bajar la temperatura. No parece que extraiga mejor de una verdad fundamentada, sino que va hacia lo más probable en el espacio vectorial; me pregunto si esa interpretación es correcta.
- La observación es válida, pero en el ejemplo de Taylor Swift, si el modelo está bien fundamentado, parece poco probable que genere varias veces seguidas una respuesta como “comediante” si no está en los datos de entrenamiento.
  En el ejemplo de Tom Cruise, todas las respuestas son verdaderas y están respaldadas por los datos de entrenamiento, así que esta técnica podría marcarlas erróneamente como positivo de alucinación.
  Dicho eso, los ejemplos del paper son preguntas de respuesta única, como “¿Sobre qué receptor actúa este fármaco específico?” o “¿Dónde está la Torre Eiffel?”, así que parece que podría ayudar en ese tipo de aplicaciones.
- Dicho de otra forma: “si tomas muestras y evalúas la similitud entre ellas, puedes saber qué tan dispersa está la distribución, pero no si esa distribución es correcta”.
  Puedes tomar muestras de una distribución gaussiana y decir cuál es la desviación estándar, pero no puedes saber si esa distribución es exacta.
  Puede existir una distribución muy exacta de una variable con alta entropía y, a la inversa, una distribución densa con baja desviación estándar puede simplemente estar equivocada. Si no se sabe de antemano cómo debería verse la salida, no se puede saber solo con muestreo.
- El método del paper no consiste en “tomar varias muestras y evaluar solo la entropía o la discrepancia”.
  Toma varias respuestas como muestras, las agrupa por similitud semántica y luego suma y normaliza las probabilidades de las respuestas agrupadas.
  Por ejemplo, agrupa “music:0.8, musician:0.9, concert:0.7, actress:0.5, superbowl:0.6” como [music, musician, concert] → MUSIC, [actress] → ACTING, [superbowl] → SPORTS, y calcula algo como MUSIC:0.686, SPORTS:0.171, ACTING:0.143.
  El paper define con claridad lo que intenta evitar como confabulación (confabulation): afirmaciones fluidas, erróneas y arbitrarias que cambian de forma sensible ante detalles irrelevantes, como una semilla aleatoria.
  Los malentendidos comunes probablemente estén fuertemente presentes en el dataset, y este método se parece más a penalizar respuestas que están semánticamente aisladas de otras posibles respuestas y cuya verosimilitud también es ambigua.
  El paper solo compara la eficacia de la detección y no presenta un método de muestreo mejorado que aproveche esa detección. Si se incorpora a la técnica de generación, también aparece el costo grande de tener que generar con el modelo unas 10 veces más.
  Código: https://github.com/jlko/semantic_uncertainty
La arquitectura actual de los LLM se concentra principalmente en la recuperación, y los pesos entrenados solo convergen para predecir bien el siguiente token.
Creo que la capacidad de poner esos datos dentro de un sistema lógico también debió haber sido un objetivo de entrenamiento.
Si a la predicción del siguiente token se le suma una verificación formal del conocimiento en la etapa de entrenamiento, el LLM podría mantener la coherencia de la generación de conocimiento y llegar a ver alucinaciones correctas, es decir, algo más cercano a la imaginación.
El proceso podría consistir en convertir los datos de entrenamiento existentes en relaciones de lógica formal usando modelos grandes existentes, hacer que generen varias soluciones y luego entrenar un nuevo LLM con ese dataset reforzado para que emita no solo el siguiente token, sino también la relación formal entre el conocimiento existente y el nuevo texto generado.
La red podría optimizar sus pesos junto con la precisión de generación de tokens, de modo que el código formal generado obtenga una alta precisión en un verificador de pruebas.
Personalmente, siento que el lenguaje no es la base de la inteligencia, sino algo secundario; la base se parece más a una simulación onírica con objetos mutuamente coherentes, y el lenguaje se siente como una herramienta para describir eso.
- Esta propuesta vuelve al debate clásico entre el enfoque formal de arriba hacia abajo y el enfoque informal de abajo hacia arriba al crear sistemas de gestión de conocimiento semántico.
  El enfoque de arriba hacia abajo se intentó mucho antes del big data y antes de los modelos probabilísticos, pero requería una enorme curaduría manual y además carecía de conocimiento suficiente.
  La aparición del big data no resolvió el problema de la curaduría y, como no se puede automatizar la curaduría, cuanto mayor es la escala, peor se vuelve.
  Cuando la IA giró hacia lo probabilístico alrededor de los años 90, se hicieron posibles los modelos probabilísticos asociativos de hoy, y no se ve esperanza de que enfoques más curados y más formales los superen.
  Sea como sea que se agregue a los LLM el razonamiento, la causalidad y otros aspectos del pensamiento de tipo 2, la implementación debe seguir siendo probabilística, informal y de abajo hacia arriba.
  Ya quedó demostrado que curar manualmente relaciones lógicas y semánticas en un modelo de conocimiento no alcanza para la escala necesaria ni para responder a la fragilidad.
- La lógica también tiene muchos problemas propios.
  Basta con ver “Godel, Escher, Bach” o pensar por qué OWL, aun habiendo existido durante 20 años, casi no tuvo participación de mercado.
  Está en el mismo contexto la razón por la que la gente probó todo tipo de respuestas distintas de RETE para gestionar código asíncrono, por qué el “procesamiento de eventos complejos” quedó como un campo especializado y no como competidor de ejecutores de tareas como Celery, y por qué Drools no logra producir mensajes de error comprensibles.
- El problema aparece con cosas nuevas que el modelo no ha visto y con preguntas para las que ni los humanos saben la respuesta.
  Todo el problema de las alucinaciones se siente simplemente como el problema de la detención con unos pasos adicionales. Quizás habría que preguntarle a ChatGPT si P=NP.
- Para una primera etapa, CYC podría ser una solución válida.
  Según mi experiencia, se le puede llamar un esquema de relaciones significativo para un DAG. También existe una versión open source, pero la empresa ya no la mantiene directamente.
  https://cyc.com
  https://github.com/asanchez75/opencyc
- ¿Verificación formal del conocimiento o de relaciones lógicas? ¿Cómo vas a verificar formalmente una novela de ciencia ficción o un poema?
  ¿Qué vas a hacer con las paradojas que existen en la naturaleza, o con teorías que se contradicen entre sí pero que son lógicamente correctas por separado?
  Es fácil decirlo, pero en la práctica es como proponer que “funcionará si resolvemos un problema NP-hard que no sabemos resolver”.
Se podría llamar a esto alucinación, pero otra forma de decirlo es que estos sistemas son ortogonales a la verdad.
Significa que no tienen nada que ver con lo verdadero o lo falso.
Esta idea también está expresada en este artículo: https://link.springer.com/article/10.1007/s10676-024-09775-5
- Es parecido a preguntar si una distribución de probabilidad es veraz o mentirosa.
  Hablar como si un algoritmo tuviera rasgos personales es un error de categoría.
- El artículo enlazado trata de detectar si un LLM elige al azar a nivel de hechos o si elige de manera coherente.
  La aleatoriedad generada procedimentalmente puede ser excelente para cosas como el brainstorming, y la coherencia es una señal de que repite algo que también aparecía de forma relativamente consistente en el material de entrenamiento.
  Así que puede ser verdadero o falso, pero es más probable que lo haya tomado de alguna parte.
  Saber qué tan aleatoria es la información parece un pequeño avance.
- Los LLM se entrenan con el objetivo de “responder al menos tres párrafos pase lo que pase”, y esa respuesta siempre se prefiere antes que quedarse callado o dar una respuesta poco amable como “¿de qué estás hablando?”.
  Entonces, en la práctica, se les enseña a decir tonterías plausibles.
  Es parecido a una clase de improvisación donde te enseñan a mantener interesante la conversación y a no decirle “no” al otro actor.
- Sospecho que la realidad compartida se doblará para ajustarse a los LLM, y no al revés.
  Lo que diga la computadora puede convertirse en la “verdad”.
- Estos LLM parecen más cercanos al inconsciente que a la conciencia.
  Jung probablemente lo habría llamado “antinomia”. El objetivo no es representar la verdad, sino la totalidad de respuestas posibles.
¿Acaso todo lo que hace un LLM no es, al final, “alucinar”?
Para saber si alucinó, ya hay que conocer la respuesta correcta. Si puedes crear un sistema que sepa si la respuesta es correcta, ya no necesitas un LLM.
- La alucinación originalmente sugiere una falla de una mente íntegra.
  Lo que hacen actualmente los LLM sería más correcto llamarlo decir disparates. A medida que esos disparates mejoran, simplemente aumenta poco a poco la proporción de aciertos casuales.
- En cada hilo sobre este tema siempre tiene que aparecer alguien a poner peros con “alucinación”, un término ya establecido que se entiende perfectamente. Cada vez cansa más.
- Los humanos también lo inventamos todo.
  A veces es coherente sobre la base de dinámicas físicas y sociales, y a veces no.
  Como claramente es imposible un sistema que siempre tenga la razón, necesitamos un sistema que busque la coherencia.
- Si hubieras leído el texto, habrías sabido que el proceso de generar respuestas con un LLM es una parte importante del proceso de verificación de hechos.
Por ahora, quizá a las empresas de IA les convenga presentar los chatbots solo como herramientas de generación de texto con algo de dirección.
Así la gente puede usarlos de acuerdo con eso.
Hay cosas que parecen un poco de comprensión, y también se los puede hacer imitar un poco el razonamiento paso a paso, pero el 95% de la función de esta caja negra es generación de texto.
En realidad no es generación de hechos ni generación de conocimiento; se parece más a un compañero de improvisación que a una enciclopedia, y la gente de la industria tecnológica lo sabe.
No sé si realmente hace falta una solución ingeniosa de entropía de respuestas para el problema de que los LLM engañen a la gente. Esa solución es interesante y parece que sí aportaría una mejora real, como asignar puntajes de confianza a las afirmaciones.
Pero quizá simplemente no comercializar generadores de texto de machine learning como si fueran casi AGI reduciría la mayor parte del daño y sería más útil.
- Ahora estoy trabajando con un LLM mientras construyo un frontend con React y Redux, tecnologías que casi no conozco.
  Le hacía preguntas y el LLM me daba respuestas y código JavaScript; también tenía JavaScript bastante oxidado.
  Todo el código compiló y en su mayoría funcionó como esperaba. Hubo errores, pero el LLM me explicó los errores que no entendía y me dio código corregido que funcionaba.
  En general fue una gran experiencia, como trabajar con un mentor, y desde mi nivel de principiante me ahorró muchísimo tiempo. Por supuesto, hay que validar los resultados.
  ¿De dónde sale esa cifra del 95%? Y no importa si es generación de texto o generación de hechos/conocimiento. Es una herramienta realmente valiosa y está muy por encima de cualquier otra cosa que haya usado.
El método de “muestrear varias respuestas posibles para cada pregunta y agrupar algorítmicamente las respuestas con significados similares” es razonable para preguntas con una única respuesta objetiva de opción múltiple.
Puede no ayudar mucho cuando hay varias respuestas igualmente válidas.
Aun así, para aplicaciones de motores de búsqueda es suficientemente bueno.
El concepto de entropía semántica me recuerda que, después del caso Enron, un banco creó un “bullshitometer” para medir el nivel de palabrería vacía en comunicados de prensa.
No recuerdo el nombre del banco, pero dicen que, al aplicarlo a los comunicados de Enron, mostró que se podía predecir el colapso de la empresa.
En estadística existe el concepto de análisis de sensibilidad.
Este enfoque también parece algo parecido, pero una alternativa interesante podría ser modificar la entrada de una forma que se considere que preserva el significado y luego ver cómo cambia el significado de la salida.
Claro que cambiar la entrada sin cambiar el significado es la parte difícil, pero no parece completamente imposible.
Como mínimo, se le puede pedir a un LLM que cambie la entrada sin cambiar el significado. Aunque también podría ocurrir que el modelo la modifique en la dirección de su malentendido de la entrada, de modo que después de la modificación encaje mejor con la salida alucinada.
Entiendo que la entropía semántica, que parece requerir un LLM entrenado para detectar equivalencia semántica, pueda detectar mejor las alucinaciones.
Pero no veo claramente cómo la equivalencia semántica resuelve directamente el problema de las alucinaciones.
Por ahora sospecho que es más bien una heurística para detectarlas.
Además, necesitar un segundo LLM para detectar equivalencia semántica con el fin de atrapar estos casos parece innecesariamente complejo.
Si existiera un dataset de equivalencia semántica, creo que lo incorporaría directamente al proceso de entrenamiento del LLM principal, en vez de entrenar un segundo LLM.
- Todavía no entiendo esta investigación lo suficiente como para criticarla, pero sí se puede integrar un dataset de equivalencia semántica al entrenamiento.
  Aun así, si se intenta compensar las debilidades de un modelo complejo con objetivos perceptivos poco claros mezclando varias funciones claras, como “lograr un buen AUC en semántica”, sigue volviéndose raro.
  No sabes si las estás mezclando bien ni si estás introduciendo en el entrenamiento resultados, riesgos o sesgos difíciles de predecir.
  En una tarea definida de forma estrecha, como “¿puede determinar equivalencia semántica?”, se puede construir un buen modelo con menos riesgos desconocidos; y si ese modelo se aplica de una forma relativamente clara, también se reducen los riesgos desconocidos.
  Por lo tanto, abrir camino hacia una heurística específica y razonable con dos estimadores ligeramente sesgados puede ser mucho más seguro y general que mezclar datos en la compleja mezcla existente y esperar que su contribución sea predecible.
- Detectar alucinaciones es bastante útil en muchas aplicaciones.
  Estoy investigando cómo reducir el impacto de los errores factuales en respuestas de LLM para organismos públicos, donde dar una respuesta falsa podría ser ilegal.
  Si se puede detectar con suficiente precisión, el sistema puede rechazar la respuesta y pedirle al usuario que contacte a la institución.
  Por supuesto, sería mejor entrenar el modelo para que no dé respuestas incorrectas desde el principio.
  La complejidad innecesaria también aparece al usar LLM de caja negra comerciales preentrenados accesibles por API. Lamentablemente, en la mayoría de las aplicaciones los LLM se usan así.
  También se podría hacer fine-tuning por API, pero para datasets sintéticos de esta escala es engorroso, limitado y muy caro.
  Solo con el artículo me costó entender cómo se calcula concretamente la “entropía semántica”. Si les interesa, el código es mucho más fácil de entender: https://github.com/jlko/semantic_uncertainty/blob/master/sem...
Es una idea bastante astuta. Consiste en preguntar lo mismo varias veces y comprobar si el modelo responde de forma diferente.
La “comprobación” la hace otro modelo, y la “diferencia” se mide con entropía.

Detección de alucinaciones en modelos de lenguaje grandes mediante entropía semántica

Objetivo de detección: no todas las alucinaciones, sino la confabulation

Idea central de la entropía semántica

Algoritmo: muestreo, clustering semántico y cálculo de entropía

Evaluación en QA y problemas matemáticos

Exactitud basada en rechazo y métricas de evaluación

Generación de biografías largas: experimento FactualBio

Limitaciones y aplicabilidad

Datos y código

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News