Detección de alucinaciones mediante entropía semántica en modelos de lenguaje grandes
Resumen
- Modelos de lenguaje grandes (LLM): los sistemas LLM como ChatGPT o Gemini muestran excelentes capacidades de razonamiento y respuesta a preguntas, pero a menudo presentan el problema de las “alucinaciones”, generando salidas incorrectas o respuestas sin fundamento.
- Problema de las alucinaciones: esto provoca diversos problemas, como la invención de precedentes legales, información falsa en artículos de noticias y riesgos en el ámbito médico.
- Límites de las soluciones existentes: inducir veracidad mediante supervisión o aprendizaje por refuerzo solo ha tenido éxito parcial.
- Nuevo método: se propone un estimador de incertidumbre basado en entropía y sustentado en estadística para detectar generaciones arbitrarias e incorrectas (confabulaciones). Este calcula la incertidumbre a nivel de significado, no según el orden específico de las palabras.
- Aplicabilidad: funciona sin importar el conjunto de datos ni la tarea, no requiere conocimiento previo de la tarea y generaliza con solidez a tareas nuevas.
Contenido principal
Importancia del problema de las alucinaciones
- Definición de alucinación: cuando un LLM genera contenido que no es fiel a la fuente proporcionada o que resulta ilógico.
- Ejemplo de confabulación: casos en los que genera aleatoriamente respuestas distintas para la misma pregunta.
- Problemas existentes: entrenamiento con datos incorrectos, mentiras para perseguir recompensas y fallos sistemáticos de razonamiento o generalización.
Detección de confabulaciones mediante entropía semántica
- Resumen del método: mide cuantitativamente cuándo es más probable que una entrada genere respuestas arbitrarias y sin fundamento.
- Entropía semántica: estima la incertidumbre calculando la entropía con base en el significado de las oraciones. Una entropía alta indica alta incertidumbre.
- Clustering: calcula la entropía agrupando respuestas con significados similares.
Evaluación y resultados
- Conjuntos de datos: se evaluó en diversos datasets como TriviaQA, SQuAD, BioASQ, NQ-Open y SVAMP.
- Modelos: se probó en varios modelos, entre ellos LLaMA 2 Chat, Falcon Instruct, Mistral Instruct y GPT-4.
- Rendimiento: la entropía semántica mostró un desempeño superior al de la entropía simple convencional y a los métodos de aprendizaje supervisado.
Rendimiento general
- AUROC: métrica que mide la capacidad del modelo para predecir errores; la entropía semántica obtuvo la puntuación más alta.
- AURAC: métrica que mide la precisión sobre las preguntas restantes al rechazar aquellas con alta probabilidad de provocar confabulaciones; la entropía semántica mostró el mejor rendimiento.
Opinión de GN⁺
- Utilidad práctica: la entropía semántica puede aplicarse a diversos datasets y tareas, por lo que tiene alta utilidad práctica. En especial, generaliza con fuerza incluso a tareas nuevas.
- Aporte técnico: supera las limitaciones de los enfoques existentes de cálculo de entropía simple y propone una nueva forma de medir la incertidumbre a nivel semántico.
- Potencial futuro: este método podría aplicarse más adelante para mejorar la confiabilidad de resúmenes abstractivos o de LLM conversacionales.
- Limitaciones: no resuelve casos en los que el sistema haya aprendido datos incorrectos de forma sistemática ni errores sistemáticos de razonamiento. Para eso se requieren enfoques aparte.
- Tecnologías competidoras: aunque la entropía semántica muestra un rendimiento superior frente a otros métodos de estimación de incertidumbre, en ciertas situaciones otros métodos podrían resultar más efectivos.
1 comentarios
Comentarios en Hacker News