1 puntos por GN⁺ 2024-06-25 | 1 comentarios | Compartir por WhatsApp

Detección de alucinaciones mediante entropía semántica en modelos de lenguaje grandes

Resumen

  • Modelos de lenguaje grandes (LLM): los sistemas LLM como ChatGPT o Gemini muestran excelentes capacidades de razonamiento y respuesta a preguntas, pero a menudo presentan el problema de las “alucinaciones”, generando salidas incorrectas o respuestas sin fundamento.
  • Problema de las alucinaciones: esto provoca diversos problemas, como la invención de precedentes legales, información falsa en artículos de noticias y riesgos en el ámbito médico.
  • Límites de las soluciones existentes: inducir veracidad mediante supervisión o aprendizaje por refuerzo solo ha tenido éxito parcial.
  • Nuevo método: se propone un estimador de incertidumbre basado en entropía y sustentado en estadística para detectar generaciones arbitrarias e incorrectas (confabulaciones). Este calcula la incertidumbre a nivel de significado, no según el orden específico de las palabras.
  • Aplicabilidad: funciona sin importar el conjunto de datos ni la tarea, no requiere conocimiento previo de la tarea y generaliza con solidez a tareas nuevas.

Contenido principal

Importancia del problema de las alucinaciones

  • Definición de alucinación: cuando un LLM genera contenido que no es fiel a la fuente proporcionada o que resulta ilógico.
  • Ejemplo de confabulación: casos en los que genera aleatoriamente respuestas distintas para la misma pregunta.
  • Problemas existentes: entrenamiento con datos incorrectos, mentiras para perseguir recompensas y fallos sistemáticos de razonamiento o generalización.

Detección de confabulaciones mediante entropía semántica

  • Resumen del método: mide cuantitativamente cuándo es más probable que una entrada genere respuestas arbitrarias y sin fundamento.
  • Entropía semántica: estima la incertidumbre calculando la entropía con base en el significado de las oraciones. Una entropía alta indica alta incertidumbre.
  • Clustering: calcula la entropía agrupando respuestas con significados similares.

Evaluación y resultados

  • Conjuntos de datos: se evaluó en diversos datasets como TriviaQA, SQuAD, BioASQ, NQ-Open y SVAMP.
  • Modelos: se probó en varios modelos, entre ellos LLaMA 2 Chat, Falcon Instruct, Mistral Instruct y GPT-4.
  • Rendimiento: la entropía semántica mostró un desempeño superior al de la entropía simple convencional y a los métodos de aprendizaje supervisado.

Rendimiento general

  • AUROC: métrica que mide la capacidad del modelo para predecir errores; la entropía semántica obtuvo la puntuación más alta.
  • AURAC: métrica que mide la precisión sobre las preguntas restantes al rechazar aquellas con alta probabilidad de provocar confabulaciones; la entropía semántica mostró el mejor rendimiento.

Opinión de GN⁺

  1. Utilidad práctica: la entropía semántica puede aplicarse a diversos datasets y tareas, por lo que tiene alta utilidad práctica. En especial, generaliza con fuerza incluso a tareas nuevas.
  2. Aporte técnico: supera las limitaciones de los enfoques existentes de cálculo de entropía simple y propone una nueva forma de medir la incertidumbre a nivel semántico.
  3. Potencial futuro: este método podría aplicarse más adelante para mejorar la confiabilidad de resúmenes abstractivos o de LLM conversacionales.
  4. Limitaciones: no resuelve casos en los que el sistema haya aprendido datos incorrectos de forma sistemática ni errores sistemáticos de razonamiento. Para eso se requieren enfoques aparte.
  5. Tecnologías competidoras: aunque la entropía semántica muestra un rendimiento superior frente a otros métodos de estimación de incertidumbre, en ciertas situaciones otros métodos podrían resultar más efectivos.

1 comentarios

 
GN⁺ 2024-06-25
Comentarios en Hacker News
  • Problema matemático: El enfoque de evaluar la distribución de salida de los LLM tiene problemas matemáticos.
  • Ejemplo de similitud: Se explica la diferencia entre similitud y exactitud en el espacio de vectores de palabras con el ejemplo de Tom Cruise y Taylor Swift.
  • Características de la distribución: Hay una opinión de que no se puede evaluar la exactitud sin conocer las características de la distribución de salida.
  • Modelo estadístico: Existen modelos estadísticos para evaluar la incertidumbre de las ANN, pero podrían ser poco realistas a la escala de los LLM.
  • Problema de las alucinaciones: La mayoría de las alucinaciones parecen muy plausibles y convincentes, pero en realidad son información incorrecta.
  • Sistema lógico: Hay una opinión de que los LLM deberían entrenarse incorporando un sistema lógico.
  • Proceso de entrenamiento: Se deberían usar modelos existentes para generar relaciones lógicas y utilizarlas en el entrenamiento de nuevos LLM.
  • Papel del lenguaje: Hay una opinión de que el lenguaje no es la base de la inteligencia y que una simulación consistente es más importante.
  • Alucinaciones y verdad: Hay una opinión de que los LLM no guardan relación ni con la verdad ni con la falsedad.
  • Naturaleza de las alucinaciones: Para saber si un LLM está alucinando, ya habría que conocer de antemano la respuesta correcta.
  • Marketing de IA: Podría ser mejor comercializar la IA como una herramienta de generación de texto.
  • Análisis de sensibilidad: Podría ser interesante ver cómo cambia el significado de la salida al modificar la entrada.
  • Caso Enron: Se menciona un caso en el que, tras el escándalo de Enron, se podría haber hecho una predicción usando un "bullshitometer".
  • Medición cuantitativa: Se desarrolló un método para medir cuantitativamente la probabilidad de que una entrada genere una respuesta arbitraria.
  • Minimización de alucinaciones: Hay una opinión de que se deben tomar medidas en distintos niveles para minimizar las alucinaciones.
  • Grafo de conocimiento: Intentos de reducir las alucinaciones usando grafos de conocimiento y FAQ.
  • LLM dual: Usar un segundo LLM para detectar equivalencia semántica podría introducir una complejidad innecesaria.