OpenAI publica SimpleQA, un benchmark de verificación de hechos

(openai.com)

6 puntos por GN⁺ 2024-11-02 | Aún no hay comentarios. | Compartir por WhatsApp

SimpleQA es un nuevo benchmark para medir la factualidad de los modelos de lenguaje
Entrenar modelos de IA que generen respuestas basadas en hechos sigue siendo un problema no resuelto
Los modelos de lenguaje actuales a veces generan salidas falsas o respuestas no respaldadas por evidencia. A esto se le llama "hallucinations" (alucinaciones)
Los modelos de lenguaje más precisos y con menos alucinaciones pueden ser más confiables y aprovecharse en una mayor variedad de aplicaciones
A través del código abierto de SimpleQA, se busca medir la factualidad de los modelos de lenguaje

Características del benchmark SimpleQA

Como la factualidad es un tema difícil de medir, SimpleQA se enfoca en consultas breves orientadas a hechos
Objetivos de SimpleQA:
1. Alta precisión: dos entrenadores de IA independientes respaldan la respuesta correcta con fuentes proporcionadas y redactan preguntas para que las respuestas predichas puedan evaluarse fácilmente
2. Diversidad: cubre una amplia gama de temas, desde ciencia y tecnología hasta programas de TV y videojuegos
3. Es desafiante para los modelos más recientes: a diferencia de benchmarks anteriores como TriviaQA o NQ, SimpleQA fue diseñado para representar un reto mayor para los modelos modernos (por ejemplo, GPT-4 obtuvo menos de 40%)
4. UX amigable para investigadores: gracias a sus preguntas y respuestas concisas, SimpleQA es rápido y simple de ejecutar. La evaluación mediante la API de OpenAI u otras APIs de modelos modernos también es eficiente. Con 4,326 preguntas, se espera además una varianza relativamente baja como benchmark de evaluación

Entrenadores de IA navegan por la web para crear preguntas breves orientadas a hechos y sus respuestas correspondientes
Para incluirse en el dataset, cada pregunta debe cumplir criterios estrictos:
- Debe tener una única respuesta clara y obvia que sea fácil de evaluar
- La respuesta a la pregunta no debe cambiar con el tiempo
- La mayoría de las preguntas deben provocar alucinaciones en GPT-4 o GPT-3.5
Para mejorar aún más la calidad del dataset, un segundo entrenador de IA independiente responde cada pregunta sin ver la respuesta original
Solo se incluyen las preguntas en las que coinciden las respuestas de ambos entrenadores de IA

Para la validación final, se extrajeron aleatoriamente 1,000 preguntas del dataset y un tercer entrenador de IA las respondió
Las respuestas del tercer entrenador coincidieron en un 94.4% con las respuestas originalmente consensuadas. El 5.6% no coincidió
Al inspeccionar manualmente los casos de discrepancia:
- Del 5.6%, un 2.8% se debió a falsos negativos del evaluador o a errores humanos del tercer entrenador (por ejemplo, respuestas incompletas o malinterpretación de las fuentes)
- El 2.8% restante se debió a problemas reales de la propia pregunta (por ejemplo, preguntas ambiguas o respuestas contradictorias entre sitios web)
Con base en esto, se estima que la tasa de error intrínseca de este dataset es de alrededor del 3%

El siguiente gráfico circular muestra la diversidad temática del benchmark SimpleQA
Al pasar el cursor sobre cada sección del gráfico circular, se muestran ejemplos de cada pregunta

Para evaluar las preguntas, se utiliza un clasificador de ChatGPT que ve tanto la respuesta predicha por el modelo como la respuesta real
El clasificador evalúa la respuesta predicha como "correct", "incorrect" o "not attempted"
La siguiente tabla muestra la definición de cada categoría y ejemplos correspondientes
- "Correct": la respuesta predicha incluye por completo la respuesta real y no la contradice
- "Incorrect": la respuesta predicha contradice de algún modo la respuesta real (incluso si hay hedging)
- "Not attempted": el objetivo real no está completamente presentado en la respuesta y no contradice la respuesta real
Lo ideal es que el modelo responda tantas preguntas como sea posible (maximizando la cantidad de respuestas correct) y al mismo tiempo minimice la cantidad de respuestas incorrect

Usar un benchmark de factualidad como SimpleQA permite medir si el modelo "sabe lo que sabe"
A esto se le llama calibration (calibración), y puede medirse pidiéndole directamente al modelo que indique en porcentaje qué tan seguro está de su propia respuesta
Luego puede graficarse la correlación entre el nivel de confianza declarado por el modelo y su precisión real
Un modelo perfectamente calibrado tendría el mismo nivel de confianza declarado que su precisión real
La siguiente figura muestra estos resultados:
- La correlación positiva entre el nivel de confianza declarado y la precisión es una señal positiva de que el modelo tiene cierto grado de confianza bien orientada
- o1-preview está mejor calibrado que o1-mini, y gpt4 está mejor calibrado que gpt4-mini
- Sin embargo, que el desempeño quede muy por debajo de la línea y=x significa que los modelos sobreestiman de forma consistente su propio nivel de confianza
- Por lo tanto, todavía hay mucho margen para mejorar la calibración de los modelos de lenguaje grandes en términos de la confianza que declaran

SimpleQA es un benchmark simple pero desafiante para evaluar la factualidad de los modelos más recientes
La principal limitación de SimpleQA es su alcance. Solo mide la factualidad en una situación limitada: consultas breves orientadas a hechos con una única respuesta precisa y verificable
Sigue siendo una cuestión abierta que requiere más investigación si la capacidad de dar respuestas breves basadas en hechos se correlaciona con la capacidad de redactar respuestas largas llenas de numerosos hechos
Se espera que el código abierto de SimpleQA impulse una investigación en IA más confiable y estable, y que los investigadores evalúen la factualidad de los modelos de lenguaje con SimpleQA y aporten retroalimentación

SimpleQA es un benchmark interesante y necesario para medir la factualidad de los modelos de lenguaje con preguntas breves basadas en hechos. Al final, para aumentar la confiabilidad de la IA, es necesario mejorar su capacidad de generar respuestas fundamentadas en hechos
Sin embargo, como SimpleQA solo mide la factualidad en situaciones limitadas, no puede reflejar por completo la factualidad de los modelos de lenguaje en escenarios reales de uso. Parece necesario evaluar la factualidad en situaciones más diversas mediante investigaciones futuras
Además, como la precisión del propio dataset de SimpleQA es de alrededor de 97%, parece difícil que el rendimiento de los modelos de lenguaje supere ese nivel. También será necesario seguir mejorando la calidad del propio dataset
Otros benchmarks con un propósito similar a SimpleQA incluyen TruthfulQA y HonestQA. Un análisis comparativo con ellos permitiría entender con mayor claridad las fortalezas y debilidades de SimpleQA
Para mejorar la factualidad de los modelos de lenguaje, no solo es importante el preentrenamiento con grandes volúmenes de datos de alta calidad, sino también contar con la capacidad de usar conocimiento externo o autocorregirse durante la inferencia. Se espera que haya una investigación activa en esta línea