El problema de la confiabilidad en los sistemas de IA
-
Esfuerzos para mejorar la utilidad y confiabilidad de los sistemas de IA
- OpenAI está trabajando para hacer que los sistemas de IA sean más útiles y confiables.
- A pesar de estos esfuerzos, uno de los problemas más difíciles de resolver, incluso cuando los modelos de lenguaje se vuelven más capaces, es el de las alucinaciones (hallucinations).
-
Definición de alucinación y por qué es un problema
- Una alucinación significa que una respuesta generada por el modelo con confianza no es verdadera.
- Este fenómeno es un problema importante que puede reducir la confiabilidad de los sistemas de IA.
-
Resultados de investigación y causas de las alucinaciones
- Un nuevo artículo de investigación sostiene que la razón por la que los modelos de lenguaje alucinan es que los procedimientos estándar de entrenamiento y evaluación recompensan las conjeturas en lugar de reconocer la incertidumbre.
- Esto aumenta la probabilidad de que los modelos de IA generen información incorrecta.
-
Las alucinaciones en ChatGPT y GPT-5
- ChatGPT también experimenta alucinaciones.
- GPT-5, en particular al razonar, ha reducido considerablemente las alucinaciones, pero estas todavía pueden ocurrir.
- Esto sugiere que se necesitan investigación y mejoras continuas para aumentar la confiabilidad de los sistemas de IA.
Definición de alucinación
- Una alucinación es una afirmación plausible pero incorrecta generada por un modelo de lenguaje.
- Estas alucinaciones pueden aparecer de formas inesperadas e incluso pueden ocurrir ante preguntas simples.
Ejemplo de alucinación
- Por ejemplo, cuando se le preguntó a un chatbot de uso generalizado por el título de la tesis doctoral de Adam Tauman Kalai, el chatbot presentó con confianza tres respuestas distintas.
- Sin embargo, todas las respuestas presentadas eran incorrectas.
Problemas con los métodos de evaluación
- Los métodos de evaluación actuales establecen incentivos equivocados.
- Aunque la evaluación en sí no provoca directamente las alucinaciones, la mayoría de las evaluaciones miden el rendimiento del modelo de una forma que fomenta las conjeturas y desalienta la honestidad respecto a la incertidumbre.
- Por ejemplo, si pensamos en un examen de opción múltiple, cuando no se sabe la respuesta, adivinar al azar puede llevar a acertar por suerte.
- Este enfoque crea un entorno en el que se pueden obtener mejores resultados mediante conjeturas aleatorias en lugar de una evaluación precisa.
Cómo se evalúa el rendimiento de los modelos
-
Concepto de evaluación del rendimiento del modelo
La evaluación del rendimiento de un modelo se basa en la exactitud de sus respuestas a una pregunta determinada. -
Tratamiento de la incertidumbre
Si el modelo no sabe la respuesta a una pregunta específica, responder "no lo sé" no garantiza una puntuación correcta. -
Posibilidad de adivinar
Por ejemplo, si el modelo adivina "10 de septiembre" al responder una pregunta sobre el cumpleaños de alguien, puede acertar con una probabilidad de 1/365. -
Diferencia en las puntuaciones de rendimiento
En miles de preguntas de prueba, un modelo que adivina puede verse mejor en la tabla de resultados que un modelo prudente que reconoce la incertidumbre.
Conclusión e implicaciones
-
Limitaciones de la evaluación del rendimiento de los modelos
Un modelo que adivina puede obtener una puntuación más alta, pero es importante tener en cuenta que eso no significa que realmente esté proporcionando información correcta. -
Importancia de la confiabilidad
Por lo tanto, al evaluar la confiabilidad y exactitud de un modelo, además de la puntuación simple, también debe considerarse la importancia de proporcionar información correcta.
Comparación entre exactitud y tasa de error del modelo
- Exactitud: el antiguo modelo OpenAI o4-mini muestra un rendimiento ligeramente mejor.
- Tasa de error: sin embargo, la tasa de error de este modelo (es decir, la tasa de alucinaciones) es considerablemente alta.
- Conjetura estratégica: adivinar estratégicamente cuando hay incertidumbre mejora la exactitud, pero aumenta los errores y las alucinaciones.
- Criterios de evaluación: al promediar decenas de resultados de evaluación, la mayoría de los benchmarks enfatizan las métricas de exactitud. Esto genera una falsa dicotomía entre correcto e incorrecto.
Un nuevo enfoque para la evaluación
-
Planteamiento del problema
Los métodos de evaluación existentes se enfocan solo en la exactitud. Esto puede actuar como un factor que reduce la confiabilidad de la evaluación. -
Propuesta de solución
Puede adoptarse un enfoque que imponga una penalización mayor a los errores cometidos con confianza y una penalización menor a la incertidumbre. Esto puede ser una forma de aumentar la equidad de la evaluación. -
Asignación de crédito parcial
Es importante otorgar puntaje parcial a las expresiones adecuadas de incertidumbre. Esto brinda a los estudiantes la oportunidad de expresar su razonamiento. -
Tendencias de investigación
Varios grupos de investigación están explorando métodos de evaluación que consideran la incertidumbre y la calibración. Este enfoque puede proponer nuevos criterios que vayan más allá de la exactitud.
Comprender la causa de las alucinaciones
- La alucinación es un fenómeno en el que aparece una inexactitud factual específica.
- La fuente de estas inexactitudes está en el proceso de aprendizaje de los modelos de lenguaje.
- Los modelos de lenguaje aprenden mediante pretraining al predecir la siguiente palabra a partir de grandes volúmenes de texto.
- A diferencia de los problemas tradicionales de aprendizaje automático, no hay una etiqueta de "verdadero/falso" adjunta a cada afirmación.
La persistencia del problema de las alucinaciones
- Hay varias razones por las que es difícil eliminar las alucinaciones.
- La forma en que aprenden los modelos de lenguaje desempeña un papel importante en la aparición de las alucinaciones.
- Como este método de aprendizaje no garantiza información correcta, pueden producirse alucinaciones.
- La especificidad y complejidad de las alucinaciones están estrechamente relacionadas con los datos de entrenamiento de los modelos de lenguaje.
La importancia de la perspectiva estadística
- Este artículo busca aclarar la naturaleza de las alucinaciones y refutar malentendidos comunes.
- También busca contribuir al análisis y comprensión del fenómeno de las alucinaciones mediante un enfoque estadístico.
- Las alucinaciones están estrechamente relacionadas con la exactitud de los modelos de inteligencia artificial.
La relación entre alucinaciones y exactitud
- Afirmación: existe la creencia de que si se mejora la exactitud, las alucinaciones desaparecerán.
- Se argumenta que un modelo con 100% de exactitud nunca alucinaría.
- Sin embargo, esto pasa por alto la verdadera naturaleza de las alucinaciones.
Los límites de la exactitud
- Hallazgo: la exactitud nunca puede llegar al 100%.
- Razones:
- Sin importar el tamaño del modelo
- Sin importar sus capacidades de búsqueda y razonamiento
- Algunas preguntas del mundo real son inherentemente imposibles de responder.
- Estas limitaciones sugieren que no será posible eliminar por completo las alucinaciones.
Direcciones para futuras investigaciones
- Las investigaciones futuras deben explorar enfoques alternativos para reducir las alucinaciones.
- Además de mejorar la exactitud de los modelos, se necesitan diversas metodologías para comprender las causas de las alucinaciones y abordarlas.
- Una comprensión más profunda del fenómeno de las alucinaciones contribuirá a aumentar la confiabilidad de la inteligencia artificial.
Aún no hay comentarios.