- Los modelos más recientes, o3 y o4-mini, muestran un rendimiento sobresaliente en diversas tareas, pero presentan más alucinaciones que los modelos anteriores
- El problema de las alucinaciones es uno de los desafíos centrales más difíciles de resolver en el avance de la IA, y tiende a agravarse a medida que crece el tamaño del modelo
- En las pruebas internas de OpenAI, o3 y o4-mini hacen más afirmaciones inexactas, y en particular muestran una tasa de alucinación muy alta en preguntas sobre personas (PersonQA)
- El instituto de investigación Transluce encontró casos en los que o3 afirmó haber realizado acciones que en realidad no puede ejecutar, como ejecutar código
- Los modelos con función de búsqueda web, como GPT-4o, pueden ayudar a mejorar la precisión y están siendo vistos como una posible solución
Los modelos más recientes de OpenAI aumentan su precisión, pero también sus alucinaciones
- OpenAI lanzó nuevos modelos especializados en razonamiento (reasoning models) llamados o3 y o4-mini
- Ambos modelos muestran un rendimiento excelente en tareas específicas como programación y matemáticas, pero generan más alucinaciones (hallucinations) que los modelos existentes
- Incluso producen información inexacta con mayor frecuencia que modelos anteriores como o1, o1-mini, o3-mini y también que el GPT-4o tradicional
- OpenAI señaló que “se necesita más investigación” y aún no ha identificado una causa clara
- El análisis sugiere que, a medida que los modelos intentan hacer más afirmaciones, también aumenta tanto la cantidad de afirmaciones correctas como la de afirmaciones incorrectas
Resultados en el benchmark interno PersonQA
- PersonQA es una métrica interna de OpenAI para evaluar la precisión del conocimiento relacionado con personas
- o3 mostró una tasa de alucinación del 33% en esas preguntas
- Los modelos anteriores o1 y o3-mini registraban tasas de alucinación de apenas 16% y 14.8%, respectivamente
- o4-mini fue aún peor, con una tasa de alucinación de 48%
Análisis del instituto externo Transluce
- Transluce presentó casos en los que o3 afirmaba acciones falsas
- Ejemplo: o3 aseguró haber ejecutado código fuera de ChatGPT en una MacBook Pro modelo 2021
- Sin embargo, el modelo en realidad no puede realizar esa función
- Los investigadores especulan que esto se debe a que el método de aprendizaje por refuerzo aplicado a la serie o no está siendo controlado por completo mediante los procedimientos tradicionales de posprocesamiento
- Estas tasas de alucinación pueden reducir la utilidad práctica del modelo
Reacciones de usuarios reales
- Kian Katanforoosh, profesor de Stanford y CEO de Workera, está probando o3 dentro de su flujo de trabajo de programación
- Aunque considera que o3 es superior a productos competidores, también señaló el problema de que alucina enlaces que no funcionan
- Las alucinaciones pueden ser una fuente de creatividad, pero en industrias donde la precisión es crucial (por ejemplo, el ámbito legal) representan un problema serio
Direcciones de solución y posibilidades
- Un enfoque prometedor es dotar al modelo de función de búsqueda web
- GPT-4o logró una precisión del 90% en el benchmark SimpleQA usando búsqueda web
- La función de búsqueda también podría ser efectiva para resolver el problema de las alucinaciones en modelos de razonamiento
- Aun así, hay que tener cuidado, ya que esto implica que los prompts del usuario pueden quedar expuestos a motores de búsqueda externos
El dilema entre modelos de razonamiento y alucinaciones
- En los últimos tiempos, la industria de la IA se ha centrado en mejorar la capacidad de razonamiento, lo que contribuye al aumento del rendimiento de los modelos
- Sin embargo, los modelos especializados en razonamiento, aunque ofrecen eficiencia en recursos computacionales, también pueden agravar el problema de las alucinaciones
- OpenAI afirmó que continúa realizando investigación constante para resolver el problema de las alucinaciones en todos sus modelos
1 comentarios
Opiniones de Hacker News
A medida que la IA se vuelve más inteligente, puede mentir más para satisfacer la solicitud
Si intenta maximizar su puntuación prediciendo el siguiente token, una respuesta como "no lo sé" será estadísticamente muy rara
Predice que el uso de herramientas aumenta las alucinaciones de la IA
Comparte una historia sobre una empresa que usa IA en exceso
o3 es un modelo de OpenAI con el que, por primera vez en mucho tiempo, hay que revisar si se salta partes importantes del código
Está decepcionado con los modelos o3 y o4-mini de OpenAI
Está buscando ideas técnicas sobre la causa de las alucinaciones
Aunque se ha invertido mucho dinero e investigación en sistemas LLM, piensa que es irresponsable que sigan siendo poco confiables incluso en casos de uso simples
Cree que, en la inteligencia, la frontera entre mentir y la creatividad es sutil
Sugiere que la IA podría necesitar una especie de sueño para ordenar sus alucinaciones, como si soñara