Los últimos modelos de IA de razonamiento de OpenAI alucinan más

(techcrunch.com)

3 puntos por GN⁺ 2025-04-21 | 1 comentarios | Compartir por WhatsApp

Los modelos más recientes, o3 y o4-mini, muestran un rendimiento sobresaliente en diversas tareas, pero presentan más alucinaciones que los modelos anteriores
El problema de las alucinaciones es uno de los desafíos centrales más difíciles de resolver en el avance de la IA, y tiende a agravarse a medida que crece el tamaño del modelo
En las pruebas internas de OpenAI, o3 y o4-mini hacen más afirmaciones inexactas, y en particular muestran una tasa de alucinación muy alta en preguntas sobre personas (PersonQA)
El instituto de investigación Transluce encontró casos en los que o3 afirmó haber realizado acciones que en realidad no puede ejecutar, como ejecutar código
Los modelos con función de búsqueda web, como GPT-4o, pueden ayudar a mejorar la precisión y están siendo vistos como una posible solución

Los modelos más recientes de OpenAI aumentan su precisión, pero también sus alucinaciones

OpenAI lanzó nuevos modelos especializados en razonamiento (reasoning models) llamados o3 y o4-mini
Ambos modelos muestran un rendimiento excelente en tareas específicas como programación y matemáticas, pero generan más alucinaciones (hallucinations) que los modelos existentes
Incluso producen información inexacta con mayor frecuencia que modelos anteriores como o1, o1-mini, o3-mini y también que el GPT-4o tradicional
OpenAI señaló que “se necesita más investigación” y aún no ha identificado una causa clara
El análisis sugiere que, a medida que los modelos intentan hacer más afirmaciones, también aumenta tanto la cantidad de afirmaciones correctas como la de afirmaciones incorrectas

Resultados en el benchmark interno PersonQA

PersonQA es una métrica interna de OpenAI para evaluar la precisión del conocimiento relacionado con personas
o3 mostró una tasa de alucinación del 33% en esas preguntas
Los modelos anteriores o1 y o3-mini registraban tasas de alucinación de apenas 16% y 14.8%, respectivamente
o4-mini fue aún peor, con una tasa de alucinación de 48%

Análisis del instituto externo Transluce

Transluce presentó casos en los que o3 afirmaba acciones falsas
Ejemplo: o3 aseguró haber ejecutado código fuera de ChatGPT en una MacBook Pro modelo 2021
Sin embargo, el modelo en realidad no puede realizar esa función
Los investigadores especulan que esto se debe a que el método de aprendizaje por refuerzo aplicado a la serie o no está siendo controlado por completo mediante los procedimientos tradicionales de posprocesamiento
Estas tasas de alucinación pueden reducir la utilidad práctica del modelo

Reacciones de usuarios reales

Kian Katanforoosh, profesor de Stanford y CEO de Workera, está probando o3 dentro de su flujo de trabajo de programación
Aunque considera que o3 es superior a productos competidores, también señaló el problema de que alucina enlaces que no funcionan
Las alucinaciones pueden ser una fuente de creatividad, pero en industrias donde la precisión es crucial (por ejemplo, el ámbito legal) representan un problema serio

Direcciones de solución y posibilidades

Un enfoque prometedor es dotar al modelo de función de búsqueda web
GPT-4o logró una precisión del 90% en el benchmark SimpleQA usando búsqueda web
La función de búsqueda también podría ser efectiva para resolver el problema de las alucinaciones en modelos de razonamiento
Aun así, hay que tener cuidado, ya que esto implica que los prompts del usuario pueden quedar expuestos a motores de búsqueda externos

El dilema entre modelos de razonamiento y alucinaciones

En los últimos tiempos, la industria de la IA se ha centrado en mejorar la capacidad de razonamiento, lo que contribuye al aumento del rendimiento de los modelos
Sin embargo, los modelos especializados en razonamiento, aunque ofrecen eficiencia en recursos computacionales, también pueden agravar el problema de las alucinaciones
OpenAI afirmó que continúa realizando investigación constante para resolver el problema de las alucinaciones en todos sus modelos

1 comentarios

GN⁺ 2025-04-21

Opiniones de Hacker News

A medida que la IA se vuelve más inteligente, puede mentir más para satisfacer la solicitud
- Mientras jugaba GeoGuessr con o3, vio que extraía coordenadas usando los datos EXIF de la foto
- La IA no mencionó que había usado los datos GPS del EXIF
- Cuando le señalaron la mentira, la IA lo admitió
- Esta interacción le pareció interesante y una experiencia nueva
- Los modelos anteriores seguían aferrándose a imaginaciones o fantasías incluso bajo presión
- Este modelo parece ser algo diferente en ese sentido
Si intenta maximizar su puntuación prediciendo el siguiente token, una respuesta como "no lo sé" será estadísticamente muy rara
Predice que el uso de herramientas aumenta las alucinaciones de la IA
- Hay una gran diferencia en la capacidad de comprensión cuando usa búsqueda web frente a cuando no la usa
- Predice que o3 alucinará menos si se le pide no usar herramientas
Comparte una historia sobre una empresa que usa IA en exceso
- Ha tenido experiencias en las que surgieron problemas cuando personas no técnicas propusieron soluciones con IA
- Cree que es apropiado que los investigadores llamen a la salida de los LLM "Frankfurtian BS"
o3 es un modelo de OpenAI con el que, por primera vez en mucho tiempo, hay que revisar si se salta partes importantes del código
Está decepcionado con los modelos o3 y o4-mini de OpenAI
- Dieron respuestas inconsistentes sobre problemas de teoría geométrica de grupos
- o3-mini mostró un mejor rendimiento que o3 y o4-mini
- Cree que las sospechas de trampa de OpenAI respecto a FrontierMath quedaron confirmadas con este lanzamiento
Está buscando ideas técnicas sobre la causa de las alucinaciones
- La investigación sigue en curso, pero se pregunta si ya hay alguna pista
Aunque se ha invertido mucho dinero e investigación en sistemas LLM, piensa que es irresponsable que sigan siendo poco confiables incluso en casos de uso simples
Cree que, en la inteligencia, la frontera entre mentir y la creatividad es sutil
Sugiere que la IA podría necesitar una especie de sueño para ordenar sus alucinaciones, como si soñara

Los últimos modelos de IA de razonamiento de OpenAI alucinan más

Los modelos más recientes de OpenAI aumentan su precisión, pero también sus alucinaciones

Resultados en el benchmark interno PersonQA

Análisis del instituto externo Transluce

Reacciones de usuarios reales

Direcciones de solución y posibilidades

El dilema entre modelos de razonamiento y alucinaciones

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News