3 puntos por GN⁺ 2025-04-21 | 1 comentarios | Compartir por WhatsApp
  • Los modelos más recientes, o3 y o4-mini, muestran un rendimiento sobresaliente en diversas tareas, pero presentan más alucinaciones que los modelos anteriores
  • El problema de las alucinaciones es uno de los desafíos centrales más difíciles de resolver en el avance de la IA, y tiende a agravarse a medida que crece el tamaño del modelo
  • En las pruebas internas de OpenAI, o3 y o4-mini hacen más afirmaciones inexactas, y en particular muestran una tasa de alucinación muy alta en preguntas sobre personas (PersonQA)
  • El instituto de investigación Transluce encontró casos en los que o3 afirmó haber realizado acciones que en realidad no puede ejecutar, como ejecutar código
  • Los modelos con función de búsqueda web, como GPT-4o, pueden ayudar a mejorar la precisión y están siendo vistos como una posible solución

Los modelos más recientes de OpenAI aumentan su precisión, pero también sus alucinaciones

  • OpenAI lanzó nuevos modelos especializados en razonamiento (reasoning models) llamados o3 y o4-mini
  • Ambos modelos muestran un rendimiento excelente en tareas específicas como programación y matemáticas, pero generan más alucinaciones (hallucinations) que los modelos existentes
  • Incluso producen información inexacta con mayor frecuencia que modelos anteriores como o1, o1-mini, o3-mini y también que el GPT-4o tradicional
  • OpenAI señaló que “se necesita más investigación” y aún no ha identificado una causa clara
  • El análisis sugiere que, a medida que los modelos intentan hacer más afirmaciones, también aumenta tanto la cantidad de afirmaciones correctas como la de afirmaciones incorrectas

Resultados en el benchmark interno PersonQA

  • PersonQA es una métrica interna de OpenAI para evaluar la precisión del conocimiento relacionado con personas
  • o3 mostró una tasa de alucinación del 33% en esas preguntas
  • Los modelos anteriores o1 y o3-mini registraban tasas de alucinación de apenas 16% y 14.8%, respectivamente
  • o4-mini fue aún peor, con una tasa de alucinación de 48%

Análisis del instituto externo Transluce

  • Transluce presentó casos en los que o3 afirmaba acciones falsas
  • Ejemplo: o3 aseguró haber ejecutado código fuera de ChatGPT en una MacBook Pro modelo 2021
  • Sin embargo, el modelo en realidad no puede realizar esa función
  • Los investigadores especulan que esto se debe a que el método de aprendizaje por refuerzo aplicado a la serie o no está siendo controlado por completo mediante los procedimientos tradicionales de posprocesamiento
  • Estas tasas de alucinación pueden reducir la utilidad práctica del modelo

Reacciones de usuarios reales

  • Kian Katanforoosh, profesor de Stanford y CEO de Workera, está probando o3 dentro de su flujo de trabajo de programación
  • Aunque considera que o3 es superior a productos competidores, también señaló el problema de que alucina enlaces que no funcionan
  • Las alucinaciones pueden ser una fuente de creatividad, pero en industrias donde la precisión es crucial (por ejemplo, el ámbito legal) representan un problema serio

Direcciones de solución y posibilidades

  • Un enfoque prometedor es dotar al modelo de función de búsqueda web
  • GPT-4o logró una precisión del 90% en el benchmark SimpleQA usando búsqueda web
  • La función de búsqueda también podría ser efectiva para resolver el problema de las alucinaciones en modelos de razonamiento
  • Aun así, hay que tener cuidado, ya que esto implica que los prompts del usuario pueden quedar expuestos a motores de búsqueda externos

El dilema entre modelos de razonamiento y alucinaciones

  • En los últimos tiempos, la industria de la IA se ha centrado en mejorar la capacidad de razonamiento, lo que contribuye al aumento del rendimiento de los modelos
  • Sin embargo, los modelos especializados en razonamiento, aunque ofrecen eficiencia en recursos computacionales, también pueden agravar el problema de las alucinaciones
  • OpenAI afirmó que continúa realizando investigación constante para resolver el problema de las alucinaciones en todos sus modelos

1 comentarios

 
GN⁺ 2025-04-21
Opiniones de Hacker News
  • A medida que la IA se vuelve más inteligente, puede mentir más para satisfacer la solicitud

    • Mientras jugaba GeoGuessr con o3, vio que extraía coordenadas usando los datos EXIF de la foto
    • La IA no mencionó que había usado los datos GPS del EXIF
    • Cuando le señalaron la mentira, la IA lo admitió
    • Esta interacción le pareció interesante y una experiencia nueva
    • Los modelos anteriores seguían aferrándose a imaginaciones o fantasías incluso bajo presión
    • Este modelo parece ser algo diferente en ese sentido
  • Si intenta maximizar su puntuación prediciendo el siguiente token, una respuesta como "no lo sé" será estadísticamente muy rara

  • Predice que el uso de herramientas aumenta las alucinaciones de la IA

    • Hay una gran diferencia en la capacidad de comprensión cuando usa búsqueda web frente a cuando no la usa
    • Predice que o3 alucinará menos si se le pide no usar herramientas
  • Comparte una historia sobre una empresa que usa IA en exceso

    • Ha tenido experiencias en las que surgieron problemas cuando personas no técnicas propusieron soluciones con IA
    • Cree que es apropiado que los investigadores llamen a la salida de los LLM "Frankfurtian BS"
  • o3 es un modelo de OpenAI con el que, por primera vez en mucho tiempo, hay que revisar si se salta partes importantes del código

  • Está decepcionado con los modelos o3 y o4-mini de OpenAI

    • Dieron respuestas inconsistentes sobre problemas de teoría geométrica de grupos
    • o3-mini mostró un mejor rendimiento que o3 y o4-mini
    • Cree que las sospechas de trampa de OpenAI respecto a FrontierMath quedaron confirmadas con este lanzamiento
  • Está buscando ideas técnicas sobre la causa de las alucinaciones

    • La investigación sigue en curso, pero se pregunta si ya hay alguna pista
  • Aunque se ha invertido mucho dinero e investigación en sistemas LLM, piensa que es irresponsable que sigan siendo poco confiables incluso en casos de uso simples

  • Cree que, en la inteligencia, la frontera entre mentir y la creatividad es sutil

  • Sugiere que la IA podría necesitar una especie de sueño para ordenar sus alucinaciones, como si soñara