7 puntos por GN⁺ 2025-10-23 | 1 comentarios | Compartir por WhatsApp
  • Un estudio internacional conjunto liderado por la Unión Europea de Radiodifusión (EBU) y la BBC reveló que 4 asistentes de IA principales (ChatGPT, Copilot, Gemini y Perplexity) muestran distorsiones o errores en el 45% de los casos al transmitir contenido periodístico
  • En el estudio participaron 22 medios públicos de 18 países, que evaluaron 14 idiomas y más de 3,000 respuestas, y se detectaron numerosos casos de fuentes omitidas o inexactas (31%) y errores factuales o alucinaciones (20%)
  • En particular, Gemini registró la tasa más alta de problemas, con 76%, y la causa principal se atribuyó a fallas al citar la fuente
  • Aunque hubo cierta mejora frente a una investigación previa de la BBC, todavía se confirmaron problemas sistemáticos y multinacionales
  • En medio de la tendencia de que los asistentes de IA sustituyan la búsqueda de noticias, se advierte el riesgo de una erosión de la confianza pública y de la participación democrática

Resumen del estudio

  • Presentado en la Asamblea de Noticias de la EBU (Nápoles), este estudio se describe como el mayor experimento multinacional realizado hasta ahora, y concluye que los asistentes de IA muestran distorsiones consistentes en noticias sin importar el idioma, el país o la plataforma
  • Instituciones participantes: BBC, ARD, ZDF, CBC, NPR y otros 22 medios públicos del mundo
  • Criterios de evaluación: precisión, identificación de la fuente, distinción entre hechos y opinión, aporte de contexto y otros indicadores clave de ética periodística

Resultados principales

  • Se encontraron problemas graves en el 45% de todas las respuestas
    • 31% correspondió a errores de fuente (omisiones, citas incorrectas o atribución errónea)
    • 20% correspondió a fallas de precisión (alucinaciones, información desactualizada o desinformación)
  • Gemini tuvo una tasa de problemas de 76%, aproximadamente el doble que otros modelos
  • Aunque algunos indicadores mejoraron respecto al estudio publicado por la BBC a inicios de este año, la tasa general de distorsión sigue siendo alta

Por qué importa esta distorsión

  • Los asistentes de IA ya se han consolidado para muchas personas como una puerta de entrada a las noticias que sustituye a los motores de búsqueda
  • Según el ‘Digital News Report 2025’ del Reuters Institute, 7% de quienes consumen noticias en línea (15% entre menores de 25 años) ya usan asistentes de IA como fuente de noticias
  • Jean Philip De Tender (director de medios de la EBU) advirtió que “los problemas de los asistentes de IA son un fenómeno sistemático que trasciende fronteras e idiomas, y esto amenaza la confianza pública
  • Peter Archer, de la BBC, subrayó que “el potencial de la IA es grande, pero la entrega de información confiable debe ser prioritaria, y se requiere una respuesta conjunta entre medios y empresas de IA

Respuesta y próximos pasos

  • El equipo de investigación publicó el News Integrity in AI Assistants Toolkit para ayudar a resolver estos problemas
    • Presenta criterios para una buena respuesta de IA y direcciones para resolver los problemas
    • Busca mejorar la calidad de las respuestas de IA y fortalecer la alfabetización mediática de las personas usuarias
  • La EBU instó a la UE y a las autoridades regulatorias nacionales a reforzar la aplicación de leyes relacionadas con la integridad de la información y los servicios digitales, y propuso un monitoreo independiente continuo de los asistentes de IA

Investigación adicional y encuesta de percepción

  • En un informe aparte, ‘Audience Use and Perceptions of AI Assistants for News’, la BBC indicó que,
    • Más de un tercio (personas adultas del Reino Unido) respondió que confía en los resúmenes de noticias generados por IA, y
    • cuando detecta errores, existe una tendencia a responsabilizar no solo a la IA, sino también a los medios
  • Esto muestra que los errores de los asistentes de IA también pueden afectar negativamente la confianza en las marcas periodísticas

Lista de medios participantes

  • Bélgica (RTBF, VRT), Canadá (CBC-Radio Canada), República Checa (Czech Radio), Finlandia (YLE), Francia (Radio France),
    Georgia (GPB), Alemania (ARD, ZDF, Deutsche Welle), Italia (Rai), Lituania (LRT),
    Países Bajos (NOS/NPO), Noruega (NRK), Portugal (RTP), España (RTVE), Suecia (SVT),
    Suiza (SRF), Ucrania (Suspilne), Reino Unido (BBC), Estados Unidos (NPR)

1 comentarios

 
GN⁺ 2025-10-23
Opinión de Hacker News
  • Si revisas el informe real, puedes ver cómo calcularon la cifra. La mayoría de los errores son de “atribución de fuentes”: el asistente de IA no cita de dónde sale una afirmación o, de forma bastante increíble, cita Wikipedia en vez de la BBC. Además, el informe no deja claro qué modelos usaron exactamente (aunque sí lo mencionan en el apéndice). Excluyeron a Anthropic, que en este tipo de tareas me parece de lo mejor, y se enfocaron solo en Perplexity y Copilot. También mezclan hallazgos de un informe reciente con los de un estudio de hace un año, perdiendo contexto y omitiendo que la situación ha cambiado bastante. Este artículo tiene varios problemas importantes

    • Los periodistas humanos también tergiversan como en un 85% lo que dicen los white papers. Viéndolo así, 45% no suena tan mal

    • También pienso que el problema de las citas podría deberse a que el robots.txt de la BBC bloquea a la mayoría de los crawlers y user agents de IA

    • Sí coincido en que los problemas para interpretar texto escrito por humanos son realmente grandes. Aunque este artículo no sea bueno, el problema que plantea sí existe y es serio. Los LLM a veces malinterpretan frases individuales o pierden el hilo de quién dijo qué, incluso en modelos recientes, incluido GPT-5. Esto pasa especialmente cuando les pides analizar discusiones escritas por personas. Probablemente se pueda resolver, pero desde luego todavía no está resuelto del todo

    • Quiero agregar algo sobre la crítica de que citan Wikipedia en vez de la BBC. En realidad, el problema más grave es que citan artículos de Wikipedia que ni siquiera existen. Por ejemplo, ChatGPT enlazó a un supuesto artículo llamado “European Union Enlargement Goals for 2040”, que en realidad no existía y tampoco era una política oficial de la UE. Inventó una URL inexistente, metas ficticias de la UE y hasta una política inventada

    • Creo que este artículo sí está cumpliendo su función. Su función es lanzar un titular que luego la gente va a citar. En uno o dos meses seguramente veremos este enlace o citas flojas tipo “el 95% de los proyectos de IA fracasan” apareciendo por todos lados. POSIWID (sigla de “the purpose of a system is what it does”, o sea, el propósito de un sistema es lo que realmente hace)

  • Me pregunto cuánta gente ha comparado de verdad resúmenes hechos por IA con el texto original. Yo lo he hecho varias veces y los resultados fueron realmente pésimos. Más que resumir, hacen una especie de “compresión aleatoria”, que no es lo mismo en absoluto. En casos graves, la conclusión principal termina siendo exactamente la contraria de la real. Por eso ya no confío nada en las funciones de resumen con IA

    • Si revisas directamente la función de resumen de llamadas de Gemini, casi siempre mete errores serios. Ayer mismo Gemini dejó registrado como decidido algo en lo que nunca estuvimos de acuerdo. Era el punto más importante y salió exactamente al revés. De verdad sería mejor no tenerlo

    • La expresión “compresión aleatoria” le queda perfecta. Yo siento que esto se nota muchísimo en los resúmenes de email o mensajes de texto. No captan para nada la idea central del mensaje y solo sacan frases al azar, que en el 99.9% de los casos no son lo importante. Por eso terminé ignorándolos por completo

    • Por lo que yo he visto, esto se nota sobre todo en modelos open source livianos o en modelos mini. Los modelos SOTA de primer nivel, como Sonnet-4.5, Opus-4.1 o GPT-5-Thinking, casi no tienen este problema. Pero cuestan demasiado, así que la mayoría de las empresas usan modelos baratos o TTC sin implementar por temas de costo o velocidad

    • Me pregunto si esto también pasa porque muchos titulares de noticias son clickbait. Si la IA resume solo mirando el titular, no sorprende que termine entendiendo mal más de la mitad del contenido original

    • A veces la IA simplemente se inventa cosas que no existen. He visto citas completamente fabricadas, con título del paper, autores y resultados, todo inventado sin base alguna

  • Le pedí a Gemini que recopilara noticias recientes y me las mostrara, y sin usar búsqueda se inventó todo: títulos, resúmenes y enlaces. No pasó una ni dos veces, sino varias. Desde entonces me da miedo usar Gemini para cualquier cosa que implique búsqueda web. Por ejemplo, me dio un supuesto titular sobre “investigadores de Google DeepMind y Harvard proponen una nueva forma de evaluar la ‘teoría de la mente’ en LLM”, con enlace incluido, pero el enlace no funcionaba y el título tampoco aparecía en búsquedas

    • Si ves diez respuestas de Gemini, más de siete están mal. A veces confunde nombres de productos o te da horarios de atención incorrectos. Por ejemplo, me dijo que un restaurante al que fui con mi esposa abría de lunes a viernes, pero en realidad solo abría de martes a sábado, así que fuimos en vano. A veces incluso inventa decenas de “hechos” totalmente absurdos. Mi esposa ahora verifica todo mucho más, y hasta el dueño del negocio bromea con cosas como “si Gemini dice X, entonces en realidad seguro es Y”

    • No he logrado reproducir exactamente ese comportamiento. Me gustaría saber qué prompt usaste. Si le pido las noticias principales del día, usa Google Search y sí me da enlaces reales

    • También me gustaría saber qué versión de Gemini usaste y si fue vía API o desde una webapp como Gemini o AI Studio. No todas las apps con LLM tienen activada la búsqueda web o de noticias, así que los resultados pueden variar por completo según los permisos de acceso. Eso sí, si la IA no tenía permisos para buscar en la web, debería decirlo claramente y no inventar enlaces falsos. Y si la búsqueda web sí estaba activada pero aun así no hizo bien la búsqueda, entonces ese ya es otro problema

    • En un caso así, ¿no sería mejor simplemente entrar a un sitio de noticias normal y leer los titulares directamente?

    • Aunque el enlace venga de una IA, igual hay que hacer clic y verificar uno mismo que realmente describa bien el contenido

  • Me pregunto si los evangelizadores de los LLM se dan cuenta de lo decepcionante que resulta para los usuarios que racionalicen de inmediato el mal desempeño de estas herramientas. Ya no se percibe como una limitación técnica, sino casi como una forma de “fe”. Como si pedir “capacidad real” fuera una exigencia excesiva

    • Sospecho que muchos de esos evangelizadores son, al final, fundadores de startups que solo muestran prototipos hechos con IA y se van a desinflar cuando pase la euforia, o desarrolladores que los siguen porque así se sienten listos cuando el líder lo hace. Me decepciona lo extendida que está en el sector tech esa cultura de “fíngelo hasta lograrlo”

    • Yo creo que ya vivimos en una sociedad de 'post-verdad', donde da igual si algo es cierto o no; lo único que importa es si decirlo aumenta tu poder o el de aquello que estás promoviendo

    • Cualquiera que haya invertido en esta estructura circular tipo Ponzi va a defender a ciegas los fracasos de los LLM. Intentan creer de verdad que una distribución de tokens sin sentido es una especie de 'cognición de máquina', o lo racionalizan diciendo que, aunque no sea perfecto, casi siempre sirve. Esa fantasía colectiva es la que sostiene valuaciones de billones de dólares

    • ¿De verdad esto es un problema exclusivo de los LLM? Yo diría que la sociedad en general hace mucho tiempo dejó de considerar importante la 'capacidad'. Se ve, por ejemplo, cuando se gradúa a estudiantes que no pueden leer a nivel de quinto grado, o cuando se tercerizan call centers en lugares donde el inglés es deficiente

    • Estoy parcialmente de acuerdo, pero siento que últimamente la discusión se desvía demasiado hacia criticar a los medios o hacia otros temas. También creo que este estudio en particular tiene partes bastante dudosas. No es un paper, sino un estudio por encargo de Ipsos, y no entiendo por qué el estándar es tan bajo. Como mínimo deberían indicar qué modelos usaron, el valor de search R@k, métricas de precisión de resumen como BLEU/ROUGE y métricas de evaluación humana. Si ni siquiera hay eso, entonces no veo que estos resultados sirvan para nada, ni dentro ni fuera de este campo

  • A partir de la página 10 del PDF vienen ejemplos concretos de errores: reporte oficial de la BBC
    Ejemplo: ChatGPT cita un artículo inexistente de Wikipedia llamado “European Union Enlargement Goals for 2040”. La UE no tiene ninguna política con ese nombre. No solo inventó la URL, también las metas y la política de la UE

    • En realidad sí hubo un registro de que ese artículo existió en algún momento y luego entró en proceso de borrado: registro de discusión de borrado. Que ni siquiera hayan verificado o aclarado eso me parece una omisión bastante grave. Hasta da para sospechar mala fe
  • Siempre hay que recordar que, si delegas a un LLM el resumen de reuniones, correos o comunicaciones, esa persona no va a recibir el mensaje real

    • Eso me da miedo. Ya no es solo delegar el pensamiento, sino arruinar voluntariamente la única herramienta que podría reemplazarlo. Me pasó algo parecido: pensé en pedirle a una IA que revisara el historial de edición de un documento, pero al final no tuve tiempo. Si lo hubiera hecho, seguramente me habría dado un historial muy convincente, pero en vez de mostrarme qué cambios ocurrieron realmente, me habría llevado a aceptar una versión distorsionada, o incluso inversa, de los hechos. No sería falta de conocimiento, sino lo contrario: anti-conocimiento

    • Si esto fuera cierto, sería una advertencia importante, pero mi experiencia real ha sido distinta. Yo tengo reuniones de ventas todos los días y reviso resúmenes de distintas herramientas de IA. Cuando comparo con lo que quedó guardado en el CRM, casi siempre fueron muy precisos. Yo mismo estuve presente para validarlo

    • Llevamos meses usando MS Copilot en reuniones y resume muy bien quién dijo qué y quién quedó encargado de qué. Ha sido muy útil y, en mi experiencia, bastante claro y preciso

  • Me parece que Kagi News es bastante preciso. Resume junto con la fuente original y los detalles principales. Los resúmenes con IA me ayudan a decidir si vale la pena leer el artículo completo o no. Aun así, los hechos importantes siempre los verifico por mi cuenta

    • Me pregunto hasta dónde se puede llevar la verificación de hechos. En teoría, para saber si un resumen es realmente correcto tendrías que ir tú mismo al lugar, reportear o leer los papers y referencias de cada área. Al final siempre hay un punto donde la confianza entra de forma inevitable

    • Yo trabajé en un proyecto parecido y tuve una experiencia similar: obtuvimos resultados bastante buenos resumiendo artículos RSS. Sobre todo cuando usábamos modelos más centrados en "reasoning"

    • Kagi News funciona metiendo varias noticias en el contexto y luego haciendo un resumen. Eso es distinto al caso original del post, que era “pedirle a un LLM que te dé noticias usando búsqueda web”

    • También existe este servicio: rawdiary.com

    • Coincido con Kagi News, pero Particle News también me pareció bueno. Eso sí, Particle News recibió inversión de The Atlantic y por eso a veces daba el lugar de "Featured Article" a artículos de ese medio. Aunque muestran gráficos para marcar sesgos, eso no se aplica a los Featured Article. Seguro pasa algo parecido con otros inversionistas, pero lo de Atlantic fue un caso relativamente reciente

  • El reporte dice explícitamente que solo usaron las versiones gratis/consumer de ChatGPT, Copilot, Perplexity y Gemini. Eso también implica que Copilot usa el modelo de ChatGPT y que otros como Grok ni siquiera fueron incluidos en las pruebas

  • Estoy usando DeepSeek V3 para análisis automatizado de noticias de cripto, y en mi reporte de precisión más reciente obtuve 98.5%. Por eso este resultado del artículo me sorprendió un poco
    Mi reporte de precisión

  • La mitad de las preguntas del artículo tratan temas políticamente sensibles. Es interesante, pero si de verdad quieren evaluar cómo rinde la IA con noticias generales menos cargadas, harían falta preguntas más amplias y representativas. Algunas de esas preguntas además parecen más adecuadas para un modo de investigación profunda que para respuestas rápidas. En la práctica, muchas noticias también están llenas de opiniones sobre cuál sería la respuesta correcta