Las respuestas de la IA pueden incluir errores

(os2museum.com)

2 puntos por GN⁺ 2025-06-02 | 2 comentarios | Compartir por WhatsApp

Los resúmenes de búsqueda con IA no siempre son precisos
Se entregó información distinta sobre PS/2 Model 280 cada vez que se repitió la consulta
Se produjo el problema de alucinación de la IA, que explica de forma convincente incluso números de modelo inexistentes
La probabilidad de obtener una respuesta correcta es muy baja
Los no especialistas corren un alto riesgo de confundir información incorrecta con la verdad

Experiencia con problemas de confiabilidad en los resúmenes de búsqueda con IA

Intento de búsqueda de un modelo IBM PS/2

Se realizó una búsqueda en Google para encontrar un modelo específico del sistema PS/2 Server lanzado en 1992
La información mostrada en los resultados no coincidía con la máquina que se buscaba, y el modelo original tenía como características el uso de procesadores 486 (plural) y Microchannel (MCA)

Resultados repetidos e inconsistencias en las respuestas

Aun al volver a ejecutar la misma consulta, el resumen generado por IA aparecía diferente cada vez
Por ejemplo, se repetía una y otra vez la afirmación de que PS/2 Model 280 era un sistema ISA basado en 286
Incluso la información sobre capacidad y especificaciones de RAM cambiaba entre respuestas, lo que confirmó una presentación de datos inconsistente

Explicaciones alucinadas sobre un modelo inexistente

Tras varias consultas, también se generó información técnicamente imposible, como la afirmación de que un sistema 286 podía ampliarse hasta 128 MB
Incluso apareció la explicación de que PS/2 Model 280 había sido un avance importante en la línea de PCs de IBM
En realidad, el propio PS/2 Model 280 no existe, pero la IA ofrecía explicaciones sin fundamento de una manera muy convincente

Baja frecuencia de respuestas correctas

Solo después de varios intentos de consulta apareció de forma ocasional la respuesta correcta: “Model 280 no existe realmente dentro de la serie PS/2”
La proporción de respuestas precisas es muy baja y, en la mayoría de los casos, la IA inventa información sin fundamento
Las respuestas alucinadas no tienen valor como información y, por el contrario, transmiten una confianza equivocada

Precaución ante la confianza ciega en los resúmenes de búsqueda con IA

La búsqueda en internet basada en IA puede parecer muy convincente para los no especialistas
Un experto detectaría los errores de inmediato, pero para usuarios con poca capacidad de verificación de información es fácil dejarse engañar por datos falsos
La advertencia de que la IA “puede cometer errores” no es algo que deba tomarse a la ligera, y es riesgoso depender de sus respuestas sin un proceso confiable de verificación de hechos
Se enfatiza que sonar convincente no significa estar basado en hechos reales
Se recuerda la necesidad de mantener siempre escepticismo y verificación de hechos frente a resúmenes o resultados de búsqueda basados en IA

2 comentarios

ndrgrd 2025-06-03

Creo que lo mejor es usar el LLM solo para resumir. Es indispensable pasar por el proceso de encontrar y verificar la fuente de los datos.

GN⁺ 2025-06-02

Opinión de Hacker News

Se menciona la tendencia de Google Gemini a inventar respuestas al azar para que parezcan encajar con la pregunta en los resultados de búsqueda, señalando que no le importa el contexto ni la precisión; comparten la experiencia de que solo sirve como ayuda de memoria cuando ya esperas el resultado, pero que fuera de eso no se puede confiar en absoluto, que los resultados de Google Veo también están llenos de huecos, y que es obvio que los resultados de IA no tienen lógica ni razonamiento; además comparten ejemplos de resultados absurdos de Veo y un enlace a una noticia sobre un accidente causado por un comportamiento extraño de Tesla FSD
[Realismo de video con IA] (https://arstechnica.com/ai/2025/05/ai-video-just-took-a-star...)
[Noticia sobre accidente de Tesla FSD] (https://electrek.co/2025/05/23/tesla-full-self-driving-veers...)
- Se está formando un ambiente en el que resultados de esta calidad ya se aceptan como “normales” o “aceptables”, y preocupa muchísimo que casi nadie lo cuestione; antes esto habría sido absolutamente intolerable, así que se preguntan por qué ahora los resultados inexactos se aceptan cada vez más
- Comparten la experiencia de buscar en Google funciones relacionadas con autos: antes la búsqueda tradicional de Google resolvía muy bien este tipo de consultas, pero ahora el 90% de la página está inundado de resultados de IA que mezclan años, modelos y marcas incorrectos; lo único un poco útil fue un video de YouTube, y al fondo de la página estaba la respuesta correcta en un viejo foro de autos, así que agradecen a CamaroZ28.com
- Dicen que esta situación es más desconcertante que cualquier otra tecnología, y que no entienden cómo Google está apostando el rumbo de su negocio principal a una tecnología tan gravemente defectuosa; creen que promesas como las de Ben Evans de que “va a mejorar” son puro cuento; cuentan que al buscar un evento conmemorativo celebrado ayer en Alemania, AI Overview inventó que el recinto era la mejor obra de un músico italiano ya fallecido, y que al pegar esa respuesta en ChatGPT recibieron una respuesta amable pero filosa burlándose del error de AI Overview, lo que les pareció gracioso
- La IA da la impresión superficial de ser la cosa más inteligente de la historia, pero cuando uno intenta seguir su lógica o razonamiento interno no hay nada, y eso produce una especie de inquietante “uncanny valley”
- Sinceramente no entienden cómo usa la gente los LLM como reemplazo de la búsqueda; los chatbots siempre les dan datos adyacentes a la información que quieren (por ejemplo, si piden la fuente, les dan solo una cita), y se preguntan si serán ellos quienes están usando mal la búsqueda
Aunque entienden las limitaciones y la naturaleza probabilística de los LLM, se quejan de que su familia y amigos confían tanto en ellos que los usan para tareas inadecuadas, y luego los ven a ellos como si fueran los únicos escépticos de la IA; estas personas incluso le piden a la IA que divida cifras, como para una cuenta compartida, y tienden a confiar ciegamente en cualquier resultado del LLM
- Un ejemplo clásico de resolver un problema de baja tecnología con una tecnología de alta complejidad, y se burlan de delegar hasta los cálculos más simples a una máquina
- En usos cotidianos, muchas veces el resultado sale “más o menos” bien, y esa es la parte complicada: la gente termina dependiendo de ello por costumbre
- En realidad es bastante chistoso pedirle cálculos simples a un LLM; incluso bromean con que mejor le pidan que escriba Python para las variables
- Comparan el uso de LLM con fumar en interiores: algo que también termina afectando a quienes están alrededor
- Sobre el fenómeno de “hacer que la IA calcule y, si le pides que busque información, confiar 100% en el resultado”, hay quien opina que para usos mecánicos tan simples los chatbots actuales sí aciertan casi siempre; además, si pueden resolver varias funciones a la vez, ¿para qué cambiar entre apps según la situación? Al final, la usabilidad es el motor más fuerte
Señalan que un aviso simple como “las respuestas de IA pueden contener errores”, o la advertencia al pie de ChatGPT, ya es claramente insuficiente; aunque se llevan años advirtiendo sobre las alucinaciones de los LLM, la gente sigue equivocándose, así que sostienen que los proveedores deberían educar a los usuarios de forma mucho más agresiva sobre sus limitaciones, incluso si eso empeora la experiencia de uso
- En este debate, creen que lo único que realmente se puede hacer es responsabilizar a los proveedores del modelo o mantener el sistema actual de avisos limitados; los modelos de IA y los servicios en la nube ya tienen múltiples capas de filtros y censura, y cualquier fricción extra sería apenas algo menor, como agregar más ventanas emergentes; si se empieza a exigir responsabilidad directa a los proveedores, entonces el negocio de los modelos abiertos se vuelve inviable y solo quedarían acuerdos de licencia entre empresas, sin APIs públicas para el público general; como mucho imaginan que en el futuro el ambiente cambie y algunas restricciones se relajen un poco
- Frente a la idea de que “la educación del usuario debe hacerse de manera más efectiva”, alguien opina que al final esto solo se aprende por experiencia, que es uno de esos casos en los que hay que sufrirlo en carne propia; ningún aviso será tan efectivo como un daño real
- Como los LLM se justifican esencialmente como reemplazo del trabajo intelectual humano, existe la idea de que los proveedores no pueden enfatizar activamente sus limitaciones sin contradecir ese discurso, algo que choca con declaraciones repetidas, como las del CEO de Anthropic, sobre despidos masivos inevitables
- Mencionan que en el pasado Apple Maps y Google Maps enfrentaban crisis de relaciones públicas por dar indicaciones incorrectas, mientras que ahora parece bastar con pegar una advertencia y ya no pasa nada; expresan decepción por cuánta indulgencia reciben las nuevas tecnologías
- Insisten en que la advertencia debería aparecer en la parte superior de la página, en letras rojas y grandes
Explican que los modelos de lenguaje no fueron diseñados para “saber” cosas, sino para “hablar”; por eso se llaman “language models” y no “knowledge models”; lo único que hacen es encadenar probabilísticamente qué palabra viene después de otra palabra ya generada; si dan resultados distintos cada vez es porque internamente existe una distribución de probabilidades de la que se elige la siguiente palabra mediante un generador seudorrandómico; si se pone la temperatura (temperature) en 0, desaparece la aleatoriedad y siempre se elige la palabra más probable, aunque el resultado se vuelve muy aburrido; sobre IBM, PS/2, 80286, 80486 y demás, no es que “sepan” realmente algo, solo están secuenciando palabras
- Comparten la experiencia de que incluso con temperatura 0 los modelos locales funcionan bastante bien, y que el hecho de que las interfaces en la nube bloqueen ese valor se debe a que no quieren que el público vea bugs donde el modelo cae en bucles infinitos de repetición
- Aunque están de acuerdo en que un modelo de lenguaje no entrega “conocimiento” sino solo habla generada, desde la perspectiva de quien usa Google no se entra ahí para conversar, sino para obtener conocimiento real; consideran un error esencial que Google intente reemplazar la provisión de conocimiento confiable por simple “generación de palabras”, aunque tal vez en la práctica no les importe demasiado mientras el objetivo sea el ingreso publicitario
Critican que incluso en el sitio de búsqueda de Google la advertencia de que “las respuestas de IA pueden contener errores” esté escondida debajo del botón “Más”; cuentan que cuando salió OpenAI ChatGPT le explicaron a un profesor no técnico que la IA actual no es “IA de verdad”, sino más bien un truco computacional de salón; aun así, ese “truco” resulta sorprendentemente eficaz para copiar tareas, y en general da la impresión de ser una herramienta excelente para hacer trampa en muchas cosas si no te importan la calidad ni los derechos de autor
- Cuestionan la idea de que “solo parece que puede programar por fuera, pero en realidad no puede”; dicen que sí puede escribir código, y que tampoco nadie sabe realmente qué ocurre detrás en el cerebro humano, así que este debate esencialista no importa tanto y lo que cuenta son los resultados reales
- Lo ven desde una perspectiva práctica: como una herramienta de ayuda de memoria y recuperación de información con una interfaz flexible de entrada y salida
Gemini está optimizado para preguntas frecuentes del tipo que hace mucha gente, pero frente a intenciones de búsqueda más tradicionales tiende a dar respuestas inventadas y engañosas; dicen haber visto a muchas personas confiar en AI Overview como si fuera un oráculo, y que así es como el público general experimenta la IA; a diferencia de la confianza en las “noticias”, la IA la cree todo el mundo sin importar edad ni demografía; en el fondo, piensan que los humanos son una especie a la que le encantan las respuestas de computadora dadas con seguridad aunque no tengan fundamento
- Evalúan que el cambio en el entorno de búsqueda de Google es especialmente grave; recuerdan que antes, durante más de diez años, la interfaz de extractos en la parte superior citaba sitios confiables y ahorraba clics, siendo una fuente bastante fiable; en preguntas médicas, por ejemplo, se citaban fuentes como Mayo Clinic, que luego podían verificarse directamente en la página; con el tiempo, ese sistema de confianza fue deteriorándose por culpa del SEO, y el problema clave ahora es que fue reemplazado por AI Overview, un sistema esencialmente distinto, muy alejado de aquella época en que las fuentes válidas podían verificarse en tiempo real
- No solo quienes no usan LLM hacen esto: incluso managers que los usan de manera profesional reformulan la pregunta una y otra vez hasta obtener la respuesta que confirma lo que querían oír
- Mencionan esa psicología de fondo: a la gente, en realidad, siempre le han gustado las respuestas seguras aunque no tengan sustento
- Sienten que ya desapareció el internet donde uno podía buscar para aprender; ahora todo está lleno de basura de SEO en la que no se puede confiar, y temen que AI Overview lo empeore todavía más; les da miedo pensar que pronto bastará buscar “cómo funciona una impresora” para que alguien se crea una respuesta absurda como “un sistema de poleas y cuerdas”; reflexionan que han visto este tipo de disparates, a veces incluso peligrosos, una y otra vez
El mensaje “las respuestas de IA pueden contener errores” es, para ellos, lo más importante que habría que gritarle al público en cualquier debate sobre IA; creen que tanto este punto como el impacto energético y climático deberían ser el centro de toda discusión sobre ética y seguridad en IA, porque son las dos áreas que más daño pueden causar a la humanidad si la fiebre por la IA continúa
- El problema no es que “pueda haber errores”, sino que los errores son inevitables; pero la gente no lo percibe y termina venerando estos sistemas como si fueran oráculos universales, cuando en realidad no son más que modelos probabilísticos; hasta un mono, con suficientes intentos, podría llegar a escribir a Shakespeare
Critican que Google entendió completamente mal la esencia de la búsqueda, y que ahora prioriza resúmenes rápidos y enlaces patrocinados por encima de la exactitud de las respuestas
- En su experiencia, de 10 respuestas rápidas, 6 están sutilmente mal, 2 están descaradamente mal y 1 es directamente peligrosa; hay respuestas que podrían causar daño físico o problemas legales reales
- Consideran que la estrategia del Google de la era de Eric Schmidt, de que “es mejor dar alguna respuesta que ninguna”, evolucionó ahora a algo como “incluso una respuesta equivocada es mejor que no tener respuesta”
La IA se parece a una persona que siempre responde cualquier cosa con total seguridad y sin base alguna, así que casi no hay motivo para confiar seriamente en ella
- El factor psicológico es clave: las personas detectan por señales no verbales cuando alguien no está seguro, pero la IA no emite esas señales, y además existe una confianza muy arraigada en que una respuesta producida por una máquina debe ser correcta; muy poca gente se acerca a esto con actitud crítica
- Bromean con que todavía no existe ninguna empresa de IA con el valor de ponerle a su producto “Cliff Clavin”, tanto por el riesgo reputacional como por otras implicaciones del nombre
- Ante la postura de “de verdad no entiendo por qué la gente confía sinceramente en la IA”, alguien responde que si una empresa como Google, que durante décadas ha buscado organizar la información del mundo y dar respuestas correctas, ahora ofrece eso mediante IA, ¿no es natural que la gente confíe?
Cuentan una experiencia reciente con ChatGPT y código Python: querían excluir ciertas rutas URL de la clase logger de Gunicorn, así que le pidieron al chatbot que propusiera tres soluciones y comparara su velocidad; junto con el código de benchmark, recibieron la conclusión de que regex era lo más rápido, pero al ejecutarlo por su cuenta descubrieron que el enfoque con tuple era más de cinco veces más veloz; al informárselo, el chatbot corrigió de inmediato diciendo “gracias por avisar, el enfoque con tuple es el correcto”; aunque les ahorró tiempo al generar rápidamente el código de benchmark, la experiencia les hizo confiar mucho menos en los resultados del chatbot cuando no tienen certeza sobre la respuesta correcta