Se detectaron más de 50 casos de alucinación en los artículos enviados a ICLR 2026

(gptzero.me)

3 puntos por GN⁺ 2025-12-08 | 4 comentarios | Compartir por WhatsApp

GPTZero detectó más de 50 casos de errores de citación y metadatos de autores falsos en los artículos enviados a ICLR 2026
Cada paper fue verificado junto con su enlace de OpenReview, confirmando la existencia real y la coincidencia de las citas
En múltiples casos se confirmó que había autores inexistentes, año incorrecto o un título de paper diferente
En algunos trabajos, el documento coincide parcialmente con un paper real, pero los metadatos detallados están distorsionados
Es una muestra de que el problema de alucinación (hallucination) de IA también se está difundiendo en los envíos académicos

Resultados de detección de alucinaciones de GPTZero en ICLR 2026

GPTZero realizó una verificación automática de citas y de la información de autores en los artículos enviados a ICLR 2026
- Cada paper se presenta con un enlace de OpenReview, un enlace de verificación de GPTZero y la información de citación correspondiente
- Como resultado de la verificación, se encontraron más de 50 casos de citas falsas o autores inexistentes

Casos de alucinación representativos

El paper TamperTok sí existe, pero toda la información de autores es incorrecta
El paper MixtureVitae coincide en los primeros 3 autores, pero los otros 7 no existen
OrtSAE, Principled Policy Optimization y IMPQ presentan desajustes en el título o los autores respecto a los papers reales
PDMBench tiene un paper similar existente, pero el año y el título son diferentes
C3-OWD, GRF-LLM y otros fueron clasificados como coincidencia parcial

Casos de discrepancia total

Catch-Only-One, TopoMHC, ThinkGeo, Reflexion, LOSI y otros citan papers que no existen
SAFE-LLM, Typed Chain-of-Thought, MANTA y otros tienen papers similares, pero con metadatos inconsistentes
AI-Assisted Medical Triage Assistant, QUART, KARMA y otros citan papers totalmente no relacionados

Método de verificación y tipos de resultado

GPTZero comparó cada cita con bases de datos reales (por ejemplo, arXiv, NeurIPS, ICLR, ACL, entre otras)
- Los resultados se clasifican como “existe”, “coincidencia parcial”, “no coincide” o “autor inexistente”
- Algunos elementos se marcaron como “paper real existente, pero autor, año y título diferentes”

Significado y señales de alerta

Una gran parte de las presentaciones de ICLR 2026 incluye alucinaciones de texto generado por IA sin corregir
En el proceso de redacción de papers académicos, aumenta la necesidad de herramientas de verificación automatizada de hechos
Los hallazgos de GPTZero muestran la necesidad de fortalecer los sistemas para validar la confiabilidad del contenido generado por IA

4 comentarios

dbs0829 2025-12-08

Desde hace tiempo he pensado que los LLM podrían incluso obstaculizar el progreso de la humanidad, y en ese contexto está saliendo a la luz justo el problema que yo imaginaba. Reducir la carga cognitiva parece ser algo casi adictivo para las personas. Yo también hago investigación, y dentro del equipo estamos atentos porque sentimos que, mientras más usamos modelos LLM, más se nos forma el hábito de no pensar. Probablemente este problema seguirá profundizándose. Como el volumen se está volviendo demasiado grande para que la revisión por pares pueda cubrirlo, habrá que encontrar otros métodos. Últimamente parece que el número de envíos a conferencias famosas ha aumentado mucho, y sospecho que podría deberse a una razón similar.

shakespeares 2025-12-09

Estoy de acuerdo. Si esto sigue así, siento que el cerebro humano va a seguir encogiéndose.
Al final, el escenario en el que la inteligencia artificial llegue a dominar a la humanidad quizá termine siendo el pensamiento más sofisticado que podemos concebir ahora mismo. De aquí en adelante, incluso podría haber solo un tramo de convergencia en el que, sin ninguna nueva transformación al nivel de llegar siquiera a esa idea, simplemente quedemos bajo el control de la IA.

shakespeares 2025-12-09

¿Hay mucho más por avanzar con una IA que repite y repite teniendo un nivel de conocimiento parecido?
Si no es así, parece que el mundo solo terminará cubierto de textos clonados de los mismos humanos clonados, y dentro de eso será cada vez más difícil separar lo valioso de lo que no lo es.

GN⁺ 2025-12-08

Opinión de Hacker News

Creo que este tipo de conducta es claramente antiética a nivel profesional
Si alguien de mi equipo de investigación hiciera esto, se arriesgaría a que lo despidieran
Como revisor, si veo que el autor está mintiendo, ya no puedo confiar en todo el artículo, y éticamente creo que corresponde rechazarlo de inmediato
Los errores son comunes, pero esto es de otro nivel
- Esto también parece ser un tema de diferencias culturales
  En Occidente se suele ver que la integridad individual sostiene la confianza de toda la academia, mientras que en Medio Oriente, India y China existe más la tendencia a trasladar este tipo de conductas a la responsabilidad de la revista
  Si no se entienden estas diferencias, colaborar se vuelve muy confuso
En mi experiencia, el principal problema que baja la calidad de los artículos son las citas incorrectas
Es mucho más común que la fuente citada en realidad no diga eso o distorsione el contexto, que simplemente no exista la cita
Encontrar estos errores toma muchísimo tiempo porque hay que leer y entender el texto original
Como esto no es un simple descuido sino que provoca una erosión del conocimiento, hacen falta sanciones como “tres advertencias y expulsión”
- De hecho, esta verificación podría ser un área en la que los LLM sí sean buenos
  Por ejemplo, comparando las afirmaciones dentro del artículo con la lista de referencias para comprobar automáticamente si realmente las respaldan
- Pero algunos investigadores distorsionan los resultados a propósito para complacer a quienes financian el trabajo (Exxon, Meta, Pfizer, etc.)
  En esos casos no es simple negligencia, sino manipulación por conflicto de interés
- Las citas falsas son solo la punta del iceberg, y el abuso de citas es un problema mucho más antiguo y grave
Más que la IA, creo que el problema es la flojera y el descuido
Si un científico escribe un artículo con LLM incluyendo citas falsas, entonces es un mal científico
Si no hay sanciones sociales para este tipo de conducta, al final se termina tolerando
- Yo soy electricista industrial, y un mal trabajo eléctrico solo lo puede detectar un experto
  La verificación técnica requiere un inspector capacitado
- Pero decir que “la IA no es el problema” suena como la lógica evasiva de los debates sobre armas de “el problema no es el arma sino la persona”
  Al final, creo que la IA sí es el problema
- Siguiendo la analogía de la carpintería, un estante hecho por un LLM puede verse bien por fuera, pero estructuralmente es deficiente
  Justamente por verse bien, termina ocultando mejor el problema
- Yo también busco artículos con Gemini Pro, pero las citas siguen siendo un desastre
  Aun así, en el último año las alucinaciones han bajado, y si se limita a artículos verificados puede ser bastante útil
  Pero si queremos que los investigadores no dependan de estas herramientas, primero hay que cambiar la estructura de competencia constante por financiamiento
- Como dice Bruce Schneier, cualquiera puede crear un algoritmo que no sea capaz de verificar por sí mismo
  Con los LLM pasa igual: devuelven exactamente la respuesta que el usuario quería y refuerzan el sesgo de confirmación
  No creo que exista una forma segura de usar LLM en la investigación científica
Si uno lee directamente los artículos, muchas veces no es solo que la IA haya escrito el texto, sino que la idea misma fue generada por IA
En la superficie suena plausible, pero el contenido es absurdo
Si un investigador real terminó en esa lista solo por un simple error en el archivo .bib, sería una lástima
Avi Loeb (físico teórico de Harvard) mencionó que han aumentado de forma abrupta los casos de estudiantes que citan artículos que no existen
Creen sin más en ficciones inventadas por los LLM y ni siquiera las verifican
Artículo relacionado: How AI is making us dumber
- Aunque Loeb también es conocido por sus afirmaciones sobre OVNIs, así que hay controversia sobre su credibilidad
- Algunas personas lo consideran poco confiable
- Creo que este fenómeno surge de una cultura de evasión de responsabilidades en el liderazgo
  Dar un mal ejemplo desde arriba y luego reprender a los de abajo es una mala forma de educar
Me pregunto si este estudio consideró todas las citas incorrectas como alucinaciones de LLM
Hace falta un análisis de línea base para saber si este tipo de errores ya existía en artículos previos a los LLM
- El artículo tiene una sección llamada ‘Defining Hallucitations’, donde explica la definición de citas falsas y el problema de los falsos positivos
  Me gustaría ver qué resultados saldrían si aplicaran la misma herramienta a artículos de la década de 2010
- Yo también tenía pequeños errores en mi archivo .bib cuando estaba en posgrado
  Como la mayoría de las revistas validan las citas en base al DOI, habría que hacer un análisis comparativo también con artículos antiguos
- Si uno mira los artículos publicados de forma abierta, los rastros de generación por IA son bastante evidentes
  Basta con darles el tema para que un LLM produzca artículos muy parecidos
- En realidad, incluso antes de los LLM la gente cometía errores, y tanto los libros como los artículos estaban llenos de fallas
  La causa es un sistema de conocimiento humano imperfecto, no un problema exclusivo de los LLM
- En resumen, su herramienta sí está realizando este tipo de verificación
El objetivo de la revisión por pares no es solo detectar errores, sino evaluar la novedad y el nivel de elaboración
Entonces hacen falta incentivos para evitar la negligencia
Por ejemplo, la editorial podría crear un sistema de recompensas para dar premios a quienes detecten negligencias graves, o
incluso operar un Wall of Shame donde se exponga a investigadores reincidentes por descuido
- O bien, sería bueno implementar un sistema que ejecute una revisión automática de citas al enviar el artículo y notifique los errores en uno o dos días
Llevo 15 años usando herramientas de gestión bibliográfica como Zotero, y aun así sorprende que siga habiendo tantas citas con nombres de autor incorrectos
Si se hiciera obligatorio enviar el archivo .bib, al menos se podría hacer un control básico de calidad validando el DOI
Impacta que ni siquiera se haga esa verificación mínima
- Pero Zotero tampoco es perfecto
  A veces los propios autores citan mal sus propios artículos, y aunque el DOI sea correcto, los errores tipográficos en los nombres de autor son comunes
  Gracias a estas herramientas aumentó el número de citas y bajó la tasa de errores, pero aun así sigue quedando al menos un error por artículo
Si de 20 mil envíos solo revisaron 300 y ya encontraron cientos de artículos alucinados, el tamaño real del problema debe ser mucho mayor
- Que haya 20 mil envíos a una sola conferencia ya es, en sí mismo, una escala anormal
Las alucinaciones de los LLM son una característica de diseño
En el proceso de generar resultados estadísticamente plausibles, surgen de forma natural las citas falsas
Pero técnicamente sí es posible hacer que una máquina produzca citas reales
Solo que los LLM actuales no generan las “citas correctas” que les pedimos, sino resultados que solo se parecen en la forma