- GPTZero detectó más de 50 casos de errores de citación y metadatos de autores falsos en los artículos enviados a ICLR 2026
- Cada paper fue verificado junto con su enlace de OpenReview, confirmando la existencia real y la coincidencia de las citas
- En múltiples casos se confirmó que había autores inexistentes, año incorrecto o un título de paper diferente
- En algunos trabajos, el documento coincide parcialmente con un paper real, pero los metadatos detallados están distorsionados
- Es una muestra de que el problema de alucinación (hallucination) de IA también se está difundiendo en los envíos académicos
Resultados de detección de alucinaciones de GPTZero en ICLR 2026
- GPTZero realizó una verificación automática de citas y de la información de autores en los artículos enviados a ICLR 2026
- Cada paper se presenta con un enlace de OpenReview, un enlace de verificación de GPTZero y la información de citación correspondiente
- Como resultado de la verificación, se encontraron más de 50 casos de citas falsas o autores inexistentes
Casos de alucinación representativos
- El paper TamperTok sí existe, pero toda la información de autores es incorrecta
- El paper MixtureVitae coincide en los primeros 3 autores, pero los otros 7 no existen
- OrtSAE, Principled Policy Optimization y IMPQ presentan desajustes en el título o los autores respecto a los papers reales
- PDMBench tiene un paper similar existente, pero el año y el título son diferentes
- C3-OWD, GRF-LLM y otros fueron clasificados como coincidencia parcial
Casos de discrepancia total
- Catch-Only-One, TopoMHC, ThinkGeo, Reflexion, LOSI y otros citan papers que no existen
- SAFE-LLM, Typed Chain-of-Thought, MANTA y otros tienen papers similares, pero con metadatos inconsistentes
- AI-Assisted Medical Triage Assistant, QUART, KARMA y otros citan papers totalmente no relacionados
Método de verificación y tipos de resultado
- GPTZero comparó cada cita con bases de datos reales (por ejemplo, arXiv, NeurIPS, ICLR, ACL, entre otras)
- Los resultados se clasifican como “existe”, “coincidencia parcial”, “no coincide” o “autor inexistente”
- Algunos elementos se marcaron como “paper real existente, pero autor, año y título diferentes”
Significado y señales de alerta
- Una gran parte de las presentaciones de ICLR 2026 incluye alucinaciones de texto generado por IA sin corregir
- En el proceso de redacción de papers académicos, aumenta la necesidad de herramientas de verificación automatizada de hechos
- Los hallazgos de GPTZero muestran la necesidad de fortalecer los sistemas para validar la confiabilidad del contenido generado por IA
4 comentarios
Desde hace tiempo he pensado que los LLM podrían incluso obstaculizar el progreso de la humanidad, y en ese contexto está saliendo a la luz justo el problema que yo imaginaba. Reducir la carga cognitiva parece ser algo casi adictivo para las personas. Yo también hago investigación, y dentro del equipo estamos atentos porque sentimos que, mientras más usamos modelos LLM, más se nos forma el hábito de no pensar. Probablemente este problema seguirá profundizándose. Como el volumen se está volviendo demasiado grande para que la revisión por pares pueda cubrirlo, habrá que encontrar otros métodos. Últimamente parece que el número de envíos a conferencias famosas ha aumentado mucho, y sospecho que podría deberse a una razón similar.
Estoy de acuerdo. Si esto sigue así, siento que el cerebro humano va a seguir encogiéndose.
Al final, el escenario en el que la inteligencia artificial llegue a dominar a la humanidad quizá termine siendo el pensamiento más sofisticado que podemos concebir ahora mismo. De aquí en adelante, incluso podría haber solo un tramo de convergencia en el que, sin ninguna nueva transformación al nivel de llegar siquiera a esa idea, simplemente quedemos bajo el control de la IA.
¿Hay mucho más por avanzar con una IA que repite y repite teniendo un nivel de conocimiento parecido?
Si no es así, parece que el mundo solo terminará cubierto de textos clonados de los mismos humanos clonados, y dentro de eso será cada vez más difícil separar lo valioso de lo que no lo es.
Opinión de Hacker News
Creo que este tipo de conducta es claramente antiética a nivel profesional
Si alguien de mi equipo de investigación hiciera esto, se arriesgaría a que lo despidieran
Como revisor, si veo que el autor está mintiendo, ya no puedo confiar en todo el artículo, y éticamente creo que corresponde rechazarlo de inmediato
Los errores son comunes, pero esto es de otro nivel
En Occidente se suele ver que la integridad individual sostiene la confianza de toda la academia, mientras que en Medio Oriente, India y China existe más la tendencia a trasladar este tipo de conductas a la responsabilidad de la revista
Si no se entienden estas diferencias, colaborar se vuelve muy confuso
En mi experiencia, el principal problema que baja la calidad de los artículos son las citas incorrectas
Es mucho más común que la fuente citada en realidad no diga eso o distorsione el contexto, que simplemente no exista la cita
Encontrar estos errores toma muchísimo tiempo porque hay que leer y entender el texto original
Como esto no es un simple descuido sino que provoca una erosión del conocimiento, hacen falta sanciones como “tres advertencias y expulsión”
Por ejemplo, comparando las afirmaciones dentro del artículo con la lista de referencias para comprobar automáticamente si realmente las respaldan
En esos casos no es simple negligencia, sino manipulación por conflicto de interés
Más que la IA, creo que el problema es la flojera y el descuido
Si un científico escribe un artículo con LLM incluyendo citas falsas, entonces es un mal científico
Si no hay sanciones sociales para este tipo de conducta, al final se termina tolerando
La verificación técnica requiere un inspector capacitado
Al final, creo que la IA sí es el problema
Justamente por verse bien, termina ocultando mejor el problema
Aun así, en el último año las alucinaciones han bajado, y si se limita a artículos verificados puede ser bastante útil
Pero si queremos que los investigadores no dependan de estas herramientas, primero hay que cambiar la estructura de competencia constante por financiamiento
Con los LLM pasa igual: devuelven exactamente la respuesta que el usuario quería y refuerzan el sesgo de confirmación
No creo que exista una forma segura de usar LLM en la investigación científica
Si uno lee directamente los artículos, muchas veces no es solo que la IA haya escrito el texto, sino que la idea misma fue generada por IA
En la superficie suena plausible, pero el contenido es absurdo
Si un investigador real terminó en esa lista solo por un simple error en el archivo
.bib, sería una lástimaAvi Loeb (físico teórico de Harvard) mencionó que han aumentado de forma abrupta los casos de estudiantes que citan artículos que no existen
Creen sin más en ficciones inventadas por los LLM y ni siquiera las verifican
Artículo relacionado: How AI is making us dumber
Dar un mal ejemplo desde arriba y luego reprender a los de abajo es una mala forma de educar
Me pregunto si este estudio consideró todas las citas incorrectas como alucinaciones de LLM
Hace falta un análisis de línea base para saber si este tipo de errores ya existía en artículos previos a los LLM
Me gustaría ver qué resultados saldrían si aplicaran la misma herramienta a artículos de la década de 2010
.bibcuando estaba en posgradoComo la mayoría de las revistas validan las citas en base al DOI, habría que hacer un análisis comparativo también con artículos antiguos
Basta con darles el tema para que un LLM produzca artículos muy parecidos
La causa es un sistema de conocimiento humano imperfecto, no un problema exclusivo de los LLM
El objetivo de la revisión por pares no es solo detectar errores, sino evaluar la novedad y el nivel de elaboración
Entonces hacen falta incentivos para evitar la negligencia
Por ejemplo, la editorial podría crear un sistema de recompensas para dar premios a quienes detecten negligencias graves, o
incluso operar un Wall of Shame donde se exponga a investigadores reincidentes por descuido
Llevo 15 años usando herramientas de gestión bibliográfica como Zotero, y aun así sorprende que siga habiendo tantas citas con nombres de autor incorrectos
Si se hiciera obligatorio enviar el archivo
.bib, al menos se podría hacer un control básico de calidad validando el DOIImpacta que ni siquiera se haga esa verificación mínima
A veces los propios autores citan mal sus propios artículos, y aunque el DOI sea correcto, los errores tipográficos en los nombres de autor son comunes
Gracias a estas herramientas aumentó el número de citas y bajó la tasa de errores, pero aun así sigue quedando al menos un error por artículo
Si de 20 mil envíos solo revisaron 300 y ya encontraron cientos de artículos alucinados, el tamaño real del problema debe ser mucho mayor
Las alucinaciones de los LLM son una característica de diseño
En el proceso de generar resultados estadísticamente plausibles, surgen de forma natural las citas falsas
Pero técnicamente sí es posible hacer que una máquina produzca citas reales
Solo que los LLM actuales no generan las “citas correctas” que les pedimos, sino resultados que solo se parecen en la forma