- La herramienta Hallucination Check de GPTZero analizó 4,841 de los 5,290 artículos aceptados en NeurIPS 2025 y confirmó más de 100 “citas alucinadas”
- En múltiples artículos se encontraron rastros de generación por IA, como autores inexistentes, DOI y URL incorrectos, y títulos fabricados
- GPTZero define estos errores como “vibe citing”, descritos como citas armadas para parecer plausibles mediante la mezcla y alteración de información de artículos reales
- Todos los casos pasaron por verificación de expertos humanos, y la herramienta tiene una tasa de falsos negativos muy baja (99% de detección), aunque marca de forma conservadora los casos sospechosos
- Se considera un caso que muestra la necesidad de automatizar la detección de errores de citación generados por IA en la redacción y validación de artículos científicos
Resultados del análisis de GPTZero sobre los artículos de NeurIPS 2025
- GPTZero escaneó 4,841 de los 5,290 artículos aceptados en NeurIPS 2025 y encontró más de 100 citas alucinadas
- Cada caso fue verificado por humanos para confirmar que se trataba de citas que en realidad no existen
- Como ejemplo, se detectaron muchas citas con nombres de revistas, autores y DOI inexistentes
- GPTZero clasifica estos errores de citación como rastros de generación por IA (vibe citing)
- La forma más representativa es la de citas falsas creadas combinando o alterando títulos y autores de artículos reales
- Algunas usan títulos similares a los de trabajos reales, pero se identifican por inconsistencias en año, fuente o autores
Definición y tipos de “vibe citing”
- GPTZero define “vibe citing” como “citas creadas por IA generativa al combinar o alterar fuentes reales”
- Incluye casos en los que se manipulan o sintetizan nombres de autores, títulos, editoriales y DOI
- También hay casos de citación parcial de artículos reales o de invención de nombres de revistas falsas
- En cambio, errores simples como errores tipográficos, enlaces rotos o números de página faltantes se consideran errores humanos y se excluyen
- GPTZero presenta la diferencia entre citas reales, defectuosas y alucinadas en una tabla comparativa
- Ejemplo: transformar el artículo “Deep learning” en “Samuel LeCun Jackson. Deep learning. Science & Nature, 2021.” se clasifica como cita alucinada
Funciones de la herramienta Hallucination Check
- Hallucination Check es un sistema de detección basado en IA que automatiza la verificación de citas
- Marca automáticamente las citas que no pueden comprobarse en línea
- Ayuda a autores, editores y revisores a revisar rápidamente los errores de citación
- Etapas de uso
- El autor revisa automáticamente las citas del artículo antes de enviarlo
- El revisor identifica rápidamente las citas no verificadas
- Los equipos editoriales de conferencias y revistas pueden usarlo junto con AI Detector para detectar a la vez rastros de escritura con IA y errores de citación
Precisión de verificación de GPTZero
- Hallucination Check tiene una tasa de falsos negativos muy baja (99% de precisión de detección)
- Es decir, la probabilidad de que se le escape una cita alucinada real es extremadamente baja
- A cambio, la tasa de falsos positivos es algo más alta debido a su enfoque conservador
- GPTZero también encontró decenas de errores de citación generados por IA con el mismo método en ICLR 2026 y en un informe de Deloitte
Implicaciones para la academia y el ecosistema editorial
- El caso de NeurIPS 2025 pone en evidencia el problema de la disminución de la confiabilidad de las citas junto con la expansión del uso de herramientas de IA para redactar artículos
- GPTZero está colaborando con el comité organizador de ICLR para construir un sistema automático de verificación de artículos enviados en el futuro
- Se espera que estos intentos conduzcan a mejoras en la eficiencia y transparencia de la revisión científica y al fortalecimiento de los sistemas de validación de contenido generado por IA
1 comentarios
Comentarios en Hacker News
Revisé al azar un artículo en Google en el que un colega participó como coautor
El artículo señalado como problemático era un paper de ICLR 2024, y faltaban dos de los autores citados mientras que se agregó incorrectamente a otra persona (Kyle Richardson)
Esa cita estaba en la sección de contexto del paper, no en su parte central, y es muy probable que haya sido un simple error tipográfico generado durante el proceso de autocompletado con IA
Puede haber casos graves en el dataset, pero lo que yo vi fue un error menor que se podía corregir de inmediato revisando el DOI
Que se hayan incluido papers con este tipo de “error aislado” parece una decisión para maximizar el efecto promocional del producto por parte de los autores
El problema es que no sabemos si ese es el único error
Que exista un error así es una señal de que el paper se envió sin haber sido validado lo suficiente, y una huella de uso descuidado de LLM
Para verificar el resto del contenido se necesita conocimiento especializado y experimentos de reproducción
Si este fenómeno se expande, existe el riesgo de que se debilite la base de confianza de la investigación misma
Pero en este caso sí salieron mal
Creo que una alucinación en las referencias es una señal fuerte de que todo el paper fue escrito con IA
Incluso una simple revisión del DOI bastaría para filtrarlo, pero hoy la verificación de citas no es un procedimiento central en la revisión de papers
El modelo de confianza que todavía trata las citas como ‘texto narrativo’ ya no escala
En Duke University estoy trabajando en un proyecto para convertir las citas y el proceso de verificación en una infraestructura verificable por máquina (Liberata)
Más bien, eliminar los casos “inofensivos” habría sido aún más engañoso
Dejar que los datos hablen por sí solos es el enfoque más honesto
Parece que este fenómeno va a dar un golpe serio a la investigación científica
Ya existe el problema de la manipulación de datos, y si los LLM empiezan a generar papers plausibles, la situación va a empeorar
Aun así, quizá esto haga que se tome más en serio la reproducibilidad (reproducibility)
Casi no existen organismos que financien una propuesta del tipo: “necesitamos 2 años y 1 millón de dólares para verificar un paper dudoso del año pasado”
Sin cambiar la estructura de asignación de fondos en ciencia, será difícil resolverlo
Si se evalúa por cantidad de papers, se inunda todo de trabajos de baja calidad; si se evalúa por número de citas, entonces solo se incentiva la investigación centrada en descubrimientos
Los estudios de reproducción reciben pocas citas y, como la reputación y el sustento terminan dependiendo de los “descubrimientos”, nadie invierte en reproducibilidad
Proyectos como Liberata buscan mover la cultura de publicación desde el énfasis en la “novedad” hacia uno centrado en la “verificación y la reproducción”
Si ese cambio ocurre, el caos actual podría convertirse en una corrección necesaria
Desde esa perspectiva, incluso si todos los papers fueran reproducibles, los problemas fundamentales de la ciencia no se resolverían
Texto relacionado: Replication studies can’t fix science
Desde NeurIPS aclararon que la existencia de alucinaciones en las referencias (reference hallucination) no significa que el paper completo quede invalidado
Según el artículo completo de Fortune, el uso de LLM está evolucionando rápidamente y en 2025 los revisores recibieron instrucciones para marcar alucinaciones
Su postura es que, aunque el 1.1% de los papers tenga errores de citación, eso no invalida por sí mismo el contenido del paper
Da la impresión de que están tomando la explicación más inofensiva posible para tapar el problema completo
La ciencia ya atraviesa una crisis de reproducibilidad, y ahora además se suma el problema de las alucinaciones
En un contexto donde crece la influencia de las empresas privadas, el futuro de la ciencia abierta se ve sombrío
Incluso la retractación de un paper casi no trae consecuencias reales, y la estructura actual hace que el valor esperado del fraude sea positivo
Si no cambian los incentivos, solo va a empeorar
Dejar que un LLM maneje las citas termina abriendo el camino a que también interprete los datos, y eso puede producir resultados alucinados
Irónicamente, los papers de investigación incluyen revisión bibliográfica para sostener un diálogo de conocimiento con investigaciones previas
Manipular citas con LLM no es pararse “sobre los hombros de gigantes”, sino sobre los hombros de una ilusión
En una revisión de un paper para WACV 2024 recibí una reseña claramente escrita por IA
El revisor escribió cuatro reseñas completamente distintas en cuatro cuadros de texto (resumen, fortalezas, debilidades y evaluación general), y además se contradecían entre sí
Este tipo de situación se debe a la sobrecarga de los revisores, y hacen falta más voluntarios
(Si alguien puede revisar papers, le recomendaría contactar directamente al program chair de la conferencia que más le guste)
Algunos papers meten nombres falsos en las citas, como ‘Firstname Lastname’, ‘John Doe’, ‘Jane Smith’, y aun así nadie se da cuenta
Para un estudiante de doctorado que publica su primer paper en NeurIPS, la recompensa económica es enorme
La mayoría de las pasantías en big tech consideran prácticamente indispensable tener un paper como primer autor en NeurIPS/ICML/ICLR
Una vez que lo logras, el salario puede duplicarse o triplicarse, y no es exagerado decir que se te abre la carrera
En una estructura así, no sorprende que aparezca el fraude
Un paper en NeurIPS puede bastar para acceder a un puesto de investigación incluso sin doctorado, con salarios superiores a 300 mil dólares
Si además es una presentación Spotlight u Oral, su valor podría llegar a siete cifras
Todos parecen estar de acuerdo en que la estructura actual de incentivos produce este comportamiento
Entonces, me pregunto si no habría que usar ‘palo’ en vez de ‘zanahoria’
La propuesta sería imponer sanciones del nivel de terminar una carrera profesional cuando se detecten alucinaciones de LLM o manipulación de datos
Las herramientas de detección de IA todavía no son lo suficientemente confiables, y también existen errores simples de BibTeX o fallas introducidas durante correcciones gramaticales
Creo que solo se justifican sanciones fuertes cuando se demuestra una conducta fraudulenta intencional, como en una manipulación de datos evidente
Sería interesante analizar cuánta manipulación de fuentes había en papers anteriores a 2020
Yo no confío por completo ni en los LLM ni en los detectores de IA
Solo que ahora su frecuencia simplemente se ha acelerado
El problema de los errores de citación desaparecerá cuando el costo de búsqueda con IA y recolección de datos sea 100 veces más barato que hoy
Pero para entonces quizá incluso sea difícil distinguir si un paper escrito por IA realmente refleja la realidad,
y entraremos en una especie de era del ‘espejo estocástico (stochastic mirror)’