GPTZero detecta 100 nuevas citas alucinadas en artículos aceptados de NeurIPS 2025

(gptzero.me)

1 puntos por GN⁺ 2026-01-23 | 1 comentarios | Compartir por WhatsApp

La herramienta Hallucination Check de GPTZero analizó 4,841 de los 5,290 artículos aceptados en NeurIPS 2025 y confirmó más de 100 “citas alucinadas”
En múltiples artículos se encontraron rastros de generación por IA, como autores inexistentes, DOI y URL incorrectos, y títulos fabricados
GPTZero define estos errores como “vibe citing”, descritos como citas armadas para parecer plausibles mediante la mezcla y alteración de información de artículos reales
Todos los casos pasaron por verificación de expertos humanos, y la herramienta tiene una tasa de falsos negativos muy baja (99% de detección), aunque marca de forma conservadora los casos sospechosos
Se considera un caso que muestra la necesidad de automatizar la detección de errores de citación generados por IA en la redacción y validación de artículos científicos

Resultados del análisis de GPTZero sobre los artículos de NeurIPS 2025

GPTZero escaneó 4,841 de los 5,290 artículos aceptados en NeurIPS 2025 y encontró más de 100 citas alucinadas
- Cada caso fue verificado por humanos para confirmar que se trataba de citas que en realidad no existen
- Como ejemplo, se detectaron muchas citas con nombres de revistas, autores y DOI inexistentes
GPTZero clasifica estos errores de citación como rastros de generación por IA (vibe citing)
- La forma más representativa es la de citas falsas creadas combinando o alterando títulos y autores de artículos reales
- Algunas usan títulos similares a los de trabajos reales, pero se identifican por inconsistencias en año, fuente o autores

Definición y tipos de “vibe citing”

GPTZero define “vibe citing” como “citas creadas por IA generativa al combinar o alterar fuentes reales”
- Incluye casos en los que se manipulan o sintetizan nombres de autores, títulos, editoriales y DOI
- También hay casos de citación parcial de artículos reales o de invención de nombres de revistas falsas
En cambio, errores simples como errores tipográficos, enlaces rotos o números de página faltantes se consideran errores humanos y se excluyen
GPTZero presenta la diferencia entre citas reales, defectuosas y alucinadas en una tabla comparativa
- Ejemplo: transformar el artículo “Deep learning” en “Samuel LeCun Jackson. Deep learning. Science & Nature, 2021.” se clasifica como cita alucinada

Funciones de la herramienta Hallucination Check

Hallucination Check es un sistema de detección basado en IA que automatiza la verificación de citas
- Marca automáticamente las citas que no pueden comprobarse en línea
- Ayuda a autores, editores y revisores a revisar rápidamente los errores de citación
Etapas de uso
1. El autor revisa automáticamente las citas del artículo antes de enviarlo
2. El revisor identifica rápidamente las citas no verificadas
3. Los equipos editoriales de conferencias y revistas pueden usarlo junto con AI Detector para detectar a la vez rastros de escritura con IA y errores de citación

Precisión de verificación de GPTZero

Hallucination Check tiene una tasa de falsos negativos muy baja (99% de precisión de detección)
- Es decir, la probabilidad de que se le escape una cita alucinada real es extremadamente baja
- A cambio, la tasa de falsos positivos es algo más alta debido a su enfoque conservador
GPTZero también encontró decenas de errores de citación generados por IA con el mismo método en ICLR 2026 y en un informe de Deloitte

Implicaciones para la academia y el ecosistema editorial

El caso de NeurIPS 2025 pone en evidencia el problema de la disminución de la confiabilidad de las citas junto con la expansión del uso de herramientas de IA para redactar artículos
GPTZero está colaborando con el comité organizador de ICLR para construir un sistema automático de verificación de artículos enviados en el futuro
Se espera que estos intentos conduzcan a mejoras en la eficiencia y transparencia de la revisión científica y al fortalecimiento de los sistemas de validación de contenido generado por IA

1 comentarios

GN⁺ 2026-01-23

Comentarios en Hacker News

Revisé al azar un artículo en Google en el que un colega participó como coautor
El artículo señalado como problemático era un paper de ICLR 2024, y faltaban dos de los autores citados mientras que se agregó incorrectamente a otra persona (Kyle Richardson)
Esa cita estaba en la sección de contexto del paper, no en su parte central, y es muy probable que haya sido un simple error tipográfico generado durante el proceso de autocompletado con IA
Puede haber casos graves en el dataset, pero lo que yo vi fue un error menor que se podía corregir de inmediato revisando el DOI
Que se hayan incluido papers con este tipo de “error aislado” parece una decisión para maximizar el efecto promocional del producto por parte de los autores
- Este tipo de error es una señal típica de alucinación fácil de verificar incluso por alguien no experto
  El problema es que no sabemos si ese es el único error
  Que exista un error así es una señal de que el paper se envió sin haber sido validado lo suficiente, y una huella de uso descuidado de LLM
  Para verificar el resto del contenido se necesita conocimiento especializado y experimentos de reproducción
  Si este fenómeno se expande, existe el riesgo de que se debilite la base de confianza de la investigación misma
- El análisis que falta es comparar con conferencias previas a los LLM (2022~2023) para mostrar la tasa de falsos positivos de la herramienta
- Normalmente, si copias y pegas la bibliografía de un paper, los nombres de autores no salen mal
  Pero en este caso sí salieron mal
  Creo que una alucinación en las referencias es una señal fuerte de que todo el paper fue escrito con IA
- Es interesante que este tipo de error ocurra con facilidad y no se detecte bien
  Incluso una simple revisión del DOI bastaría para filtrarlo, pero hoy la verificación de citas no es un procedimiento central en la revisión de papers
  El modelo de confianza que todavía trata las citas como ‘texto narrativo’ ya no escala
  En Duke University estoy trabajando en un proyecto para convertir las citas y el proceso de verificación en una infraestructura verificable por máquina (Liberata)
- No creo que el dataset de los autores afirmara nada sobre el impacto concreto de las alucinaciones
  Más bien, eliminar los casos “inofensivos” habría sido aún más engañoso
  Dejar que los datos hablen por sí solos es el enfoque más honesto
Parece que este fenómeno va a dar un golpe serio a la investigación científica
Ya existe el problema de la manipulación de datos, y si los LLM empiezan a generar papers plausibles, la situación va a empeorar
Aun así, quizá esto haga que se tome más en serio la reproducibilidad (reproducibility)
- La raíz del problema de la reproducibilidad es la falta de financiamiento
  Casi no existen organismos que financien una propuesta del tipo: “necesitamos 2 años y 1 millón de dólares para verificar un paper dudoso del año pasado”
  Sin cambiar la estructura de asignación de fondos en ciencia, será difícil resolverlo
- La mayoría de los científicos también reconoce la crisis de reproducibilidad, pero el problema está en la estructura de incentivos
  Si se evalúa por cantidad de papers, se inunda todo de trabajos de baja calidad; si se evalúa por número de citas, entonces solo se incentiva la investigación centrada en descubrimientos
  Los estudios de reproducción reciben pocas citas y, como la reputación y el sustento terminan dependiendo de los “descubrimientos”, nadie invierte en reproducibilidad
- La IA también podría servir para exponer este problema estructural
  Proyectos como Liberata buscan mover la cultura de publicación desde el énfasis en la “novedad” hacia uno centrado en la “verificación y la reproducción”
  Si ese cambio ocurre, el caos actual podría convertirse en una corrección necesaria
- Algunas personas sostienen que la reproducibilidad en sí misma está sobrevalorada
  Desde esa perspectiva, incluso si todos los papers fueran reproducibles, los problemas fundamentales de la ciencia no se resolverían
  Texto relacionado: Replication studies can’t fix science
- Me pregunto si ya se resolvió el problema de que papers que citan investigaciones ya invalidadas sigan siendo citados a su vez
Desde NeurIPS aclararon que la existencia de alucinaciones en las referencias (reference hallucination) no significa que el paper completo quede invalidado
Según el artículo completo de Fortune, el uso de LLM está evolucionando rápidamente y en 2025 los revisores recibieron instrucciones para marcar alucinaciones
Su postura es que, aunque el 1.1% de los papers tenga errores de citación, eso no invalida por sí mismo el contenido del paper
- Pero esto parece una reacción demasiado indulgente
  Da la impresión de que están tomando la explicación más inofensiva posible para tapar el problema completo
  La ciencia ya atraviesa una crisis de reproducibilidad, y ahora además se suma el problema de las alucinaciones
  En un contexto donde crece la influencia de las empresas privadas, el futuro de la ciencia abierta se ve sombrío
- Como no hay castigo, esto va a seguir pasando
  Incluso la retractación de un paper casi no trae consecuencias reales, y la estructura actual hace que el valor esperado del fraude sea positivo
  Si no cambian los incentivos, solo va a empeorar
- También hay quienes proponen revisar todos los envíos con herramientas como GPTZero y rechazar de inmediato cualquier paper que tenga alucinaciones
- Que haya errores de citación no significa automáticamente que el contenido sea falso, pero una sola manipulación destruye la confianza en el conjunto
  Dejar que un LLM maneje las citas termina abriendo el camino a que también interprete los datos, y eso puede producir resultados alucinados
- Creo que si se detecta хотя бы una sola alucinación de LLM, el paper debería retractarse y sus autores deberían quedar inhabilitados para enviar trabajos
Irónicamente, los papers de investigación incluyen revisión bibliográfica para sostener un diálogo de conocimiento con investigaciones previas
Manipular citas con LLM no es pararse “sobre los hombros de gigantes”, sino sobre los hombros de una ilusión
- Por eso alguien bromeó diciendo: “esto es pararse sobre los hombros de la falsedad”
- Desde un punto de vista filosófico, queda la pregunta de si los LLM están creando basura nueva, o si simplemente amplifican una estructura de producción de basura que ya existía
En una revisión de un paper para WACV 2024 recibí una reseña claramente escrita por IA
El revisor escribió cuatro reseñas completamente distintas en cuatro cuadros de texto (resumen, fortalezas, debilidades y evaluación general), y además se contradecían entre sí
Este tipo de situación se debe a la sobrecarga de los revisores, y hacen falta más voluntarios
(Si alguien puede revisar papers, le recomendaría contactar directamente al program chair de la conferencia que más le guste)
- La única reacción fue: “wow…”
Algunos papers meten nombres falsos en las citas, como ‘Firstname Lastname’, ‘John Doe’, ‘Jane Smith’, y aun así nadie se da cuenta
- Aun así, espero que si los descubren después al menos haya castigo
- Alguien comentó con cinismo que “así es como se hace en el futuro”
Para un estudiante de doctorado que publica su primer paper en NeurIPS, la recompensa económica es enorme
La mayoría de las pasantías en big tech consideran prácticamente indispensable tener un paper como primer autor en NeurIPS/ICML/ICLR
Una vez que lo logras, el salario puede duplicarse o triplicarse, y no es exagerado decir que se te abre la carrera
En una estructura así, no sorprende que aparezca el fraude
- De hecho, el valor de mercado de un solo paper es muchísimo mayor
  Un paper en NeurIPS puede bastar para acceder a un puesto de investigación incluso sin doctorado, con salarios superiores a 300 mil dólares
  Si además es una presentación Spotlight u Oral, su valor podría llegar a siete cifras
Todos parecen estar de acuerdo en que la estructura actual de incentivos produce este comportamiento
Entonces, me pregunto si no habría que usar ‘palo’ en vez de ‘zanahoria’
La propuesta sería imponer sanciones del nivel de terminar una carrera profesional cuando se detecten alucinaciones de LLM o manipulación de datos
- Pero cuanto más fuerte sea el castigo, más necesario será el debido proceso (due process)
  Las herramientas de detección de IA todavía no son lo suficientemente confiables, y también existen errores simples de BibTeX o fallas introducidas durante correcciones gramaticales
  Creo que solo se justifican sanciones fuertes cuando se demuestra una conducta fraudulenta intencional, como en una manipulación de datos evidente
Sería interesante analizar cuánta manipulación de fuentes había en papers anteriores a 2020
- También tengo curiosidad por saber cuánto falsamente marcan como escritos por IA los detectores actuales cuando evalúan papers previos a los LLM
  Yo no confío por completo ni en los LLM ni en los detectores de IA
- Al final, es muy probable que este problema ya existiera antes
  Solo que ahora su frecuencia simplemente se ha acelerado
El problema de los errores de citación desaparecerá cuando el costo de búsqueda con IA y recolección de datos sea 100 veces más barato que hoy
Pero para entonces quizá incluso sea difícil distinguir si un paper escrito por IA realmente refleja la realidad,
y entraremos en una especie de era del ‘espejo estocástico (stochastic mirror)’

GPTZero detecta 100 nuevas citas alucinadas en artículos aceptados de NeurIPS 2025

Resultados del análisis de GPTZero sobre los artículos de NeurIPS 2025

Definición y tipos de “vibe citing”

Funciones de la herramienta Hallucination Check

Precisión de verificación de GPTZero

Implicaciones para la academia y el ecosistema editorial

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News