3 puntos por GN⁺ 2025-12-08 | 4 comentarios | Compartir por WhatsApp
  • GPTZero detectó más de 50 casos de errores de citación y metadatos de autores falsos en los artículos enviados a ICLR 2026
  • Cada paper fue verificado junto con su enlace de OpenReview, confirmando la existencia real y la coincidencia de las citas
  • En múltiples casos se confirmó que había autores inexistentes, año incorrecto o un título de paper diferente
  • En algunos trabajos, el documento coincide parcialmente con un paper real, pero los metadatos detallados están distorsionados
  • Es una muestra de que el problema de alucinación (hallucination) de IA también se está difundiendo en los envíos académicos

Resultados de detección de alucinaciones de GPTZero en ICLR 2026

  • GPTZero realizó una verificación automática de citas y de la información de autores en los artículos enviados a ICLR 2026
    • Cada paper se presenta con un enlace de OpenReview, un enlace de verificación de GPTZero y la información de citación correspondiente
    • Como resultado de la verificación, se encontraron más de 50 casos de citas falsas o autores inexistentes

Casos de alucinación representativos

  • El paper TamperTok sí existe, pero toda la información de autores es incorrecta
  • El paper MixtureVitae coincide en los primeros 3 autores, pero los otros 7 no existen
  • OrtSAE, Principled Policy Optimization y IMPQ presentan desajustes en el título o los autores respecto a los papers reales
  • PDMBench tiene un paper similar existente, pero el año y el título son diferentes
  • C3-OWD, GRF-LLM y otros fueron clasificados como coincidencia parcial

Casos de discrepancia total

  • Catch-Only-One, TopoMHC, ThinkGeo, Reflexion, LOSI y otros citan papers que no existen
  • SAFE-LLM, Typed Chain-of-Thought, MANTA y otros tienen papers similares, pero con metadatos inconsistentes
  • AI-Assisted Medical Triage Assistant, QUART, KARMA y otros citan papers totalmente no relacionados

Método de verificación y tipos de resultado

  • GPTZero comparó cada cita con bases de datos reales (por ejemplo, arXiv, NeurIPS, ICLR, ACL, entre otras)
    • Los resultados se clasifican como “existe”, “coincidencia parcial”, “no coincide” o “autor inexistente”
    • Algunos elementos se marcaron como “paper real existente, pero autor, año y título diferentes”

Significado y señales de alerta

  • Una gran parte de las presentaciones de ICLR 2026 incluye alucinaciones de texto generado por IA sin corregir
  • En el proceso de redacción de papers académicos, aumenta la necesidad de herramientas de verificación automatizada de hechos
  • Los hallazgos de GPTZero muestran la necesidad de fortalecer los sistemas para validar la confiabilidad del contenido generado por IA

4 comentarios

 
dbs0829 2025-12-08

Desde hace tiempo he pensado que los LLM podrían incluso obstaculizar el progreso de la humanidad, y en ese contexto está saliendo a la luz justo el problema que yo imaginaba. Reducir la carga cognitiva parece ser algo casi adictivo para las personas. Yo también hago investigación, y dentro del equipo estamos atentos porque sentimos que, mientras más usamos modelos LLM, más se nos forma el hábito de no pensar. Probablemente este problema seguirá profundizándose. Como el volumen se está volviendo demasiado grande para que la revisión por pares pueda cubrirlo, habrá que encontrar otros métodos. Últimamente parece que el número de envíos a conferencias famosas ha aumentado mucho, y sospecho que podría deberse a una razón similar.

 
shakespeares 2025-12-09

Estoy de acuerdo. Si esto sigue así, siento que el cerebro humano va a seguir encogiéndose.
Al final, el escenario en el que la inteligencia artificial llegue a dominar a la humanidad quizá termine siendo el pensamiento más sofisticado que podemos concebir ahora mismo. De aquí en adelante, incluso podría haber solo un tramo de convergencia en el que, sin ninguna nueva transformación al nivel de llegar siquiera a esa idea, simplemente quedemos bajo el control de la IA.

 
shakespeares 2025-12-09

¿Hay mucho más por avanzar con una IA que repite y repite teniendo un nivel de conocimiento parecido?
Si no es así, parece que el mundo solo terminará cubierto de textos clonados de los mismos humanos clonados, y dentro de eso será cada vez más difícil separar lo valioso de lo que no lo es.

 
GN⁺ 2025-12-08
Opinión de Hacker News
  • Creo que este tipo de conducta es claramente antiética a nivel profesional
    Si alguien de mi equipo de investigación hiciera esto, se arriesgaría a que lo despidieran
    Como revisor, si veo que el autor está mintiendo, ya no puedo confiar en todo el artículo, y éticamente creo que corresponde rechazarlo de inmediato
    Los errores son comunes, pero esto es de otro nivel

    • Esto también parece ser un tema de diferencias culturales
      En Occidente se suele ver que la integridad individual sostiene la confianza de toda la academia, mientras que en Medio Oriente, India y China existe más la tendencia a trasladar este tipo de conductas a la responsabilidad de la revista
      Si no se entienden estas diferencias, colaborar se vuelve muy confuso
  • En mi experiencia, el principal problema que baja la calidad de los artículos son las citas incorrectas
    Es mucho más común que la fuente citada en realidad no diga eso o distorsione el contexto, que simplemente no exista la cita
    Encontrar estos errores toma muchísimo tiempo porque hay que leer y entender el texto original
    Como esto no es un simple descuido sino que provoca una erosión del conocimiento, hacen falta sanciones como “tres advertencias y expulsión”

    • De hecho, esta verificación podría ser un área en la que los LLM sí sean buenos
      Por ejemplo, comparando las afirmaciones dentro del artículo con la lista de referencias para comprobar automáticamente si realmente las respaldan
    • Pero algunos investigadores distorsionan los resultados a propósito para complacer a quienes financian el trabajo (Exxon, Meta, Pfizer, etc.)
      En esos casos no es simple negligencia, sino manipulación por conflicto de interés
    • Las citas falsas son solo la punta del iceberg, y el abuso de citas es un problema mucho más antiguo y grave
  • Más que la IA, creo que el problema es la flojera y el descuido
    Si un científico escribe un artículo con LLM incluyendo citas falsas, entonces es un mal científico
    Si no hay sanciones sociales para este tipo de conducta, al final se termina tolerando

    • Yo soy electricista industrial, y un mal trabajo eléctrico solo lo puede detectar un experto
      La verificación técnica requiere un inspector capacitado
    • Pero decir que “la IA no es el problema” suena como la lógica evasiva de los debates sobre armas de “el problema no es el arma sino la persona”
      Al final, creo que la IA sí es el problema
    • Siguiendo la analogía de la carpintería, un estante hecho por un LLM puede verse bien por fuera, pero estructuralmente es deficiente
      Justamente por verse bien, termina ocultando mejor el problema
    • Yo también busco artículos con Gemini Pro, pero las citas siguen siendo un desastre
      Aun así, en el último año las alucinaciones han bajado, y si se limita a artículos verificados puede ser bastante útil
      Pero si queremos que los investigadores no dependan de estas herramientas, primero hay que cambiar la estructura de competencia constante por financiamiento
    • Como dice Bruce Schneier, cualquiera puede crear un algoritmo que no sea capaz de verificar por sí mismo
      Con los LLM pasa igual: devuelven exactamente la respuesta que el usuario quería y refuerzan el sesgo de confirmación
      No creo que exista una forma segura de usar LLM en la investigación científica
  • Si uno lee directamente los artículos, muchas veces no es solo que la IA haya escrito el texto, sino que la idea misma fue generada por IA
    En la superficie suena plausible, pero el contenido es absurdo
    Si un investigador real terminó en esa lista solo por un simple error en el archivo .bib, sería una lástima

  • Avi Loeb (físico teórico de Harvard) mencionó que han aumentado de forma abrupta los casos de estudiantes que citan artículos que no existen
    Creen sin más en ficciones inventadas por los LLM y ni siquiera las verifican
    Artículo relacionado: How AI is making us dumber

    • Aunque Loeb también es conocido por sus afirmaciones sobre OVNIs, así que hay controversia sobre su credibilidad
    • Algunas personas lo consideran poco confiable
    • Creo que este fenómeno surge de una cultura de evasión de responsabilidades en el liderazgo
      Dar un mal ejemplo desde arriba y luego reprender a los de abajo es una mala forma de educar
  • Me pregunto si este estudio consideró todas las citas incorrectas como alucinaciones de LLM
    Hace falta un análisis de línea base para saber si este tipo de errores ya existía en artículos previos a los LLM

    • El artículo tiene una sección llamada ‘Defining Hallucitations’, donde explica la definición de citas falsas y el problema de los falsos positivos
      Me gustaría ver qué resultados saldrían si aplicaran la misma herramienta a artículos de la década de 2010
    • Yo también tenía pequeños errores en mi archivo .bib cuando estaba en posgrado
      Como la mayoría de las revistas validan las citas en base al DOI, habría que hacer un análisis comparativo también con artículos antiguos
    • Si uno mira los artículos publicados de forma abierta, los rastros de generación por IA son bastante evidentes
      Basta con darles el tema para que un LLM produzca artículos muy parecidos
    • En realidad, incluso antes de los LLM la gente cometía errores, y tanto los libros como los artículos estaban llenos de fallas
      La causa es un sistema de conocimiento humano imperfecto, no un problema exclusivo de los LLM
    • En resumen, su herramienta sí está realizando este tipo de verificación
  • El objetivo de la revisión por pares no es solo detectar errores, sino evaluar la novedad y el nivel de elaboración
    Entonces hacen falta incentivos para evitar la negligencia
    Por ejemplo, la editorial podría crear un sistema de recompensas para dar premios a quienes detecten negligencias graves, o
    incluso operar un Wall of Shame donde se exponga a investigadores reincidentes por descuido

    • O bien, sería bueno implementar un sistema que ejecute una revisión automática de citas al enviar el artículo y notifique los errores en uno o dos días
  • Llevo 15 años usando herramientas de gestión bibliográfica como Zotero, y aun así sorprende que siga habiendo tantas citas con nombres de autor incorrectos
    Si se hiciera obligatorio enviar el archivo .bib, al menos se podría hacer un control básico de calidad validando el DOI
    Impacta que ni siquiera se haga esa verificación mínima

    • Pero Zotero tampoco es perfecto
      A veces los propios autores citan mal sus propios artículos, y aunque el DOI sea correcto, los errores tipográficos en los nombres de autor son comunes
      Gracias a estas herramientas aumentó el número de citas y bajó la tasa de errores, pero aun así sigue quedando al menos un error por artículo
  • Si de 20 mil envíos solo revisaron 300 y ya encontraron cientos de artículos alucinados, el tamaño real del problema debe ser mucho mayor

    • Que haya 20 mil envíos a una sola conferencia ya es, en sí mismo, una escala anormal
  • Las alucinaciones de los LLM son una característica de diseño
    En el proceso de generar resultados estadísticamente plausibles, surgen de forma natural las citas falsas
    Pero técnicamente sí es posible hacer que una máquina produzca citas reales
    Solo que los LLM actuales no generan las “citas correctas” que les pedimos, sino resultados que solo se parecen en la forma