Nueva política de arXiv: prohibición de uso por 1 año por citas alucinadas

(twitter.com/tdietterich)

5 puntos por GN⁺ 2026-05-15 | 1 comentarios | Compartir por WhatsApp

El Código de Conducta de arXiv establece que figurar como autor de un artículo implica asumir la responsabilidad por el trabajo completo, sin importar cómo se haya generado el contenido
Si una obra científica incluye lenguaje inapropiado generado por herramientas de IA generativa, contenido plagiado, contenido sesgado, errores, equivocaciones, referencias incorrectas o contenido engañoso, la responsabilidad recae en el autor
arXiv considera que no se puede confiar en ninguna parte de un envío si hay evidencia clara de que el autor no verificó los resultados generados por un LLM
La sanción es una prohibición de uso de arXiv por 1 año y, después de eso, para volver a enviar a arXiv primero deberá haber sido aceptado en un venue académico de revisión por pares y buena reputación
La evidencia clara incluye referencias alucinadas y metacomentarios del LLM
- Ej.: "here is a 200 word summary; would you like me to make any changes?"
- Ej.: "the data in this table is illustrative, fill it in with the real numbers from your experiments"

1 comentarios

GN⁺ 2026-05-15

Opiniones en Hacker News

Si la sanción fuera una prohibición de usar arXiv por 1 año y, después de eso, que los envíos posteriores primero tengan que ser aceptados por una publicación revisada por pares de buena reputación, sería algo realmente bueno para la ciencia
arXiv es gratis, pero está más cerca de ser un privilegio que un derecho
Aunque en https://info.arxiv.org/help/policies/index.html no parece verse claramente, así que quizá todavía esté en fase de planificación, o quizá yo no lo busqué lo suficiente
Como dijo cierto doctor, la clave de un dispositivo del fin del mundo es que no sirve de nada si se mantiene en secreto
- Siento que, después de que se publicó esto, alguien ya debe haber improvisado un verificador de referencias y estar pensando en venderlo por suscripción
  Sirve para revisar referencias, pero probablemente no reduzca mucho la mala ciencia que viene acompañada de referencias alucinadas
- A mí esto me parece excesivo
  arXiv ni siquiera revisa los envíos con ese nivel de detalle, ¿entonces cómo lo sabrían?
  Dicen “errores, equivocaciones”, pero en realidad solo verifican con un sistema automático si se cumplen los requisitos básicos y a veces pasa por una revisión humana superficial; es imposible revisar todas las referencias a gran escala
  Sería como intentar hacer algo parecido a revisión por pares en un repositorio de preprints que recibe 100 veces más volumen que una revista
  Además, hay una diferencia enorme entre subir algo a arXiv y pasar revisión por pares
  Personalmente, en matemáticas me han rechazado en revisión por pares probablemente más de diez veces, pero subí sin problema a arXiv math
  La revisión por pares no solo mira si es nuevo y correcto, también si “le resulta interesante a la comunidad matemática”, y eso es inherentemente subjetivo y mucho más difícil que publicar en arXiv
  Un profesor famoso de teoría de números elogió mi artículo al avalarlo, y otro profesor también me recomendó por correo que lo publicara, pero aun así me lo rechazaron 3 veces y sigo esperando
  Si exigen publicación en una revista con revisión por pares, arXiv podría quedar cerrado para siempre para muchos investigadores, y además eso va contra la idea misma del preprint
- No estoy de acuerdo con que sea “algo realmente bueno para la ciencia”
  Es apenas una cita alucinada, no algo fraudulento
  No refleja en absoluto el contenido ni la calidad de la investigación de esa persona
  Para un primer error menor como este, una suspensión de 1 año ya parece suficiente
  La gente se equivoca, y muchos pueden aprender de ese error
  No hace falta destruir permanentemente el progreso en la vida de alguien ni su capacidad de contribuir a la humanidad solo porque una vez una IA alucinó una referencia bibliográfica
  Esto es más punitivo que rehabilitador
Es una medida bienvenida, pero en el fondo me gustaría más que se resolviera el problema de poder generar fácilmente entradas BibTeX correctas para los artículos citados
La información de citación de un artículo en particular puede venir de muchas fuentes distintas: revistas de varias editoriales, conferencias, preprints, etc.
Un mismo artículo también puede estar en varios lugares, como arXiv y el sitio web de una conferencia, con detalles ligeramente distintos
Gracias a herramientas como Zotero, extraer citas desde páginas web de publicaciones es mucho más fácil, pero los detalles de BibTeX extraídos todavía siguen teniendo problemas
Los nombres de autores y títulos por lo general se extraen bien, pero todavía hay que revisar manualmente si la editorial, el año, volumen y número, páginas, URL, etc. se extrajeron correctamente y si se muestran bien en formato LaTeX
Además, el formato de citación puede variar según la publicación
Como no hay una forma unificada de extraer fácilmente datos de citación consistentes, por desgracia eso puede llevar a tomar el atajo de usar datos de citación generados por IA
No me queda claro si las citas alucinadas aparecen en el cuerpo del texto o en un archivo BibTeX aparte, así que puede que mi comprensión esté un poco desviada
- Zotero también tiene una herramienta online gratuita para generar citas en el formato que quieras o un archivo BibTeX a partir de una URL/DOI/ISBN, etc.
  https://zbib.org/
https://xcancel.com/tdietterich/status/2055000956144935055
- Según el código de conducta, aparecer como autor de un artículo significa que, sin importar cómo se haya generado el contenido, cada autor asume plena responsabilidad por todo ese contenido
El problema es cómo detectar a gran escala las referencias alucinadas
No sé si será mediante muestreo manual o verificación automática de DOI
La dirección de la política parece correcta, pero hacerla cumplir es difícil
Bien
Si no tienes tiempo para revisar cuidadosamente lo que produce un LLM, yo tampoco tengo tiempo para leerlo
- Por desgracia, independientemente de si fue generado por LLM o no, probablemente el 99% de los artículos en arXiv no valen la pena leerlos
  ¿Alguna vez elegiste uno al azar y lo examinaste de verdad a fondo?
Todavía no veo aquí nada que trate la condición de que sea “de buena reputación”
¿Con qué criterio se decide qué revisión es de buena reputación?
Antes de imponer este tipo de sanciones, hace falta una verificación cuidadosa
Si alguien incluyó nombres y envió el artículo sin permiso explícito, ¿prohibirían a todos?
Sí estoy de acuerdo en que, si se implementa correctamente, va en una buena dirección
- Además, hasta donde sé, puedes agregar prácticamente a cualquier coautor que quieras sin verificación
  Entonces también podrías prohibir a todo el mundo en arXiv con un artículo de una sola frase
Ver a los partidarios hiperbólicos de los LLM de siempre en Twitter enojarse y responder a esta medida es una señal bastante reveladora
Igual que en los comentarios de publicaciones sobre contaminación por LLM, hay personas que no soportan la idea de que exista gente a la que no le gustan los LLM y se enfurecen si aparece el más mínimo obstáculo para una adopción rápida
- Es raro que esto haya quedado en gris
  Al final dan ganas de pensar que el consenso de HN es que hay que sobreacelerar la adopción de LLM en todas partes
  Es ridículo, pero al mismo tiempo también muy propio de HN
Bien. La literatura académica está en crisis por tanta basura de baja calidad
Hacer responsables a quienes producen alucinaciones fáciles de detectar solo puede ser algo bueno
- No es un problema exclusivo de la IA
  Hice un doctorado en física hace como 40 años, y ya entonces las referencias incorrectas eran un problema
Un colega envió un artículo dejando literalmente frases basura de IA en el cuerpo del texto y recibió una solicitud de correcciones durísima
Hay que revisar el borrador antes de enviarlo
Los revisores lo detectan
- También hay que revisar los comentarios de LaTeX. arXiv los deja visibles públicamente
  Yo uso lector de pantalla, así que normalmente leo los artículos en TeX fuente, y he visto de todo
  Expresiones despectivas, insultos contra revisores y profesores, admisiones de fraude, e incluso instrucciones a coautores antes del envío para cometer fraude adicional y encubrir uno anterior
  Es mucho menos frecuente de lo que uno pensaría, menos del 1% de los artículos, pero existe de verdad
  Podría ser útil pasar una detección de fraude basada en LLM sobre el código fuente TeX de los nuevos artículos en arXiv
  No atraparía todo, pero sí podría atrapar a algunos de los estafadores más tontos
  También tiene aspectos positivos: a veces puedes encontrar afirmaciones más fuertes que no pasaron la revisión, explicaciones adicionales que quedaron fuera por límites de páginas de una conferencia, o resultados experimentales que los autores no consideraron lo bastante valiosos como para incluirlos
  Hay que mirar esas cosas con muchísimo cuidado, pero a veces sí son realmente útiles
- Da tristeza que la propuesta aquí suene no a que no hay que enviar basura desde el principio, sino a disfrazar la basura para que al revisor le cueste más detectarla

Nueva política de arXiv: prohibición de uso por 1 año por citas alucinadas

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News