Nueva política de arXiv: 1 año de veto por referencias alucinadas
(twitter.com/tdietterich)- El Código de Conducta de arXiv establece que quien figure como autor es responsable de todo el artículo, sin importar cómo se haya generado
- Si un artículo incluye lenguaje inapropiado, plagio, sesgos, errores o referencias incorrectas creadas por IA generativa, la responsabilidad recae en el autor
- arXiv considera que no se puede confiar en un artículo completo si hay evidencia clara de que el autor no verificó resultados generados por un LLM
- La sanción es una prohibición de uso de arXiv por 1 año, y luego los envíos deberán haber sido aceptados primero en un venue académico de revisión por pares con buena reputación
- Las referencias alucinadas o metacomentarios de LLM como “fill it in with the real numbers from your experiments” se consideran evidencia clara
Responsabilidad y sanciones para autores en arXiv
- El Código de Conducta de arXiv establece que figurar como autor de un artículo implica asumir la responsabilidad por todo su contenido, independientemente de cómo se haya generado
- Si una obra científica incluye lenguaje inapropiado, contenido plagiado, contenido sesgado, errores, equivocaciones, referencias incorrectas o contenido engañoso producido por herramientas de IA generativa, la responsabilidad recae en el autor
- arXiv considera que no se puede confiar en ningún contenido de un envío si hay evidencia clara de que el autor no revisó los resultados generados por un LLM
- La sanción es una prohibición de uso de arXiv por 1 año, y para volver a enviar a arXiv después de eso, el trabajo primero deberá haber sido aceptado en un venue académico de revisión por pares con buena reputación
- La evidencia clara incluye referencias alucinadas y metacomentarios del LLM
- Ejemplo: “here is a 200 word summary; would you like me to make any changes?”
- Ejemplo: “the data in this table is illustrative, fill it in with the real numbers from your experiments”
1 comentarios
Opiniones en Hacker News
Si la sanción fuera una prohibición de usar arXiv por 1 año y, después de eso, que los envíos posteriores primero tengan que ser aceptados por una publicación revisada por pares de buena reputación, sería algo realmente bueno para la ciencia
arXiv es gratis, pero está más cerca de ser un privilegio que un derecho
Aunque en https://info.arxiv.org/help/policies/index.html no parece verse claramente, así que quizá todavía esté en fase de planificación, o quizá yo no lo busqué lo suficiente
Como dijo cierto doctor, la clave de un dispositivo del fin del mundo es que no sirve de nada si se mantiene en secreto
Sirve para revisar referencias, pero probablemente no reduzca mucho la mala ciencia que viene acompañada de referencias alucinadas
arXiv ni siquiera revisa los envíos con ese nivel de detalle, ¿entonces cómo lo sabrían?
Dicen “errores, equivocaciones”, pero en realidad solo verifican con un sistema automático si se cumplen los requisitos básicos y a veces pasa por una revisión humana superficial; es imposible revisar todas las referencias a gran escala
Sería como intentar hacer algo parecido a revisión por pares en un repositorio de preprints que recibe 100 veces más volumen que una revista
Además, hay una diferencia enorme entre subir algo a arXiv y pasar revisión por pares
Personalmente, en matemáticas me han rechazado en revisión por pares probablemente más de diez veces, pero subí sin problema a arXiv math
La revisión por pares no solo mira si es nuevo y correcto, también si “le resulta interesante a la comunidad matemática”, y eso es inherentemente subjetivo y mucho más difícil que publicar en arXiv
Un profesor famoso de teoría de números elogió mi artículo al avalarlo, y otro profesor también me recomendó por correo que lo publicara, pero aun así me lo rechazaron 3 veces y sigo esperando
Si exigen publicación en una revista con revisión por pares, arXiv podría quedar cerrado para siempre para muchos investigadores, y además eso va contra la idea misma del preprint
Es apenas una cita alucinada, no algo fraudulento
No refleja en absoluto el contenido ni la calidad de la investigación de esa persona
Para un primer error menor como este, una suspensión de 1 año ya parece suficiente
La gente se equivoca, y muchos pueden aprender de ese error
No hace falta destruir permanentemente el progreso en la vida de alguien ni su capacidad de contribuir a la humanidad solo porque una vez una IA alucinó una referencia bibliográfica
Esto es más punitivo que rehabilitador
Es una medida bienvenida, pero en el fondo me gustaría más que se resolviera el problema de poder generar fácilmente entradas BibTeX correctas para los artículos citados
La información de citación de un artículo en particular puede venir de muchas fuentes distintas: revistas de varias editoriales, conferencias, preprints, etc.
Un mismo artículo también puede estar en varios lugares, como arXiv y el sitio web de una conferencia, con detalles ligeramente distintos
Gracias a herramientas como Zotero, extraer citas desde páginas web de publicaciones es mucho más fácil, pero los detalles de BibTeX extraídos todavía siguen teniendo problemas
Los nombres de autores y títulos por lo general se extraen bien, pero todavía hay que revisar manualmente si la editorial, el año, volumen y número, páginas, URL, etc. se extrajeron correctamente y si se muestran bien en formato LaTeX
Además, el formato de citación puede variar según la publicación
Como no hay una forma unificada de extraer fácilmente datos de citación consistentes, por desgracia eso puede llevar a tomar el atajo de usar datos de citación generados por IA
No me queda claro si las citas alucinadas aparecen en el cuerpo del texto o en un archivo BibTeX aparte, así que puede que mi comprensión esté un poco desviada
https://zbib.org/
https://xcancel.com/tdietterich/status/2055000956144935055
El problema es cómo detectar a gran escala las referencias alucinadas
No sé si será mediante muestreo manual o verificación automática de DOI
La dirección de la política parece correcta, pero hacerla cumplir es difícil
Bien
Si no tienes tiempo para revisar cuidadosamente lo que produce un LLM, yo tampoco tengo tiempo para leerlo
¿Alguna vez elegiste uno al azar y lo examinaste de verdad a fondo?
Todavía no veo aquí nada que trate la condición de que sea “de buena reputación”
¿Con qué criterio se decide qué revisión es de buena reputación?
Antes de imponer este tipo de sanciones, hace falta una verificación cuidadosa
Si alguien incluyó nombres y envió el artículo sin permiso explícito, ¿prohibirían a todos?
Sí estoy de acuerdo en que, si se implementa correctamente, va en una buena dirección
Entonces también podrías prohibir a todo el mundo en arXiv con un artículo de una sola frase
Ver a los partidarios hiperbólicos de los LLM de siempre en Twitter enojarse y responder a esta medida es una señal bastante reveladora
Igual que en los comentarios de publicaciones sobre contaminación por LLM, hay personas que no soportan la idea de que exista gente a la que no le gustan los LLM y se enfurecen si aparece el más mínimo obstáculo para una adopción rápida
Al final dan ganas de pensar que el consenso de HN es que hay que sobreacelerar la adopción de LLM en todas partes
Es ridículo, pero al mismo tiempo también muy propio de HN
Bien. La literatura académica está en crisis por tanta basura de baja calidad
Hacer responsables a quienes producen alucinaciones fáciles de detectar solo puede ser algo bueno
Hice un doctorado en física hace como 40 años, y ya entonces las referencias incorrectas eran un problema
Un colega envió un artículo dejando literalmente frases basura de IA en el cuerpo del texto y recibió una solicitud de correcciones durísima
Hay que revisar el borrador antes de enviarlo
Los revisores lo detectan
Yo uso lector de pantalla, así que normalmente leo los artículos en TeX fuente, y he visto de todo
Expresiones despectivas, insultos contra revisores y profesores, admisiones de fraude, e incluso instrucciones a coautores antes del envío para cometer fraude adicional y encubrir uno anterior
Es mucho menos frecuente de lo que uno pensaría, menos del 1% de los artículos, pero existe de verdad
Podría ser útil pasar una detección de fraude basada en LLM sobre el código fuente TeX de los nuevos artículos en arXiv
No atraparía todo, pero sí podría atrapar a algunos de los estafadores más tontos
También tiene aspectos positivos: a veces puedes encontrar afirmaciones más fuertes que no pasaron la revisión, explicaciones adicionales que quedaron fuera por límites de páginas de una conferencia, o resultados experimentales que los autores no consideraron lo bastante valiosos como para incluirlos
Hay que mirar esas cosas con muchísimo cuidado, pero a veces sí son realmente útiles