- Se confirmó que el 21% de las reseñas de artículos de la conferencia internacional de Machine Learning ICLR 2026 fue redactado en su totalidad por inteligencia artificial
- La herramienta de detección de Pangram Labs analizó 75,800 reseñas y encontró huellas de uso de IA en más de la mitad
- Algunos investigadores señalaron la posibilidad de que se tratara de texto generado por IA tras recibir comentarios inusualmente largos o imprecisos
- El comité organizador indicó que revisará con herramientas automatizadas si hubo una violación de la política de uso de IA y que está llevando a cabo un proceso de recuperación de la confianza
- Este episodio muestra un caso que evidencia la urgencia de garantizar la transparencia y la confiabilidad del proceso de revisión académica
Lo que reveló el uso de IA en la revisión de artículos de ICLR 2026
- Se identificó que aproximadamente el 21% de las revisiones de artículos de ICLR 2026 fue redactado por completo con IA, y que más de la mitad estaba influenciada por IA
- El análisis lo realizó Pangram Labs, con un total de 19,490 artículos y 75,800 reseñas
- Pangram divulgó los resultados usando una herramienta de detección de texto generado por IA
- La conferencia anunció que revisará con herramientas automatizadas si hubo un incumplimiento de su política de uso de IA
- El responsable del programa de ICLR 2026 señaló que esta fue la primera gran ola de problemas de revisión asistida por IA que se detecta
Reclamaciones de investigadores y proceso de investigación
- Varios investigadores compartieron en redes sociales reseñas sospechosas de haber sido escritas por IA
- Algunas reseñas incluyen “citas alucinadas” o comentarios vagos y extensos
- Graham Neubig, de la Carnegie Mellon University, solicitó verificar si ciertas reseñas anómalas habían sido generadas por IA
- Publicó un aviso de recompensa en X (ex Twitter), y Max Spero de Pangram Labs respondió iniciando una auditoría completa
- Pangram explicó que escribió el código para analizar el texto de todas las presentaciones en solo 12 horas
Resultados del análisis de Pangram Labs
- La herramienta de Pangram opera prediciendo texto generado o editado por un LLM (modelo de lenguaje grande)
- El análisis detectó 15,899 reseñas completamente generadas por IA y calificó 199 artículos (1%) como completamente redactados por IA
- 61% de los artículos fueron redactados por humanos y 9% incluyen más de la mitad del texto generado por IA
- Pangram envió su propio modelo como preprint a ICLR 2026, y parte de la revisión de ese trabajo también fue clasificada como generada por IA
Reacción de los investigadores
- Desmond Elliott de la Universidad de Copenhague señaló que una de las revisiones de un artículo que sometió interpretó mal el argumento central del trabajo y mencionó cifras incorrectas
- Su estudiante doctoral supuso que esa reseña parecía haber sido escrita por un LLM
- El análisis de Pangram confirmó que esa reseña era, de hecho, completamente generada por IA
- Esa revisión otorgó la nota de calificación más baja, dejando el artículo justo en el límite de aceptación
Respuesta de la conferencia y próximos retos
- La conferencia anunció la implementación de una herramienta automatizada de detección de uso de IA con el objetivo de recuperar la confiabilidad de la revisión
- El responsable del programa dijo que este proceso mostró la necesidad de redefinir el concepto de confianza
- Este caso se presenta como un ejemplo de que la IA se ha infiltrado profundamente en el proceso de revisión académica, y la principal tarea en la agenda es asegurar la transparencia en la evaluación de la investigación
2 comentarios
Parece que hay muchos casos de reseñas interesantes
https://reddit.com/r/MachineLearning/…
Opinión en Hacker News
Creo que la dependencia de la IA en la escritura está aumentando, pero la metodología usada en este artículo parece más bien promoción de Pangram
La mayoría de los detectores de IA no son confiables y hasta pueden perjudicar a personas que nunca han usado un LLM
Se puede ver una discusión relacionada en este enlace
Si estás pensando en detectores anticuados como GPTZero, entonces no has visto las mejoras recientes en rendimiento
Según un artículo de economistas de la U. de Chicago, registramos 0 falsos positivos en 1,992 documentos escritos por humanos y más de 99% de tasa de detección en documentos de IA
Usarlos para análisis estadístico, como en este estudio, no tiene problema
De hecho, casi no hay artículos escritos con IA, y es natural que se haya usado mucho más en las reseñas
Ese doble rasero es interesante
Sea exacta o no la cifra del 20%, todo el mundo siente la caída en la calidad de las reseñas en las conferencias top
En algunas áreas sí existe colusión entre revisores, y en algunos casos hasta con participación de AC
Ahora ya nadie revisa artículos con esmero solo porque sea ‘lo correcto en principio’
Hay tantos artículos solo para hacer carrera que los revisores les prestan menos atención
Según el análisis de Pangram, 21% de las reseñas de ICLR son completamente generadas por IA, y más de la mitad contienen rastros de IA
Pero queda la duda de qué significa exactamente la “evidencia” y cómo se puede demostrar que algo fue generado por IA
Estas herramientas sirven para ese propósito
Casi siempre siento que están hechas con IA, pero como no puedo probarlo, no puedo tomar ninguna medida
Sin información adicional como metadatos, ni siquiera tiene mucho sentido decidir si lo escribió o no un LLM
El titular podría ser cierto, pero la confiabilidad de los detectores de IA sigue siendo baja
No hay evidencia de que la herramienta de Pangram se haya sacudido esa mala fama
Lo explicamos en detalle en esta entrada de blog
De 10,202 reseñas de ICLR 2022, 10,190 fueron escritas por humanos y solo 12 tenían rastros de edición por IA
No se puede condenar a individuos, pero casi seguro que muchas reseñas se dejaron en manos de la IA
Al ver el titular del artículo, “21% de las reseñas fueron generadas por IA”, más bien me dio la impresión de que es menos de lo que esperaba
Como la situación de ‘los agujeros del queso suizo alineados’ en investigación de accidentes, es el resultado acumulado de la dejadez en el trabajo
Al principio me sorprendió, pero 21% en realidad es una cifra sorprendentemente baja
Además, como este dato viene de una empresa que vende detectores de IA, también existe la posibilidad de falsos positivos
El punto clave no es si la reseña fue escrita por IA, sino la precisión de la reseña
La conferencia se presenta como ‘revisión por pares’, y por muy buena que sea una IA, no es un par
Parece que Pangram buscó clickbait provocando enojo con el tema de la detección de IA
Al final, las primeras víctimas del monstruo creado por la IA son justamente trabajadores del conocimiento como los programadores, investigadores y universidades que la crearon
Esta conferencia ya había sido antes el lugar donde, por un bug de OpenReview, se expuso temporalmente la identidad de todos los revisores
Según este artículo relacionado, después se reiniciaron las puntuaciones y nuevos AC volvieron a tomar las decisiones
En adelante, quizá sería mejor ofrecer reseñas con IA por defecto para todos los artículos, y que los revisores humanos complementen ese resultado
Así los revisores tendrían que examinar el resultado de la IA, y los autores también recibirían retroalimentación predecible
Claro, los revisores humanos podrían volver a usar IA también, pero lo mismo valdría para los autores