Las principales conferencias de IA se ven desbordadas de revisiones escritas por IA

(nature.com)

3 puntos por GN⁺ 2025-12-01 | 2 comentarios | Compartir por WhatsApp

Se confirmó que el 21% de las reseñas de artículos de la conferencia internacional de Machine Learning ICLR 2026 fue redactado en su totalidad por inteligencia artificial
La herramienta de detección de Pangram Labs analizó 75,800 reseñas y encontró huellas de uso de IA en más de la mitad
Algunos investigadores señalaron la posibilidad de que se tratara de texto generado por IA tras recibir comentarios inusualmente largos o imprecisos
El comité organizador indicó que revisará con herramientas automatizadas si hubo una violación de la política de uso de IA y que está llevando a cabo un proceso de recuperación de la confianza
Este episodio muestra un caso que evidencia la urgencia de garantizar la transparencia y la confiabilidad del proceso de revisión académica

Lo que reveló el uso de IA en la revisión de artículos de ICLR 2026

Se identificó que aproximadamente el 21% de las revisiones de artículos de ICLR 2026 fue redactado por completo con IA, y que más de la mitad estaba influenciada por IA
- El análisis lo realizó Pangram Labs, con un total de 19,490 artículos y 75,800 reseñas
- Pangram divulgó los resultados usando una herramienta de detección de texto generado por IA
La conferencia anunció que revisará con herramientas automatizadas si hubo un incumplimiento de su política de uso de IA
- El responsable del programa de ICLR 2026 señaló que esta fue la primera gran ola de problemas de revisión asistida por IA que se detecta

Reclamaciones de investigadores y proceso de investigación

Varios investigadores compartieron en redes sociales reseñas sospechosas de haber sido escritas por IA
- Algunas reseñas incluyen “citas alucinadas” o comentarios vagos y extensos
Graham Neubig, de la Carnegie Mellon University, solicitó verificar si ciertas reseñas anómalas habían sido generadas por IA
- Publicó un aviso de recompensa en X (ex Twitter), y Max Spero de Pangram Labs respondió iniciando una auditoría completa
- Pangram explicó que escribió el código para analizar el texto de todas las presentaciones en solo 12 horas

Resultados del análisis de Pangram Labs

La herramienta de Pangram opera prediciendo texto generado o editado por un LLM (modelo de lenguaje grande)
- El análisis detectó 15,899 reseñas completamente generadas por IA y calificó 199 artículos (1%) como completamente redactados por IA
- 61% de los artículos fueron redactados por humanos y 9% incluyen más de la mitad del texto generado por IA
Pangram envió su propio modelo como preprint a ICLR 2026, y parte de la revisión de ese trabajo también fue clasificada como generada por IA

Reacción de los investigadores

Desmond Elliott de la Universidad de Copenhague señaló que una de las revisiones de un artículo que sometió interpretó mal el argumento central del trabajo y mencionó cifras incorrectas
- Su estudiante doctoral supuso que esa reseña parecía haber sido escrita por un LLM
- El análisis de Pangram confirmó que esa reseña era, de hecho, completamente generada por IA
- Esa revisión otorgó la nota de calificación más baja, dejando el artículo justo en el límite de aceptación

Respuesta de la conferencia y próximos retos

La conferencia anunció la implementación de una herramienta automatizada de detección de uso de IA con el objetivo de recuperar la confiabilidad de la revisión
El responsable del programa dijo que este proceso mostró la necesidad de redefinir el concepto de confianza
Este caso se presenta como un ejemplo de que la IA se ha infiltrado profundamente en el proceso de revisión académica, y la principal tarea en la agenda es asegurar la transparencia en la evaluación de la investigación

2 comentarios

yuntae 2025-12-01

Parece que hay muchos casos de reseñas interesantes
https://reddit.com/r/MachineLearning/…

GN⁺ 2025-12-01

Opinión en Hacker News

Creo que la dependencia de la IA en la escritura está aumentando, pero la metodología usada en este artículo parece más bien promoción de Pangram
La mayoría de los detectores de IA no son confiables y hasta pueden perjudicar a personas que nunca han usado un LLM
Se puede ver una discusión relacionada en este enlace
- Soy cofundador de Pangram. Hemos logrado avances reales en esta área
  Si estás pensando en detectores anticuados como GPTZero, entonces no has visto las mejoras recientes en rendimiento
  Según un artículo de economistas de la U. de Chicago, registramos 0 falsos positivos en 1,992 documentos escritos por humanos y más de 99% de tasa de detección en documentos de IA
- Los detectores de IA solo son dañinos cuando se usan para castigar a personas
  Usarlos para análisis estadístico, como en este estudio, no tiene problema
  De hecho, casi no hay artículos escritos con IA, y es natural que se haya usado mucho más en las reseñas
- Algunas personas desconfían de los LLM, pero si un estudio confirma sus prejuicios, entonces usan LLM con gusto
  Ese doble rasero es interesante
Sea exacta o no la cifra del 20%, todo el mundo siente la caída en la calidad de las reseñas en las conferencias top
En algunas áreas sí existe colusión entre revisores, y en algunos casos hasta con participación de AC
Ahora ya nadie revisa artículos con esmero solo porque sea ‘lo correcto en principio’
- Antes, aunque no hubiera incentivos explícitos, la gente revisaba con conciencia, pero esa cultura desapareció por completo
- En una situación donde a investigadores de IA los reclutan con sueldos enormes, es natural que el sistema se distorsione
- Esto también puede verse como una especie de ajuste de mercado
  Hay tantos artículos solo para hacer carrera que los revisores les prestan menos atención
Según el análisis de Pangram, 21% de las reseñas de ICLR son completamente generadas por IA, y más de la mitad contienen rastros de IA
Pero queda la duda de qué significa exactamente la “evidencia” y cómo se puede demostrar que algo fue generado por IA
- La expresión “evidencia” fue inapropiada. Pero el análisis estadístico sí puede ser objetivo
  Estas herramientas sirven para ese propósito
- De hecho, escribieron un artículo explicando su metodología
- Tal vez el detector de IA en sí también sea IA
- A mí me pasa algo parecido al calificar tareas de estudiantes
  Casi siempre siento que están hechas con IA, pero como no puedo probarlo, no puedo tomar ninguna medida
- En realidad, es imposible distinguirlo solo por el texto
  Sin información adicional como metadatos, ni siquiera tiene mucho sentido decidir si lo escribió o no un LLM
El titular podría ser cierto, pero la confiabilidad de los detectores de IA sigue siendo baja
No hay evidencia de que la herramienta de Pangram se haya sacudido esa mala fama
- Hablando como cofundador de Pangram, nuestra tasa de falsos positivos es de una en diez mil
  Lo explicamos en detalle en esta entrada de blog
  De 10,202 reseñas de ICLR 2022, 10,190 fueron escritas por humanos y solo 12 tenían rastros de edición por IA
- Los artículos académicos de por sí siguen un estilo muy formularizado, así que es difícil distinguir si hay IA o no
- Si en artículos es 1% pero en reseñas 20%, probablemente sea porque los revisores dependen más de la IA
  No se puede condenar a individuos, pero casi seguro que muchas reseñas se dejaron en manos de la IA
Al ver el titular del artículo, “21% de las reseñas fueron generadas por IA”, más bien me dio la impresión de que es menos de lo que esperaba
- Si 21% fue completamente generado por IA, entonces eso ya es mala conducta evidente
  Como la situación de ‘los agujeros del queso suizo alineados’ en investigación de accidentes, es el resultado acumulado de la dejadez en el trabajo
Al principio me sorprendió, pero 21% en realidad es una cifra sorprendentemente baja
Además, como este dato viene de una empresa que vende detectores de IA, también existe la posibilidad de falsos positivos
El punto clave no es si la reseña fue escrita por IA, sino la precisión de la reseña
- No, ese no es el punto
  La conferencia se presenta como ‘revisión por pares’, y por muy buena que sea una IA, no es un par
- Si la investigación de verdad es útil y correcta, eso importa más
  Parece que Pangram buscó clickbait provocando enojo con el tema de la detección de IA
- La realidad es esta
  1. un científico hace una investigación cargada de sesgos
  2. el revisor genera con IA una reseña que parece plausible
  3. al final se produce un ciclo extraño en el que el propio investigador tiene que volver a revisar la reseña por su cuenta
Al final, las primeras víctimas del monstruo creado por la IA son justamente trabajadores del conocimiento como los programadores, investigadores y universidades que la crearon
Esta conferencia ya había sido antes el lugar donde, por un bug de OpenReview, se expuso temporalmente la identidad de todos los revisores
Según este artículo relacionado, después se reiniciaron las puntuaciones y nuevos AC volvieron a tomar las decisiones
En adelante, quizá sería mejor ofrecer reseñas con IA por defecto para todos los artículos, y que los revisores humanos complementen ese resultado
Así los revisores tendrían que examinar el resultado de la IA, y los autores también recibirían retroalimentación predecible
Claro, los revisores humanos podrían volver a usar IA también, pero lo mismo valdría para los autores