Artículos falsos en Google Scholar generados con GPT: características clave, propagación e implicaciones para prevenir la manipulación de evidencia

(misinforeview.hks.harvard.edu)

7 puntos por GN⁺ 2024-09-09 | 2 comentarios | Compartir por WhatsApp

En Google Scholar se pueden encontrar fácilmente numerosos artículos sospechosos que parecen haber sido generados con modelos GPT de uso general
Estos artículos se crean principalmente con aplicaciones de IA de propósito general ampliamente usadas, en especial ChatGPT, e imitan la escritura científica
Google Scholar muestra estos artículos sospechosos junto con trabajos de investigación reputados y con control de calidad
El análisis de una muestra de artículos científicos sospechosos generados con GPT encontrados en Google Scholar mostró que muchos tratan sobre áreas de aplicación vulnerables a la desinformación digital, como medio ambiente, salud y computación
La creciente posibilidad de manipulación maliciosa de evidencia en áreas políticamente conflictivas es un problema cada vez más preocupante

Hallazgos

Hallazgo 1: 139 artículos sospechosos generados con GPT aparecen en los resultados de búsqueda de Google Scholar como si fueran artículos normales. Muchos están en revistas no indexadas

La mayoría de los artículos sospechosos estaban en revistas no indexadas o eran working papers, pero algunos también se encontraron en revistas, publicaciones, conferencias y repositorios reconocidos
Se encontraron en total 139 artículos sospechosos de haber usado de forma engañosa ChatGPT o aplicaciones LLM similares
De ellos, 19 estaban en revistas indexadas, 89 en revistas no indexadas, 19 eran trabajos estudiantiles en bases de datos universitarias y 12 eran working papers (en su mayoría en bases de datos de preprints)
Los artículos sobre medio ambiente y salud representan alrededor del 34% de la muestra, y de ellos el 66% se publicó en revistas no indexadas

Hallazgo 2: Los artículos sospechosos generados con GPT se distribuyen en línea y están dispersos por toda la infraestructura de comunicación académica, a menudo en múltiples copias. Predominan las áreas de aplicación con implicaciones prácticas

Se encontraron 27 artículos sobre temas ambientales en 56 URL de 26 dominios únicos
Se encontraron 20 artículos sobre temas de salud en 46 URL de 20 dominios únicos
La mayoría de los artículos identificados existen en múltiples copias y ya se han propagado a varios archivos, repositorios y redes sociales
Será difícil o imposible eliminarlos del registro académico

Hallazgo 3: Google Scholar presenta en la misma interfaz resultados de bases de datos de citas con control de calidad y de otras que no lo tienen, por lo que el acceso a artículos sospechosos generados con GPT queda sin restricciones

La posición central de Google Scholar en la infraestructura de comunicación académica de acceso público, junto con la falta de estándares, transparencia y rendición de cuentas en sus criterios de inclusión, puede afectar gravemente la confianza pública en la ciencia
Esto aumenta el potencial de que Google Scholar sea explotado para manipular evidencia y afectará cualquier intento de retractar o eliminar artículos falsos desde sus fuentes originales
Cualquier solución deberá considerar toda la infraestructura de comunicación académica y la interacción entre distintos actores, intereses y motivaciones

Opinión de GN⁺

Esta situación es preocupante por las siguientes razones:

Los artículos generados con GPT podrían saturar el sistema de comunicación académica y amenazar la integridad del registro científico. Esto agravaría aún más el problema existente de las paper mills.
Contenido creado con IA que parece científicamente convincente podría haber sido generado de forma engañosa. Esto debilita la confianza pública en el conocimiento científico y puede causar graves riesgos sociales.
Los criterios de inclusión de Google Scholar son opacos y carecen de rendición de cuentas. Esto se relaciona con el problema de presentar sin distinción, en los resultados de búsqueda, bases de datos de citas que cumplen estándares y otras que no.
Como los artículos falsos se propagan por diversas plataformas, incluso si se retracta el original es difícil rastrearlos y eliminarlos. Esto puede tener efectos negativos duraderos en el área de investigación correspondiente.
Se detectan muchos artículos generados con GPT en temas socialmente sensibles e importantes, como salud y medio ambiente. Esto puede provocar una confusión grave en la toma de decisiones de políticas públicas y presta el tema a un uso político malicioso.

Para responder a este problema, es necesario considerar al mismo tiempo enfoques técnicos, educativos e institucionales. Por ejemplo:

Ofrecer en los motores de búsqueda académicos opciones de filtrado por revisión por pares u otros criterios similares
Integrar herramientas de evaluación en la interfaz y los crawlers de los motores de búsqueda académicos
Construir motores de búsqueda académicos gratuitos operados por interés público y no por razones comerciales
Impulsar iniciativas educativas dirigidas a responsables de políticas públicas, comunicadores científicos y periodistas

En el fondo, este problema debe abordarse dentro de un contexto más amplio: los problemas del sistema de publicación académica, la cultura de "publish or perish", el monopolio de Google y los conflictos ideológicos en torno al control de la información. Una solución puramente técnica no será suficiente.

2 comentarios

xguru 2024-09-09

alphaXiv - debatir públicamente sobre artículos de arXiv

Al ver esta plataforma y este artículo juntos, da la sensación de que hay alguna conexión

GN⁺ 2024-09-09

Opiniones en Hacker News

En la reunión de marzo de la APS, a los editores de revistas científicas les preocupan más las reseñas generadas por LLM que los artículos generados por LLM
- Los LLM son más capaces de resumir contenido que de realizar razonamientos lógicos largos
- Las reseñas no se publican, así que generan menos vergüenza
El script de Python de los autores podría tener errores
- Si la clave bib no está en la respuesta de la API, podría haber una discrepancia en las columnas del dataframe
- Se podrían usar arreglos de banderas para eliminar resultados defectuosos, pero no se usan en el código
GPT puede facilitar la manipulación de artículos científicos, pero los humanos ya lo han hecho bastante bien sin IA
- Se comparte un enlace a un video interesante relacionado
Ojalá que en los artículos sobre LLM el método de recolección de datos fuera más sofisticado
- El uso de LLM tiene un impacto en la ciencia y la sociedad que va mucho más allá de la corrección de textos
- El alcance de la corrección varía según la persona
Los expertos en el campo relacionado pueden distinguir fácilmente los resultados falsos
- El contenido sin novedad es difícil de distinguir
- Los problemas de honestidad de los investigadores existen desde antes de la IA
- Para los no especialistas es difícil distinguir si la información es verdadera o falsa
En una discusión anterior, los artículos en los que se sospechaba uso de GPT en realidad fueron escritos antes de OpenAI
ChatGPT no entiende la verdad
- Al usar ChatGPT en un proyecto de investigación relacionado con data lakes, abundan los enlaces falsos y los resúmenes de material de marketing
Se valora que la imagen del artículo no haya sido generada por IA
Es posible que los artículos generados por GPT hayan sido escritos por personas cuya lengua materna no es el inglés para mejorar su inglés
Parece que estamos entrando en una era oscura