Las herramientas de IA están detectando errores en artículos de investigación

(nature.com)

14 puntos por GN⁺ 2025-03-09 | 5 comentarios | Compartir por WhatsApp

Recientemente, herramientas de IA están encontrando errores de cálculo, metodología y referencias bibliográficas en artículos de investigación
El año pasado se informó sobre un estudio que concluía que utensilios de cocina de plástico negro contenían sustancias químicas cancerígenas
- Sin embargo, se descubrió que, debido a un error matemático en la investigación, la concentración real de esas sustancias era 10 veces menor que el límite de seguridad
- Un modelo de inteligencia artificial (IA) pudo detectar ese error en cuestión de segundos

Proyecto de detección de errores en artículos científicos basado en IA

Black Spatula Project

Herramienta de IA de código abierto que analiza cerca de 500 artículos para detectar errores
El proyecto está coordinado por Joaquin Gulloso, investigador independiente de IA en Colombia, con la participación de 8 desarrolladores y cientos de asesores
La lista de errores no se ha hecho pública; cuando se detecta uno, se contacta directamente a los investigadores para impulsar su corrección

YesNoError

Proyecto que comenzó inspirado en Black Spatula Project
Liderado por su fundador y emprendedor de IA Matt Schlicht
Opera con financiamiento mediante una criptomoneda propia
Hasta ahora ha analizado alrededor de 37,000 artículos en solo dos meses
Los artículos en los que se detectan errores aparecen marcados en el sitio web, pero la mayoría aún no ha sido verificada por expertos
A largo plazo, planea colaborar con ResearchHub (que recompensa con criptomonedas a investigadores con doctorado) para validar los errores

Impulso al uso de herramientas de IA por parte de investigadores y revistas

Se busca que los investigadores usen herramientas de IA antes de enviar sus artículos y que las revistas las utilicen antes de publicarlos para detectar errores con anticipación
Se espera fortalecer la confiabilidad científica al prevenir errores y mala conducta en la investigación

Reacciones y preocupaciones en la academia

Los especialistas en integridad de la investigación han reaccionado con un optimismo cauteloso frente a estos proyectos
La investigadora Michèle Nuijten, de la Universidad de Tilburg, planteó la siguiente preocupación:
- Si la precisión de las herramientas de IA no se valida claramente, existe el riesgo de dañar reputaciones si señalan errores de forma incorrecta
El metacientífico forense James Heathers, de la Universidad Linnaeus, expresó su apoyo con estas palabras:
- "Es mucho más fácil escribir un artículo deficiente que retractarlo"
- La IA puede ser útil para filtrar artículos y promover revisiones adicionales

Cómo funcionan las herramientas de IA

Usan modelos de lenguaje grandes (LLM) para detectar errores en los artículos
- Extraen información de tablas, imágenes y otros elementos del artículo, y luego generan instrucciones complejas (prompts)
- El modelo de IA analiza el artículo varias veces para buscar distintos tipos de errores y contrastar los resultados
- Costo de análisis por artículo: entre 15 centavos y varios dólares, según la longitud del texto y la complejidad del prompt

El problema de los falsos positivos

Black Spatula Project → presenta alrededor de un 10% de falsos positivos
- Todos los errores requieren verificación experta → la falta de especialistas es el mayor cuello de botella
YesNoError → tras verificar 100 errores matemáticos en 10,000 artículos, se confirmó que más del 90% eran errores reales
- YesNoError está trabajando para reducir la tasa de falsos positivos y sigue incorporando retroalimentación de la comunidad académica

Críticas sobre el problema de los falsos positivos

El investigador Nick Brown, de la Universidad Linnaeus:
- Encontró falsos positivos en 14 de 40 artículos analizados por YesNoError, en su mayoría relacionados con problemas de redacción
- Errores menores podrían generar una carga innecesaria para la academia
- "A menos que la tecnología mejore de forma drástica, hará falta mucho trabajo sin un beneficio evidente"

Próximos retos y expectativas para estas herramientas de IA

YesNoError planea introducir un sistema en el que los poseedores de su criptomoneda decidan qué artículos revisar primero
- Existe la posibilidad de que se apunte a artículos sobre temas políticamente sensibles, como la ciencia climática
El investigador Brown afirmó: "Si las herramientas de IA realmente demuestran ser efectivas, podría producirse un gran cambio en ciertos campos de investigación"

5 comentarios

dbs0829 2025-03-10

Se filtrarán los artículos de baja calidad, pero por otro lado me preocupa que, al subir la vara también para los buenos artículos, terminen volviéndose relativamente menos creativos. Incluso cuando hay vacíos lógicos, a veces de ahí surgen ideas nuevas, así que en lo personal no me parece algo particularmente bienvenido.

mcdasa 2025-03-09

La IA también podría equivocarse, así que me da curiosidad cómo verificarán que lo que señaló la IA no esté equivocado.

ndrgrd 2025-03-09

Con la popularización de los LLM, están ocurriendo cambios enormes en áreas donde la demanda se debía en gran parte a la asimetría de la información.

bus710 2025-03-09

Me pregunto qué pasaría si los ponemos a analizar todo tipo de escrituras sagradas de la humanidad jaja

GN⁺ 2025-03-09

Comentarios de Hacker News

Si la IA puede detectar errores evidentes en artículos ya publicados, podría usarse como parte del proceso de revisión. Los autores podrían aplicarla a su propio trabajo antes de enviarlo, lo que podría elevar mucho la calidad de los artículos
- Lo importante es que los expertos, es decir, los autores y los revisores pares, participen en este proceso. Ellos pueden descartar con facilidad los falsos positivos, pero aun así recibir alertas sobre errores estadísticos o sobre partes fuera de su área de especialidad
Actualmente, el sitio web YesNoError incluye muchos falsos positivos. Nick Brown, investigador de Linnaeus University, señaló que 14 de 40 artículos problemáticos eran falsos positivos
- La mayoría de los problemas parecen ser de redacción, y muchas detecciones serían incorrectas
- Advierte que, a menos que esta tecnología mejore de forma significativa, generará mucho trabajo sin un beneficio claro
Como hoy lo lidera la IA, la gente podría pensar que está revisando fraude o lógica defectuosa. En realidad, revisa autoconsistencia y consistencia con sus datos de entrenamiento
- Puede servir para detectar errores tipográficos, expresiones engañosas y para hacer validación cruzada de hechos y diagramas, pero no aportará mucho frente a datos fabricados o conclusiones plausibles pero incorrectas
Se propone la idea de usar IA para mapear el impacto de artículos retractados. Podría identificar conclusiones de artículos retractados que ya no están respaldadas y verificar dónde aparecen en artículos posteriores
¿Nuestra memoria colectiva es demasiado corta? ¿Ya olvidamos los problemas causados por reportes de bugs generados por IA?
Se presentan dos ejemplos del proyecto Black Spatula en los que se detectaron errores importantes
- No hizo falta un pipeline complejo de múltiples agentes; con un solo prompt se pudieron detectar esos errores
La idea es buena, y me gustaría aplicarla a los informes de mi propia empresa para detectar errores evidentes antes de enviárselos a mi jefe
- Sin embargo, se destacan dos enfoques. Uno es un enfoque pequeño, en el que primero no se publica y se contacta en privado a los autores. El otro publica primero, no tiene revisión humana y cuenta con su propia criptomoneda
YesNoError planea permitir que los poseedores de criptomonedas decidan qué artículos se revisarán primero
Esta idea es muy mala. Hay que saltarse la primera sección y leer la sección de "falsos positivos"
Soy muy escéptico sobre el valor de esto. Ya se ha perdido tiempo respondiendo a afirmaciones sin fundamento hechas por "revisiones" de IA. Puede que este tipo de afirmaciones ya existiera antes, pero los generadores de texto saben alucinar con la terminología correcta para convencer a la gente común y a los aficionados, y eso las vuelve más molestas de manejar