- Recientemente, herramientas de IA están encontrando errores de cálculo, metodología y referencias bibliográficas en artículos de investigación
- El año pasado se informó sobre un estudio que concluía que utensilios de cocina de plástico negro contenían sustancias químicas cancerígenas
- Sin embargo, se descubrió que, debido a un error matemático en la investigación, la concentración real de esas sustancias era 10 veces menor que el límite de seguridad
- Un modelo de inteligencia artificial (IA) pudo detectar ese error en cuestión de segundos
Proyecto de detección de errores en artículos científicos basado en IA
Black Spatula Project
- Herramienta de IA de código abierto que analiza cerca de 500 artículos para detectar errores
- El proyecto está coordinado por Joaquin Gulloso, investigador independiente de IA en Colombia, con la participación de 8 desarrolladores y cientos de asesores
- La lista de errores no se ha hecho pública; cuando se detecta uno, se contacta directamente a los investigadores para impulsar su corrección
YesNoError
- Proyecto que comenzó inspirado en Black Spatula Project
- Liderado por su fundador y emprendedor de IA Matt Schlicht
- Opera con financiamiento mediante una criptomoneda propia
- Hasta ahora ha analizado alrededor de 37,000 artículos en solo dos meses
- Los artículos en los que se detectan errores aparecen marcados en el sitio web, pero la mayoría aún no ha sido verificada por expertos
- A largo plazo, planea colaborar con ResearchHub (que recompensa con criptomonedas a investigadores con doctorado) para validar los errores
Impulso al uso de herramientas de IA por parte de investigadores y revistas
- Se busca que los investigadores usen herramientas de IA antes de enviar sus artículos y que las revistas las utilicen antes de publicarlos para detectar errores con anticipación
- Se espera fortalecer la confiabilidad científica al prevenir errores y mala conducta en la investigación
Reacciones y preocupaciones en la academia
- Los especialistas en integridad de la investigación han reaccionado con un optimismo cauteloso frente a estos proyectos
- La investigadora Michèle Nuijten, de la Universidad de Tilburg, planteó la siguiente preocupación:
- Si la precisión de las herramientas de IA no se valida claramente, existe el riesgo de dañar reputaciones si señalan errores de forma incorrecta
- El metacientífico forense James Heathers, de la Universidad Linnaeus, expresó su apoyo con estas palabras:
- "Es mucho más fácil escribir un artículo deficiente que retractarlo"
- La IA puede ser útil para filtrar artículos y promover revisiones adicionales
Cómo funcionan las herramientas de IA
- Usan modelos de lenguaje grandes (LLM) para detectar errores en los artículos
- Extraen información de tablas, imágenes y otros elementos del artículo, y luego generan instrucciones complejas (prompts)
- El modelo de IA analiza el artículo varias veces para buscar distintos tipos de errores y contrastar los resultados
- Costo de análisis por artículo: entre 15 centavos y varios dólares, según la longitud del texto y la complejidad del prompt
El problema de los falsos positivos
- Black Spatula Project → presenta alrededor de un 10% de falsos positivos
- Todos los errores requieren verificación experta → la falta de especialistas es el mayor cuello de botella
- YesNoError → tras verificar 100 errores matemáticos en 10,000 artículos, se confirmó que más del 90% eran errores reales
- YesNoError está trabajando para reducir la tasa de falsos positivos y sigue incorporando retroalimentación de la comunidad académica
Críticas sobre el problema de los falsos positivos
- El investigador Nick Brown, de la Universidad Linnaeus:
- Encontró falsos positivos en 14 de 40 artículos analizados por YesNoError, en su mayoría relacionados con problemas de redacción
- Errores menores podrían generar una carga innecesaria para la academia
- "A menos que la tecnología mejore de forma drástica, hará falta mucho trabajo sin un beneficio evidente"
Próximos retos y expectativas para estas herramientas de IA
- YesNoError planea introducir un sistema en el que los poseedores de su criptomoneda decidan qué artículos revisar primero
- Existe la posibilidad de que se apunte a artículos sobre temas políticamente sensibles, como la ciencia climática
- El investigador Brown afirmó: "Si las herramientas de IA realmente demuestran ser efectivas, podría producirse un gran cambio en ciertos campos de investigación"
5 comentarios
Se filtrarán los artículos de baja calidad, pero por otro lado me preocupa que, al subir la vara también para los buenos artículos, terminen volviéndose relativamente menos creativos. Incluso cuando hay vacíos lógicos, a veces de ahí surgen ideas nuevas, así que en lo personal no me parece algo particularmente bienvenido.
La IA también podría equivocarse, así que me da curiosidad cómo verificarán que lo que señaló la IA no esté equivocado.
Con la popularización de los LLM, están ocurriendo cambios enormes en áreas donde la demanda se debía en gran parte a la asimetría de la información.
Me pregunto qué pasaría si los ponemos a analizar todo tipo de escrituras sagradas de la humanidad jaja
Comentarios de Hacker News
Si la IA puede detectar errores evidentes en artículos ya publicados, podría usarse como parte del proceso de revisión. Los autores podrían aplicarla a su propio trabajo antes de enviarlo, lo que podría elevar mucho la calidad de los artículos
Actualmente, el sitio web YesNoError incluye muchos falsos positivos. Nick Brown, investigador de Linnaeus University, señaló que 14 de 40 artículos problemáticos eran falsos positivos
Como hoy lo lidera la IA, la gente podría pensar que está revisando fraude o lógica defectuosa. En realidad, revisa autoconsistencia y consistencia con sus datos de entrenamiento
Se propone la idea de usar IA para mapear el impacto de artículos retractados. Podría identificar conclusiones de artículos retractados que ya no están respaldadas y verificar dónde aparecen en artículos posteriores
¿Nuestra memoria colectiva es demasiado corta? ¿Ya olvidamos los problemas causados por reportes de bugs generados por IA?
Se presentan dos ejemplos del proyecto Black Spatula en los que se detectaron errores importantes
La idea es buena, y me gustaría aplicarla a los informes de mi propia empresa para detectar errores evidentes antes de enviárselos a mi jefe
YesNoError planea permitir que los poseedores de criptomonedas decidan qué artículos se revisarán primero
Esta idea es muy mala. Hay que saltarse la primera sección y leer la sección de "falsos positivos"
Soy muy escéptico sobre el valor de esto. Ya se ha perdido tiempo respondiendo a afirmaciones sin fundamento hechas por "revisiones" de IA. Puede que este tipo de afirmaciones ya existiera antes, pero los generadores de texto saben alucinar con la terminología correcta para convencer a la gente común y a los aficionados, y eso las vuelve más molestas de manejar