3 puntos por GN⁺ 2025-06-04 | 1 comentarios | Compartir por WhatsApp
  • Los artículos sobre predicción de función enzimática usando modelos de deep learning reciben gran atención y muchas citas, mientras que los artículos que señalan errores mediante verificación de hechos casi no reciben interés
  • Un estudio publicado en Nature Communications entrenó un modelo basado en Transformer con 22 millones de datos de enzimas y predijo 450 funciones enzimáticas no confirmadas
  • Sin embargo, un artículo posterior reveló cientos de predicciones erróneas, duplicación de datos y conclusiones biológicamente imposibles
  • Sin un análisis profundo por parte de expertos, es difícil evaluar la confiabilidad de los resultados de IA, y aumenta el riesgo de que los datos erróneos sigan propagándose
  • Se vuelve a poner en primer plano la importancia de la verificación básica de datos y la integración del conocimiento del dominio por encima de los modelos de IA llamativos

Deep learning gets the glory, deep fact checking gets ignored

  • Un artículo sobre predicción de función enzimática basada en deep learning entrenó un modelo Transformer con 22 millones de datos de enzimas, predijo 450 funciones enzimáticas no confirmadas, fue publicado en Nature Communications y recibió gran atención
  • Pero un artículo posterior encontró cientos de predicciones erróneas, duplicaciones con bases de datos existentes, resultados biológicamente imposibles y muchos errores repetitivos
  • Por ejemplo, la IA predijo incorrectamente la función de un gen específico de E. coli, aunque estudios previos ya habían demostrado que no tenía esa función
  • El artículo que reveló estos errores se publicó en bioRxiv, pero tuvo pocas visualizaciones y citas, lo que deja en evidencia problemas en la estructura de incentivos de publicación
  • Los expertos subrayan la necesidad de validación de datos y especialización en el dominio por encima del modelado con IA, y advierten sobre el riesgo de que la información errónea vuelva a difundirse a través de bases de datos

The Problem of Determining Enzyme Function

  • Las enzimas cumplen un papel clave al catalizar reacciones importantes en los seres vivos, y sus distintas funciones se clasifican mediante los números de la Enzyme Commission (EC)
  • La tarea de predecir números EC a partir de secuencias de aminoácidos se considera adecuada para machine learning, porque la entrada y la salida están claramente definidas
  • La base de datos UniProt contiene más de 22 millones de enzimas junto con sus números EC, por lo que hay abundantes datos de entrenamiento

An Approach with Transformers (AI model)

  • El equipo de investigación usó un modelo compuesto por Transformer, capas convolucionales y capas lineales para predecir la función de enzimas no confirmadas
  • Un punto llamativo es que, para la interpretabilidad del modelo, analizaron si las high attention regions tenían significado biológico
  • Afirmaron haber demostrado la precisión validando experimentalmente in vitro solo 3 de las 450 enzimas no confirmadas

The Errors

  • De los 450 resultados “nuevos” presentados en el artículo de Nature, 135 ya existían en bases de datos previas
  • 148 resultados mostraban una repetición muy alta, con casos donde la misma función enzimática era predicha varias veces, además de muchos errores biológicamente imposibles
  • También se detectaron numerosos casos en los que se predijeron incorrectamente enzimas para sintetizar sustancias que E. coli no produce, o resultados que contradecían experimentos previos
  • También se planteó la posibilidad de data leakage, y los errores aparecían con frecuencia en predicciones sobre áreas sin ground truth real

The Microbiology Detective

  • En el artículo posterior, la Dr. de Crécy-Lagard confirmó que una de las enzimas predichas en el artículo de Nature, yciO, contradecía de forma clara investigaciones anteriores
  • Aunque yciO y TsaC están relacionadas evolutivamente, experimentos reales mostraron repetidamente que yciO no puede sustituir la función de TsaC
  • Esto dejó en evidencia la limitación algorítmica de asumir que una similitud estructural simple implica la misma función
  • Para determinar la función enzimática es necesario considerar de forma integral el contexto genético circundante, la unión al sustrato, las rutas metabólicas y otras evidencias

Hundreds of Likely Erroneous Results

  • El equipo del artículo posterior confirmó que, de las 450 predicciones del artículo de Nature, 135 ya estaban registradas en bases de datos
  • Otras 148 se analizaron como problemas causados por predicciones repetidas de la misma función, sesgo en los datos, falta de características y límites de la arquitectura
  • En varios resultados se demostró el error mediante el contexto biológico o la revisión de la literatura existente

Rethinking Enzyme Classification and “True Unknowns”

  • En la predicción de función enzimática se mezclan dos tareas: la propagación de funciones conocidas y el descubrimiento de funciones verdaderamente desconocidas
  • El supervised ML tiene limitaciones intrínsecas para predecir funciones realmente desconocidas
  • Cuando predicciones erróneas se incorporan a bases de datos como UniProt y luego se usan otra vez para entrenar modelos, se genera un ciclo de errores

Need for Domain Expertise

  • A diferencia de la investigación en IA, la validación de datos y el análisis profundo por expertos del dominio tienen pocos incentivos, por lo que reciben menos atención de los investigadores
  • De hecho, el artículo muestra que una de las causas del fracaso de proyectos de IA de alto riesgo es la aplicación insuficiente de conocimiento del dominio
  • La mayoría de los artículos sobre deep learning no pasan por una validación minuciosa por parte de expertos del dominio, y trabajos que parecen impresionantes a simple vista pueden en realidad contener muchos errores

Conclusión y propuestas

  • Se enfatiza la importancia de la validación fundamental de datos y la integración del conocimiento del dominio por encima del desarrollo de modelos de IA llamativos
  • Se sostiene que los incentivos y el apoyo a la investigación deberían concentrarse más en estudios de validación sustantiva
  • Esto sugiere que la verificación de errores y la mejora de la calidad de los datos pueden contribuir más al avance de la IA en el largo plazo

1 comentarios

 
GN⁺ 2025-06-04
Opiniones de Hacker News
  • Creo que a menudo se olvida la posibilidad de fuga de datos. Hay que asumir siempre que sí existe hasta que haya evidencia sólida de lo contrario, y la carga de demostrar que no hubo fuga recae en los autores. En datasets pequeños esto es mucho más fácil que ocurra, porque al poder revisar los datos directamente también es más fácil introducir fugas. Es muy común que errores sutiles arruinen los datos. Ahora trabajamos con datasets tan enormes que ningún humano puede revisarlos completos, y todos sabemos que el filtrado es imperfecto, así que no tiene sentido creer que no hubo fuga. Se puede decir "filtramos", pero no se puede afirmar realmente que no hubo fuga. Incluso en datasets a los que sí tenemos acceso solemos encontrar problemas. No entiendo por qué, si seguimos viendo esto una y otra vez, se sigue asumiendo que los datos están bien. Tal vez sea una forma de autoengaño impulsada por expectativas excesivas. Si queremos corregir el problema, primero hay que mirar la realidad con claridad

    • Todos los sistemas tienen fallas. La verdadera cuestión es cuántas fallas estamos dispuestos a aceptar. Por ejemplo, en Medicare y Medicaid hubo un 7.66% de casos fraudulentos; en monto es enorme, pero eso no significa que el sistema haya fracasado por completo, porque el otro 93% sí funcionó. Con los modelos de IA pasa igual: si la tasa de error es del 10%, eso no implica que todo el sistema sea malo, sino que hay que discutir si ese nivel es aceptable. Ver fuente

    • Creo que el debate sobre dónde recae la carga de la prueba no funciona como guía de creencias tanto como mucha gente piensa

  • Antes de que la IA haga investigación, primero debería demostrar que puede reproducir con éxito investigaciones ya existentes. Por ejemplo, si le das a una IA un paper de deep learning y haces que lo implemente, ahí sí podrías evaluar su capacidad real. Si ni siquiera puede con esa base, no hay razón para esperar ideas nuevas

    • Al principio pensé que alguien propondría: "démosle a la IA solo la primera parte del paper y que complete el resto". Si todavía ni siquiera se puede validar algo así, entonces no creo que la IA pueda producir descubrimientos innovadores

    • OpenAI creó un benchmark relacionado con esto: enlace a paperbench

    • Haría falta un sistema de registro completamente transparente y verificable, que además garantice que el paper nunca estuvo expuesto antes al dataset. En los papers los fraudes académicos son raros, pero a veces ocurren, y los LLM pueden inventar información falsa con total naturalidad

    • Por ejemplo, se podría dar a una IA los datos estadísticos experimentales de un paper y pedirle que reconstruya los datos crudos

    • La idea no solo es bastante interesante, también podría ayudar en cierta medida con el problema de la reproducibilidad. Aun así, cualquier investigación reproducida por IA tendría que ser revisada cuidadosamente por humanos. En la práctica, los LLM ya podrían cumplir varios roles útiles, como asistir en la revisión de código de procesamiento de datos durante el peer review, ayudar a investigar literatura o servir para brainstorming de ideas

  • "Nature Communications" y "Nature" tienen estatus completamente distintos. No corresponde tratarlas como si fueran lo mismo. Además, las altmetrics no son una métrica con mucho sentido. Salvo que quieras medir el nivel de entusiasmo público, no tienen mucha relación con las citas científicas

  • Si uno mira la mayoría de los papers de deep learning, no es tan común que expertos del dominio validen los resultados con un nivel realmente minucioso. Me pregunto cuántos de esos papers que parecen impresionantes no pasarían una validación rigurosa. Pero en mi área, sí da la impresión de que los papers de IA los reviso yo mismo y también muchos otros expertos. Aun así, siento que los resultados en computación o software son más fáciles de verificar que en biología, aunque quizá solo me lo parezca porque no conozco tan bien bio

    • En biología, validar la validez misma de las etiquetas muchas veces toma años. El caso que puso el OP como ejemplo fue, justo, un caso muy afortunado en el que alguien ya había pasado años validando cierto valor predictivo de antemano. La mayoría no va a apostar 3 a 5 años de su carrera a validar predicciones aleatorias de un modelo

    • En mi campo es común que, cuando un paper usa esa técnica, la gente lo examine al detalle y publique críticas. El problema es que muchas veces personas de otras áreas no toman esas críticas en serio

  • Se necesita un subsistema de "verificación de realidad" para la IA. En el caso de los LLM, es como si emitieran constantemente el ruido de nuestro inconsciente parloteando sin parar. Nuestro cerebro, en cambio, sí tiene un filtro interno del tipo "¿lo que acabo de decir es una verdad falsable?" que bloquea las mentiras. (Aunque, en broma, no a todos les funciona igual)

    • Totalmente de acuerdo. Hace unos meses, una noche muy tarde, medio dormido, me di cuenta de que mi cerebro producía continuamente distintas frases y pensamientos. A veces sentía con mucha claridad cómo todas esas ideas pasaban por un filtro antes de convertirse en oraciones. Es una experiencia rara y muy personal, pero me hizo sentir que la IA realmente necesita un algoritmo así. Si algún día hago un doctorado, me gustaría investigarlo

    • El sistema humano de "verificación de realidad" se parece al discriminador en un GAN, pero está fuertemente influido por las emociones. Según investigaciones en psicología, los circuitos humanos que evalúan verdad o falsedad siempre empiezan por señales emocionales, y en el fondo se originan en creencias. Cuando alguien dice algo que choca fuertemente con mis creencias, primero aparece una reacción emocional y solo después entra en juego el juicio racional

  • Coincide con mi experiencia como investigador usando LLM. Me impresionó profundamente su capacidad para entender y generar texto, pero siempre me ha decepcionado verlos responder al instante en problemas abiertos mucho más difíciles. Las preguntas complejas requieren tiempo de reflexión, pero los LLM tienden a dar respuestas con total seguridad, incluso cuando están completamente equivocadas, sin esa profundidad ni ese proceso de pensamiento

  • Me pareció un gran artículo de Rachel Thomas. Es otro ejemplo que refuerza la idea de que el deep learning es, al final, una herramienta [generativa] de recuperación de información. Los datos de entrenamiento reflejan el dominio del mundo real, sí, pero en esencia son datasets con una pérdida enorme de información. Por ejemplo, los datos/etiquetas genéticos no representan perfectamente la estructura real de la biología, así que los resultados a menudo pueden ser incorrectos o absurdos. De hecho, cuando algo coincide demasiado bien, también cabe sospechar fuga de datos, especialmente por la naturaleza de las herramientas de recuperación de información por diseño (LLM). Desde la teoría de la información, las limitaciones del dataset son un riesgo desconocido compartido por todos los modelos. En conclusión, no es tanto una falla del algoritmo como un problema del dataset de entrenamiento. Nosotros operamos con gran flexibilidad dentro del dominio del lenguaje natural, y hasta un niño puede leer algo y juzgar si tiene sentido. El éxito de los LLM en NLP se debe a ese tipo de datos. En cambio, en áreas complejas donde los datos de origen no capturan fielmente la esencia del fenómeno, hay muchas más limitaciones

  • Preocupa que la desinformación también esté penetrando en la ciencia. Se señala que la realidad de las redes sociales —donde afirmaciones sensacionalistas sin fundamento reciben más atención que la investigación sólida— también empieza a verse en la ciencia. Pero no se puede poner a Twitter y a la revista Nature al mismo nivel, y existía la confianza en que las revistas prestigiosas y el sistema de revisión por pares funcionaban como la "última línea de defensa" contra esto. Entonces surge la duda de si lo ocurrido esta vez sí constituye un fracaso de Nature

    • Hay que recordar que existen estadísticas según las cuales, cuanto mayor es el impacto de una revista, mayor también es la proporción de papers retractados o no verificados. Las causas de esto son debatibles, pero un solo paper no demuestra la verdad; el verdadero criterio de confianza es que distintas instituciones y varios equipos verifiquen los resultados de forma independiente

    • El problema de la desinformación en la ciencia no acaba de aparecer; desde hace años se viene discutiendo la llamada "crisis de reproducibilidad"

    • Casos como el paper de ML Quantum Wormhole decepcionan porque muestran que investigaciones erróneas no solo llegan a notas de divulgación, sino también a revistas prestigiosas. Más que simples errores, parece que hay demasiados casos en los que tanto investigadores como reviewers omitieron una verificación adecuada. Yo ya era escéptico del sistema tradicional de revistas y prefería una publicación académica más libre, pero ahora da la impresión de que las propias revistas están socavando su propia credibilidad. Lo que más preocupa es que esto termine dañando la confianza pública en la ciencia. Al público le cuesta percibir los matices de los debates internos de la ciencia, y este tipo de casos solo le da más munición a los sectores anticiencia

    • Esto me recuerda al principio de asimetría de la estupidez (ley de Brandolini): enlace a este principio

  • Tenemos la tendencia a promocionar dramáticamente un único caso de ML/IA que salió maravillosamente bien, e ignorar las decenas de intentos que fracasaron

    • Más aún, parece que también amamos el "deep stochastic parroting". Se ignoran la experiencia directa, la evidencia que se acumula de forma constante y el razonamiento lógico, mientras se intenta negar deliberadamente la utilidad evidente de los LLM. Y esa postura negacionista siempre viene adornada con las mismas frases de moda de siempre