El deep learning recibe atención, pero el deep fact-checking es ignorado

(rachel.fast.ai)

3 puntos por GN⁺ 2025-06-04 | 1 comentarios | Compartir por WhatsApp

Un estudio que entrenó un Transformer con 22 millones de datos de enzimas para predecir 450 funciones enzimáticas desconocidas fue publicado en Nature Communications y obtuvo atención en el 5% superior de Altmetric, pero el preprint de seguimiento que verificó errores a gran escala recibió mucha menos atención
La predicción de funciones enzimáticas parece un problema de acertar el número EC a partir de la secuencia de aminoácidos, pero en la práctica el juicio requiere evidencia biológica como similitud estructural, contexto genético circundante, docking de sustratos y coocurrencia en rutas metabólicas
Entre las 450 predicciones “novel”, 135 ya existían en UniProt, y 148 mostraban patrones biológicamente extraños, como la repetición de una misma función muy específica hasta 12 veces
El caso de yciO muestra que el rendimiento en el conjunto de prueba y unas pocas validaciones in vitro no bastan; yciO es estructuralmente parecido a TsaC, pero trabajos previos y diferencias en actividad enzimática indican que no cumplen la misma función central
Los modelos de aprendizaje supervisado pueden ser útiles para propagar etiquetas de funciones conocidas dentro de una misma familia funcional, pero tienen límites para descubrir funciones realmente desconocidas, y las etiquetas erróneas pueden seguir propagándose a través de bases de datos como UniProt y del entrenamiento de modelos posteriores

Contraste entre un paper de predicción enzimática con IA y su validación posterior

El estudio original entrenó y evaluó un modelo basado en Transformer con un dataset de 22 millones de enzimas con números EC, y luego predijo la función de unas 450 enzimas cuya función era desconocida
Fue publicado en Functional annotation of enzyme-encoding genes using deep learning with transformer layers | Nature Communications, y registró 22,000 visualizaciones y atención dentro del 5% superior de todos los resultados de investigación según Altmetric
El paper de validación posterior, Limitations of Current Machine-Learning Models in Predicting Enzymatic Functions for Uncharacterized Proteins | bioRxiv, encontró errores graves y cientos de resultados con alta probabilidad de ser incorrectos en las predicciones del paper original, pero no recibió tantas visualizaciones ni citas como el trabajo inicial
Este caso muestra que es difícil evaluar la validez de resultados de IA en biología sin una profunda especialización en el dominio

Por qué es difícil predecir la función de las enzimas

Las enzimas catalizan reacciones en los seres vivos, y los números de la Enzyme Commission (EC) clasifican jerárquicamente miles de funciones enzimáticas
Como la entrada es la secuencia de aminoácidos que compone una proteína y la salida es un número EC, parece un problema muy apto para machine learning
UniProt contiene más de 22 millones de enzimas con números EC, lo que permite usarlo como un gran dataset de entrenamiento
Sin embargo, determinar la función de una enzima no basta con similitud de secuencia o estructura, y las relaciones evolutivas donde la función diverge son una trampa frecuente

El enfoque con Transformer y sus resultados aparentes

El paper de Nature Communications usó un modelo de deep learning con Transformer para predecir la función de enzimas cuya función antes era desconocida
La arquitectura del modelo, tomada del enfoque de BERT, estaba compuesta por dos codificadores Transformer, dos capas convolucionales y una capa lineal
El equipo revisó si las regiones con alta attention tenían significado biológico y concluyó que el modelo aprendía significado fundamental y también ofrecía interpretabilidad
Usaron una división estándar de entrenamiento, validación y prueba sobre un dataset con millones de entradas, y luego aplicaron el modelo a un dataset sin ground truth para generar unas 450 predicciones nuevas
De ellas eligieron tres al azar y las probaron in vitro, confirmando que las predicciones eran correctas

Errores detectados y patrones repetitivos

El análisis posterior concluyó que cientos de predicciones “novel” del paper de Nature Communications eran casi con certeza errores
El paper original mostró buen rendimiento en un conjunto de prueba reservado, pero una investigación posterior encontró posible data leakage
Entre los 450 resultados “novel”:
- 135 ya estaban registrados en UniProt, así que en realidad no eran nuevos
- 148 mostraban un patrón anómalo donde una misma función enzimática muy específica se repetía hasta 12 veces en genes de E. coli
Estas repeticiones no son biológicamente plausibles, y sesgos, desbalance de datos, falta de características relevantes, limitaciones de arquitectura y mala calibración de incertidumbre pueden hacer que el modelo fuerce etiquetas frecuentes del entrenamiento
YjhQ fue predicha como mycothiol synthase, pero E. coli no sintetiza mycothiol
Se predijo que YrhB sintetizaba un compuesto específico, pero ya se había predicho que ese compuesto lo sintetiza la enzima QueD, y una E. coli mutante de QueD no puede sintetizar ese compuesto, lo que muestra que no es la función de YrhB

Lo que muestra el caso de yciO sobre el papel del conocimiento de dominio

yciO, uno de los casos sometidos a pruebas in vitro, era una enzima que la Dra. de Crécy-Lagard había estudiado durante más de 10 años
El paper original concluyó que yciO cumplía la misma función que TsaC, pero la investigación previa no respalda esa conclusión
TsaC es un gen esencial en E. coli, y aunque yciO está presente en el mismo genoma y su sobreexpresión ocurre, eso no elimina la esencialidad de TsaC
La actividad de yciO reportada por Kim et al. era más de 4 órdenes de magnitud menor que la de TsaC, es decir, más de 10,000 veces más débil
yciO y TsaC son estructuralmente parecidas, y yciO evolucionó a partir de un ancestro de TsaC, pero la diversificación funcional tras duplicación genética es algo común en la evolución de proteínas y enzimas
Para clasificar la función de una enzima, además de la similitud estructural, también es importante considerar la siguiente evidencia
- neighborhood context del gen
- docking del sustrato
- coocurrencia de genes dentro de rutas metabólicas
- otras características de la enzima

La diferencia entre “propagar funciones conocidas” y “descubrir funciones realmente desconocidas”

En la identificación de funciones enzimáticas se mezclan dos problemas distintos
- Propagar una etiqueta de función conocida a enzimas de la misma familia funcional
- Descubrir funciones que realmente no se conocen
Los modelos supervisados de machine learning, por diseño, no pueden usarse para predecir la función de true unknowns
El machine learning puede ser útil para propagar funciones conocidas a enzimas adicionales
Sin embargo, pueden ocurrir los siguientes errores
- No propagar una etiqueta que sí debía propagarse
- Propagar una etiqueta que no debía propagarse
- Errores de curación
- Errores experimentales
Si una función incorrecta entra en bases de datos centrales en línea como UniProt, luego puede usarse como dato de entrenamiento para modelos posteriores, haciendo que el error se propague aún más
Este problema puede crecer con el tiempo

La baja recompensa de la investigación de validación de datos

El trabajo de construir modelos de IA recibe mayores recompensas y apoyo que el trabajo de examinar cuidadosamente los datos subyacentes e integrar conocimiento profundo del dominio
Everyone Wants to do the Model Work, not the Data Work analizó a decenas de profesionales de machine learning que participaron en proyectos de IA de alto riesgo, y señaló la falta de especialización adecuada en el dominio de aplicación como una de las principales causas de fallas críticas
Evaluar resultados de IA fuera del propio campo de especialización puede ser muy difícil o incluso imposible
Muchos papers de deep learning terminan siendo leídos sin que expertos del dominio revisen con detalle la calidad de los resultados
Verificar cientos de predicciones enzimáticas es menos glamoroso que construir un modelo de IA, pero puede ser más importante para la calidad del resultado
Un sistema de incentivos que se concentra de forma desbalanceada en soluciones de IA llamativas puede sacrificar la calidad de los resultados

1 comentarios

GN⁺ 2025-06-04

Opiniones en Hacker News

Ya me pasó algo parecido antes. Le metimos BERT a datos de enzimas y en la evaluación parecía estar bien, pero en el entorno real fracasó por completo. Fue un caso típico de “sobreajuste al ambiente”
Sinceramente, si es una clasificación simple, elegiría SVM o regresión logística cualquier día. Los transformers son geniales, pero si los datos no están muy limpios, dicen tonterías con total confianza. Es parecido a darle a GPT un examen de opción múltiple sin sentido: igual elige algo y lo dice con muchísima seguridad
Estos días voy más por sacar embeddings de un modelo grande y montar encima un clasificador simple. Funciona mejor, es más rápido y hace menos ruido
- Los transformers sacan puntaje perfecto en el set de prueba, pero en cuanto se topan con la realidad se desploman. Yo también me puse a celebrar con un “¡wow, 92% de precisión!”, y después resultó que solo había creado un matcher de patrones que acertaba con seguridad pequeños rasgos del dataset
- Tal vez ya lo sepas, pero eso de tomar embeddings de un modelo grande y ponerles un clasificador encima, en términos amplios, se conoce como transfer learning
- Sí, pero aun así eso sigue siendo usar transformers de forma indirecta
- Irónicamente, este mismo comentario suena como si lo hubiera generado un transformer, más específicamente ChatGPT
- Pregunta un poco distinta: ¿qué tan útil te parece SVM en producción? En general siempre sentí que es demasiado lento frente a otros algoritmos, así que no vale tanto la pena usarlo
Antes de poner a la IA a investigar, primero habría que hacer que reproduzca investigaciones. Por ejemplo, darle un paper sobre alguna técnica de deep learning y hacer que implemente lo que describe
Si no puede hacer eso, no espero que sea capaz de generar ideas nuevas
- La reproducibilidad es la línea base. Hasta que un modelo no pueda leer, entender e implementar correctamente investigaciones existentes de forma estable, eso de “científico de IA” es más branding que otra cosa
- OpenAI creó un benchmark para esto: https://openai.com/index/paperbench/
- Hace falta una traza de auditoría muy completa para los LLM, y además garantizar que ese paper no esté en ninguna parte del dataset
  El fraude académico es raro, pero no inexistente. Los LLM inventan datos y mienten en cuanto tienen la más mínima abertura
- Pensé que ibas a decir “démosle a la IA la primera parte del paper, o sea, el prompt, y hagamos que complete el resto para verificar si puede producir una ciencia equivalente a los resultados de investigación”. Si no puede hacer eso, no espero que sea capaz de generar ideas nuevas
- O también se le podría dar un paper lleno de estadísticas sobre observaciones experimentales y pedirle que reproduzca los datos crudos
Escuché de un investigador que pasó 6 meses verificando los resultados de un paper publicado. Al final, lo único que recibió fue un “gracias por señalarlo”
Él dijo en voz baja: “Algunas cosas no son importantes porque se vean, sino porque evitan que otros tomen el camino equivocado”
Creo que, si ni siquiera hay voluntad de revisar con cuidado si una predicción coincide con la realidad, por más impresionante que se vea la tecnología, no pasa de ser una ilusión momentánea
- No va a ganar un Nobel, pero en términos de logro y de valor aportado a la humanidad, está muy por delante de la mayoría de los empleados corporativos. Ojalá nosotros también pudiéramos decir eso de lo que hicimos en los últimos 10 años
Parece que la parte de “investigaciones posteriores sugieren que pudo haber habido filtración de datos” se olvida muy seguido. Hasta que aparezca evidencia fuerte en contra, todos deberíamos asumir filtración de datos
No es responsabilidad del lector o del escéptico demostrar que la hay; la responsabilidad de demostrar que no la hay es del autor
En datasets pequeños, la filtración de datos aparece con facilidad. Incluso en datasets que uno puede revisar enteros a ojo, la filtración entra muy fácilmente y por lo general sin que uno se dé cuenta. Factores sutiles arruinan los datos con facilidad
Ahora tratamos con datasets gigantescos que nadie puede revisar completos. Sabemos además que los métodos de filtrado son imperfectos, así que ¿cómo se supone que uno crea que no hay filtración? Puedes decir que filtraste, pero no puedes decir que no hay filtración
Encima, incluso en datasets accesibles seguimos encontrando contaminación. O sea, sigue apareciendo evidencia de que esto pasa con frecuencia
Entonces, ¿por qué se sigue asumiendo que no hay contaminación? ¿Por el hype? Sinceramente, suena a una mentira que uno se dice a sí mismo porque quiere creer. No se puede arreglar un problema mientras uno mismo se engaña sobre él
- Todos los sistemas tienen problemas. La mejor pregunta es dónde está el umbral aceptable
  Por ejemplo, la tasa de pagos indebidos en Medicare y Medicaid fue de 7.66%. Son decenas de miles de millones de dólares y hay margen para mejorar, pero eso no significa que todo el sistema haya fracasado. El 93% de los casos está cubierto como se pretendía
  Con estos modelos podría pasar lo mismo. Si la tasa de contaminación es del 10%, ¿eso hace malo a todo el sistema, o sigue siendo un nivel tolerable?
  [1]: https://www.cms.gov/newsroom/fact-sheets/fiscal-year-2024-im...
- Dónde está la carga de la prueba no es un criterio tan decisivo sobre qué creer como suele pensarse en internet
Pasó exactamente lo que yo venía prediciendo: https://news.ycombinator.com/context?id=44041114 https://news.ycombinator.com/context?id=41786908
Es lo mismo que con “la IA puede programar”. Si el problema no está en el set de entrenamiento, sigue fallando de forma espectacular, y la gente se sorprende cada vez
- En lo de “la IA puede programar”, al menos si le das la vuelta se puede llegar bastante lejos. Puede reforzar el flujo de trabajo de un ingeniero de software real y agregar barandales de seguridad como linters y tests
  No puede con las partes difíciles, como arquitectura, diseño o review, pero sí puede hacerse cargo de buena parte de lo repetitivo y ya resuelto, que es lo que consume gran parte del tiempo de la mayoría de los ingenieros. Como la garantía de calidad la sigue haciendo una persona, es totalmente posible subir la productividad entre 2 y 5 veces sin perder calidad
  Pero sin supervisión ni verificación, no puede reemplazar bien el trabajo completo de ningún humano. Todavía no está ni cerca
“En la mayoría de los artículos de deep learning que he leído, un experto del dominio no revisó minuciosamente los resultados para inspeccionar la calidad de la salida. ¿Cuántos de esos papers aparentemente impresionantes no resistirían una validación rigurosa?”
¿De verdad es así? He leído algunos papers de IA en mi área y entiendo que otros expertos de dominio también han leído muchos. Aunque sí parece que el trabajo basado en ciencias de la computación y software suele ser más fácil de validar que biología. O tal vez me lo parece porque casi no sé de biología.
- Validar etiquetas biológicas fácilmente toma años. El ejemplo del post original fue más bien una enorme coincidencia afortunada en la que alguien ya había invertido varios años en una de las etiquetas de proteína predichas.
  Nadie va a apostar de 3 a 5 años de su carrera para validar una predicción aleatoria de un modelo.
- Leer un paper, verificar resultados y certificar exactitud son cosas distintas. Yo también leo muchos papers, pero normalmente solo reviso los datos base cuando quiero reutilizar esos datos para otro propósito.
  Viéndolo así, suelo encontrar bastante rápido errores en las etiquetas correctas. Claro, la mayoría de los modelos no son lo bastante buenos como para que esos errores afecten mucho el resultado.
- En lingüística, tengo la impresión de que la gente sí lee con bastante cuidado y también critica los papers que usan estas técnicas. Pero como la gente no toma en serio a los lingüistas, quienes están en las áreas relacionadas ignoran esas críticas.
A Nature Communications no se le debería llamar “Nature”. La autoridad es completamente distinta. Y los altmetrics tampoco son tan relevantes. Salvo que quieras medir el sobrecalentamiento mediático.
- Actualización: parece que el autor leyó esto y lo corrigió.
Coincide bastante con mi experiencia limitada con LLM como investigador. La comprensión aparente de texto escrito y la formulación de oraciones son muy impresionantes.
Pero llegar a la mejor respuesta posible, sobre todo en preguntas que aún no están resueltas, es otra cosa. Cuando una pregunta puede quedarse sin conclusión incluso después de medio día de trabajo, la respuesta que sale casi de inmediato rara vez resulta satisfactoria.
Las preguntas complejas necesitan tiempo de exploración. Hasta ahora, los LLM han tendido a dar respuestas que suenan seguras, a veces completamente equivocadas, en lugar de reconocer ese estado no resuelto incluso cuando deberían no poder concluir por falta de capacidad.
Excelente texto de Rachel Thomas.
Esto parece otro argumento de que el deep learning, como depende de datos de entrenamiento que son una representación muy perdedora del dominio subyacente, al final solo funciona como recuperación de información generativa. Es decir, un loro estocástico.
Como en biología los datos genéticos o las etiquetas no siempre representan perfectamente el dominio subyacente, la salida puede ser falsa, inválida o absurda.
Cuando funciona demasiado bien, hay fuga de datos. Los LLM son herramientas de recuperación de información por diseño. Desde la perspectiva de la teoría de la información, en cualquier modelo existe un “no sabe ni que no sabe” fundamental.
Mi conclusión es que esto se acerca más a una falla del dataset de entrenamiento que a una falla del algoritmo.
Los humanos operan con flexibilidad en el ámbito del lenguaje natural, e incluso un niño puede leer y evaluar si un texto tiene sentido. Eso explica el éxito de los modelos entrenados para procesamiento de lenguaje natural.
Pero en áreas donde los datos de entrenamiento representan de forma perdedora el dominio subyacente, necesariamente van a ser incompletos.
- La paradoja de los LLM modernos es que no representan directamente el dominio subyacente, pero sí pueden representar información que puede presentarse en texto. Así que representan algún tipo de información, pero no siempre está claro exactamente cuál ni cómo queda representada.
  El espacio de embeddings puede representar relaciones entre palabras, oraciones y párrafos, y como estas cosas pueden contener información sobre el dominio subyacente, si consultas esas relaciones mediante texto puedes obtener respuestas plausibles. El problema es que el texto es una forma de codificación desordenada, así que no siempre queda claro qué representan esas relaciones.
  Otra debilidad es que son generativos. Para hacerlos generativos, en vez de hardcodear en una base de datos todas las preguntas posibles y sus respuestas, parte de los datos se le delega al algoritmo, es decir, a la predicción del siguiente token. Gracias a eso son posibles preguntas y prompts imprecisos pero probabilísticos, y aparece la ventaja de poder preguntar cualquier cosa.
  Pero ningún algoritmo único puede codificar con precisión todas las respuestas posibles a todas las preguntas posibles de un dominio. Así que se pierde parte de la precisión de la información. Así es como veo a los LLM actuales.
- Incluso si simplificamos la discusión y asumimos que llamar a los LLM recuperación de información generativa es completamente correcto, los LLM van a seguir aquí.
  Basta pensar en cómo trabaja un desarrollador junior por debajo del promedio o promedio en programación. “Busca” información para resolver problemas en Stack Overflow o en tutoriales.
  Darle a cada desarrollador una herramienta de automatización con IA bien hecha se parece a asignarle un desarrollador junior al que pueda delegarle tareas aburridas y simples. Y ni siquiera hay que preocuparse por que ese junior no crezca por estar haciendo tareas sencillas. Si además hay suficientes herramientas como análisis estático de código y pruebas, la herramienta de IA podrá hacer bastante bien el ciclo de trabajar, correr herramientas y corregir problemas.
  ¿Y ese costo no será como 1/30 del costo de un desarrollador junior? Entonces se puede dedicar más tiempo a lo realmente importante, incluido enseñar a juniors reales.
  No creo que la IA ya esté completamente ahí, pero sí creo que los modelos fundacionales actuales, si se conectan y combinan correctamente, podrían ser suficientes para llegar a eso.
- Me pregunto hasta qué punto el proceso de pensamiento que lleva a la situación que describe Rachel Thomas también funciona en otras áreas. Es un texto importante y estoy de acuerdo.
Señala muy bien uno de los problemas centrales del ciclo actual de hype de la IA. Estamos optimizando no la exactitud, sino la atención.
Y esto no es un problema exclusivo de la biología. Se ve un patrón similar en aplicaciones de machine learning en varias áreas, desde ciencia del clima hasta derecho y medicina.

El deep learning recibe atención, pero el deep fact-checking es ignorado

Contraste entre un paper de predicción enzimática con IA y su validación posterior

Por qué es difícil predecir la función de las enzimas

El enfoque con Transformer y sus resultados aparentes

Errores detectados y patrones repetitivos

Lo que muestra el caso de yciO sobre el papel del conocimiento de dominio

La diferencia entre “propagar funciones conocidas” y “descubrir funciones realmente desconocidas”

La baja recompensa de la investigación de validación de datos

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News