AlphaGenome: IA para comprender mejor el genoma

(deepmind.google)

1 puntos por GN⁺ 2025-06-27 | 2 comentarios | Compartir por WhatsApp

Google DeepMind presentó un nuevo modelo de IA para secuencias de ADN llamado AlphaGenome
Este modelo mejora la precisión en la predicción de los efectos de variantes reguladoras genéticas y puede predecir diversos procesos de regulación genética
Se caracteriza por recibir como entrada secuencias de ADN largas de hasta 1 millón de pares de bases y predecir con alta resolución diversos fenómenos biológicos
A diferencia de modelos anteriores, puede evaluar de una sola vez el impacto de variantes en distintos tejidos biológicos y tipos celulares
Se espera que AlphaGenome ayude a los investigadores a comprender la función genética y la biología de las enfermedades, y a acelerar el descubrimiento de nuevos tratamientos

Introducción a AlphaGenome

Google DeepMind presentó un nuevo modelo de IA para secuencias de ADN llamado AlphaGenome
Al predecir con precisión el efecto de una variante única o mutación que afecta la regulación genética, este modelo representa un punto de inflexión importante para la investigación de la función del genoma y la comprensión de enfermedades
Ya está disponible por adelantado vía API para fines de investigación, y más adelante también planean publicar el modelo

Cómo funciona AlphaGenome

AlphaGenome toma como entrada secuencias largas de ADN de hasta 1 millón de pares de bases y predice diversas características moleculares
Entre las características que puede predecir se incluyen miles de elementos como posición de genes, cantidad de ARN generado, accesibilidad del ADN y sitios de unión de proteínas
El modelo fue entrenado con grandes conjuntos de datos públicos como ENCODE, GTEx, 4D Nucleome y FANTOM5
Internamente, primero detecta patrones cortos con capas convolucionales, luego integra información de toda la secuencia con transformers y finalmente produce múltiples predicciones
Aumenta la eficiencia del entrenamiento al procesar cómputo a gran escala en un entorno distribuido de TPU
Evoluciona a partir del modelo Enformer y, a diferencia de AlphaMissense, enfocado en regiones codificantes de proteínas, analiza de forma integral también las regiones no codificantes (el 98% del genoma completo)

Qué distingue a AlphaGenome

Análisis de secuencias de larga distancia con ultra alta resolución: analiza a escala de 1 millón de pares de bases y entrega resultados con precisión a nivel de una sola base
Tiene mayor eficiencia de entrenamiento que los modelos previos y aprende más rápido con menos recursos
Predicción multimodal integrada: predice simultáneamente en un solo modelo información de distintas etapas de la regulación genética
Puntuación eficiente de variantes: compara de inmediato la secuencia alterada con la secuencia normal para calcular rápidamente el impacto de variantes sobre diversos fenómenos biológicos
Modelado innovador de uniones de splicing: predice directamente posiciones de splicing y niveles de expresión génica, lo que también contribuye a la investigación de enfermedades raras

Rendimiento avanzado y resultados de benchmark

AlphaGenome superó o igualó a los mejores modelos externos en 22 de 24 benchmarks de predicción genómica y en 24 de 26 evaluaciones de efectos regulatorios de variantes
Es el único modelo capaz de predecir simultáneamente diversas formas de características biológicas con una sola llamada a la API, en lugar de usar modelos especializados para tareas individuales

Ventajas de un modelo integrado

Al poder manejar múltiples modalidades de forma integrada, permite a los científicos iterar rápidamente distintas hipótesis y experimentos
Aprende una representación general de las secuencias de ADN, lo que facilita que la comunidad lo siga entrenando y optimizando
Ofrece flexibilidad y escalabilidad para expandirse mediante la incorporación de más datos o casos de uso

Significado como potente herramienta de investigación

Comprensión de enfermedades: puede ayudar a identificar causas de enfermedades, incluidas variantes raras, y a encontrar objetivos terapéuticos
Biología sintética: puede utilizarse para diseñar ADN sintético con funciones específicas
Investigación básica: apoya el mapeo de elementos funcionales clave del genoma y el descubrimiento de elementos reguladores específicos por tipo celular
De hecho, AlphaGenome predijo que una variante asociada con T-ALL (leucemia linfoblástica aguda) provoca la activación del gen TAL1 cercano al formar un motivo de unión de ADN de MYB, reproduciendo con éxito el mecanismo por el cual esa variante influye en un gen relacionado con la enfermedad

Limitaciones actuales

Sigue siendo un desafío identificar los efectos de elementos reguladores muy distantes ubicados a más de 100 mil bases
El reconocimiento de patrones específicos de células y tejidos también requiere más investigación
Actualmente no está pensado para predicción de genomas individuales (diagnóstico o predicción personalizada)
Solo puede hacer predicciones a nivel molecular y no explica por completo las causas complejas de todas las enfermedades
Por ahora está en etapa de presentación para investigación, por lo que aún no es posible evaluar su aptitud clínica directa ni aplicarlo a tratamientos

Apoyo a la comunidad y dirección futura

La API puede usarse de inmediato con fines de investigación no comercial, y planean ampliar la utilidad de AlphaGenome mediante una colaboración amplia con la comunidad investigadora
Están recibiendo retroalimentación y casos de uso a través de foros comunitarios y otros canales
Se espera que evolucione hacia versiones ampliadas con más datos, especies y modalidades
Se espera que impulse nuevas innovaciones en investigación médica y de ciencias de la vida relacionadas con la interpretación del genoma

Cierre

AlphaGenome es una nueva herramienta de análisis genómico basada en IA que interpreta de una sola vez el significado de las variantes genéticas desde múltiples perspectivas y acelera tanto la investigación básica como la clínica
En colaboración con grupos de expertos externos, planean expandir la innovación basada en datos genómicos al mayor número posible de personas

2 comentarios

galadbran 2025-06-27

Me dio curiosidad cuáles son las modalidades en un modelo de IA que trabaja con predicción genética, así que se lo pregunté a o3 y me dijo que consideran modalidades cosas como los niveles de transcripción, las ubicaciones de inicio y fin de la transcripción, el splicing, etc.

GN⁺ 2025-06-27

Opiniones en Hacker News

Se ve como una señal de que la presión corporativa está aumentando: aunque es un modelo que puede correr en una sola A100, no publican ni el código ni los parámetros y solo lo operan detrás de una API, mientras que en la página 31 del paper básicamente pegaron todo el modelo como pseudocódigo. Ojalá Google/Demis/Sergei al menos publicaran los parámetros. Cuesta creer que un modelo tan pequeño, encerrado detrás de una API, vaya a curar el cáncer, y tampoco parece que vaya a generar enormes ingresos para GCloud.
Si hubiera un avance en simulación celular, podríamos esperar simulaciones tan útiles como la dinámica molecular pero viables en supercomputadoras modernas. El hecho de no poder ver lo que ocurre dentro es, a mi juicio, un gran obstáculo para la investigación en ciencias de la vida.
- En Arc están intentando exactamente eso; hay más detalles en esta noticia relacionada de arcinstitute.org
- Creo que la computación cuántica podría resolver esta parte, pero todavía faltan unos 10 años. La aceleración por IA es más difícil de predecir.
- Ojalá hubiera más esfuerzos por construir simulaciones verdaderamente deterministas. Me parece más importante un enfoque que revele el proceso interno que una caja negra que solo muestre resultados.
DeepMind no es el único que hace investigación aplicada de IA de alto impacto, pero me intriga por qué destaca tanto en este campo. ¿Será por su excelente marketing tecnológico, o hay otra razón?
- Este paper está bien hecho, pero no parece una innovación revolucionaria; ha habido intentos parecidos desde hace bastante tiempo.
- DeepMind lleva mucho tiempo trabajando en esto, y además cuenta con los enormes recursos que aporta Google. Según Perplexity, construir la base de datos de AlphaFold 2 tomó “millones de horas de GPU”.
- En ciencias de la vida, Arc Institute está haciendo trabajo muy fresco, y entre las farmacéuticas, Genentech o GSK están logrando resultados excelentes en sus grupos de IA.
- Al ser una organización de Google, el respaldo de una empresa de 2 billones de dólares aporta ventajas que van mucho más allá del marketing.
Es interesante imaginar qué interacciones aparecerían si se ampliara el tamaño de entrada hasta los 3.2 Gbp del genoma humano. También llama la atención que U-net y transformer estén tan al centro de la investigación.
- En la práctica, creo que no hace falta pasar de 2 megabases. El genoma no es una sola secuencia continua: está físicamente separado y organizado por cromosomas y por topologically associated domains. Unas 2 megabases ya cubren casi todo el rango principal de interacciones entre cis regulatory elements y effector genes.
- Sobre eso de que “todo gira en torno a U-net y transformer”, se mencionó la perspectiva de quien solo tiene un martillo.
Dentro de las empresas probablemente también surgirán ideas para usar datos genómicos con el fin de mejorar la eficacia de la publicidad; por ejemplo, si detectan riesgo de cáncer de colon, mostrar anuncios de “suplementos para la salud del colon”, o analizar predisposiciones a partir de la información genética para estrategias como “este gen se correlaciona con una tendencia a disfrutar el humor negro, promocionemos la nueva película entre personas con este gen”.
Un gran salto en el rendimiento de predicción de RNA probablemente abriría una gran oportunidad para los laboratorios de mRNA.
- (Respuesta inmediata: creo que esto podría hacerse notar aún más fuera de Estados Unidos)
Poco después de entrar a Google en 2008, insistí en que se invirtiera mucho en ciencias de la vida. Estaba convencido de que Google podía lograr resultados de clase mundial con su capacidad de procesamiento de datos y ML, y ayudar a que esos métodos fueran reproducibles por otros biólogos. De hecho, con exacycle se obtuvieron resultados interesantes en folding y diseño de proteínas, y después, con el lanzamiento de Cloud Genomics, también se avanzó hacia servicios para almacenar y analizar datasets a gran escala. Al final, DeepMind terminó materializando esa meta de una forma mucho más impresionante de lo que yo había imaginado. Hay tantísimo que ver en los papers recientes que a la comunidad probablemente le tomará tiempo digerirlos.
- Estoy de acuerdo en que Sundar no parece un líder particularmente inspirador como CEO de Google, pero llevó a la empresa de una ganancia trimestral de 3B en 2015, antes de asumir, a 35B en el primer trimestre de 2025: un crecimiento de 10 veces. Creo que su dominio del negocio publicitario explica la rentabilidad actual. La transición a IA fue un poco tardía, pero parece competitivo con Gemini y DeepMind también ha logrado resultados impresionantes. “Sundar genera poco hype, pero entrega grandes resultados”.
- Hay quien opina que eso de “me alegra ver que por fin se cumplió mi viejo deseo” suena bastante egocéntrico. Se señala que la mayoría de las personas también tienen grandes ideas, pero igual se siente raro decir algo como “¡Por fin! Mi idea llegó al mundo…”.
- Alguien pregunta si alguna vez hablaron de esto en el shuttle de Santa Cruz. Dice que aquella conversación fue fascinante y que la aparición de AlphaGenome todavía le emociona.
- Desde la perspectiva de un Googler actual, la opinión sobre Sundar es muy ambivalente. Se le reconoce haber invertido desde temprano en infraestructura y herramientas para IA, pero se piensa que Jeff Dean merece más crédito que Demis.
Me decepcionó que el paper ignore uno de los mayores problemas: distinguir, entre regiones de DNA altamente asociadas, cuáles variantes son realmente causales y cuáles no lo son (lo que en genética se llama fine mapping). Para encontrar objetivos farmacológicos eficaces, es muy importante acotar con precisión las regiones regulatorias clave. Un paper reciente en Nature muestra un ejemplo de este problema e incluso un caso conectado con fármacos candidatos para regular la función de macrófagos en autoinmunidad.
- Me pregunto si estos resultados acercan algo a esa dirección. No soy experto, pero parece que, si mejora la predicción funcional, también debería ser más fácil distinguir las variantes realmente importantes de las irrelevantes. Supongo que el siguiente paso será integrarlo con métodos estadísticos sólidos de fine mapping.