- Google DeepMind presentó un nuevo modelo de IA para secuencias de ADN llamado AlphaGenome
- Este modelo mejora la precisión en la predicción de los efectos de variantes reguladoras genéticas y puede predecir diversos procesos de regulación genética
- Se caracteriza por recibir como entrada secuencias de ADN largas de hasta 1 millón de pares de bases y predecir con alta resolución diversos fenómenos biológicos
- A diferencia de modelos anteriores, puede evaluar de una sola vez el impacto de variantes en distintos tejidos biológicos y tipos celulares
- Se espera que AlphaGenome ayude a los investigadores a comprender la función genética y la biología de las enfermedades, y a acelerar el descubrimiento de nuevos tratamientos
Introducción a AlphaGenome
- Google DeepMind presentó un nuevo modelo de IA para secuencias de ADN llamado AlphaGenome
- Al predecir con precisión el efecto de una variante única o mutación que afecta la regulación genética, este modelo representa un punto de inflexión importante para la investigación de la función del genoma y la comprensión de enfermedades
- Ya está disponible por adelantado vía API para fines de investigación, y más adelante también planean publicar el modelo
Cómo funciona AlphaGenome
- AlphaGenome toma como entrada secuencias largas de ADN de hasta 1 millón de pares de bases y predice diversas características moleculares
- Entre las características que puede predecir se incluyen miles de elementos como posición de genes, cantidad de ARN generado, accesibilidad del ADN y sitios de unión de proteínas
- El modelo fue entrenado con grandes conjuntos de datos públicos como ENCODE, GTEx, 4D Nucleome y FANTOM5
- Internamente, primero detecta patrones cortos con capas convolucionales, luego integra información de toda la secuencia con transformers y finalmente produce múltiples predicciones
- Aumenta la eficiencia del entrenamiento al procesar cómputo a gran escala en un entorno distribuido de TPU
- Evoluciona a partir del modelo Enformer y, a diferencia de AlphaMissense, enfocado en regiones codificantes de proteínas, analiza de forma integral también las regiones no codificantes (el 98% del genoma completo)
Qué distingue a AlphaGenome
- Análisis de secuencias de larga distancia con ultra alta resolución: analiza a escala de 1 millón de pares de bases y entrega resultados con precisión a nivel de una sola base
- Tiene mayor eficiencia de entrenamiento que los modelos previos y aprende más rápido con menos recursos
- Predicción multimodal integrada: predice simultáneamente en un solo modelo información de distintas etapas de la regulación genética
- Puntuación eficiente de variantes: compara de inmediato la secuencia alterada con la secuencia normal para calcular rápidamente el impacto de variantes sobre diversos fenómenos biológicos
- Modelado innovador de uniones de splicing: predice directamente posiciones de splicing y niveles de expresión génica, lo que también contribuye a la investigación de enfermedades raras
Rendimiento avanzado y resultados de benchmark
- AlphaGenome superó o igualó a los mejores modelos externos en 22 de 24 benchmarks de predicción genómica y en 24 de 26 evaluaciones de efectos regulatorios de variantes
- Es el único modelo capaz de predecir simultáneamente diversas formas de características biológicas con una sola llamada a la API, en lugar de usar modelos especializados para tareas individuales
Ventajas de un modelo integrado
- Al poder manejar múltiples modalidades de forma integrada, permite a los científicos iterar rápidamente distintas hipótesis y experimentos
- Aprende una representación general de las secuencias de ADN, lo que facilita que la comunidad lo siga entrenando y optimizando
- Ofrece flexibilidad y escalabilidad para expandirse mediante la incorporación de más datos o casos de uso
Significado como potente herramienta de investigación
- Comprensión de enfermedades: puede ayudar a identificar causas de enfermedades, incluidas variantes raras, y a encontrar objetivos terapéuticos
- Biología sintética: puede utilizarse para diseñar ADN sintético con funciones específicas
- Investigación básica: apoya el mapeo de elementos funcionales clave del genoma y el descubrimiento de elementos reguladores específicos por tipo celular
- De hecho, AlphaGenome predijo que una variante asociada con T-ALL (leucemia linfoblástica aguda) provoca la activación del gen TAL1 cercano al formar un motivo de unión de ADN de MYB, reproduciendo con éxito el mecanismo por el cual esa variante influye en un gen relacionado con la enfermedad
Limitaciones actuales
- Sigue siendo un desafío identificar los efectos de elementos reguladores muy distantes ubicados a más de 100 mil bases
- El reconocimiento de patrones específicos de células y tejidos también requiere más investigación
- Actualmente no está pensado para predicción de genomas individuales (diagnóstico o predicción personalizada)
- Solo puede hacer predicciones a nivel molecular y no explica por completo las causas complejas de todas las enfermedades
- Por ahora está en etapa de presentación para investigación, por lo que aún no es posible evaluar su aptitud clínica directa ni aplicarlo a tratamientos
Apoyo a la comunidad y dirección futura
- La API puede usarse de inmediato con fines de investigación no comercial, y planean ampliar la utilidad de AlphaGenome mediante una colaboración amplia con la comunidad investigadora
- Están recibiendo retroalimentación y casos de uso a través de foros comunitarios y otros canales
- Se espera que evolucione hacia versiones ampliadas con más datos, especies y modalidades
- Se espera que impulse nuevas innovaciones en investigación médica y de ciencias de la vida relacionadas con la interpretación del genoma
Cierre
- AlphaGenome es una nueva herramienta de análisis genómico basada en IA que interpreta de una sola vez el significado de las variantes genéticas desde múltiples perspectivas y acelera tanto la investigación básica como la clínica
- En colaboración con grupos de expertos externos, planean expandir la innovación basada en datos genómicos al mayor número posible de personas
2 comentarios
Me dio curiosidad cuáles son las modalidades en un modelo de IA que trabaja con predicción genética, así que se lo pregunté a o3 y me dijo que consideran modalidades cosas como los niveles de transcripción, las ubicaciones de inicio y fin de la transcripción, el splicing, etc.
Opiniones en Hacker News
Se ve como una señal de que la presión corporativa está aumentando: aunque es un modelo que puede correr en una sola A100, no publican ni el código ni los parámetros y solo lo operan detrás de una API, mientras que en la página 31 del paper básicamente pegaron todo el modelo como pseudocódigo. Ojalá Google/Demis/Sergei al menos publicaran los parámetros. Cuesta creer que un modelo tan pequeño, encerrado detrás de una API, vaya a curar el cáncer, y tampoco parece que vaya a generar enormes ingresos para GCloud.
Si hubiera un avance en simulación celular, podríamos esperar simulaciones tan útiles como la dinámica molecular pero viables en supercomputadoras modernas. El hecho de no poder ver lo que ocurre dentro es, a mi juicio, un gran obstáculo para la investigación en ciencias de la vida.
DeepMind no es el único que hace investigación aplicada de IA de alto impacto, pero me intriga por qué destaca tanto en este campo. ¿Será por su excelente marketing tecnológico, o hay otra razón?
Es interesante imaginar qué interacciones aparecerían si se ampliara el tamaño de entrada hasta los 3.2 Gbp del genoma humano. También llama la atención que U-net y transformer estén tan al centro de la investigación.
Dentro de las empresas probablemente también surgirán ideas para usar datos genómicos con el fin de mejorar la eficacia de la publicidad; por ejemplo, si detectan riesgo de cáncer de colon, mostrar anuncios de “suplementos para la salud del colon”, o analizar predisposiciones a partir de la información genética para estrategias como “este gen se correlaciona con una tendencia a disfrutar el humor negro, promocionemos la nueva película entre personas con este gen”.
Un gran salto en el rendimiento de predicción de RNA probablemente abriría una gran oportunidad para los laboratorios de mRNA.
Poco después de entrar a Google en 2008, insistí en que se invirtiera mucho en ciencias de la vida. Estaba convencido de que Google podía lograr resultados de clase mundial con su capacidad de procesamiento de datos y ML, y ayudar a que esos métodos fueran reproducibles por otros biólogos. De hecho, con exacycle se obtuvieron resultados interesantes en folding y diseño de proteínas, y después, con el lanzamiento de Cloud Genomics, también se avanzó hacia servicios para almacenar y analizar datasets a gran escala. Al final, DeepMind terminó materializando esa meta de una forma mucho más impresionante de lo que yo había imaginado. Hay tantísimo que ver en los papers recientes que a la comunidad probablemente le tomará tiempo digerirlos.
Me decepcionó que el paper ignore uno de los mayores problemas: distinguir, entre regiones de DNA altamente asociadas, cuáles variantes son realmente causales y cuáles no lo son (lo que en genética se llama fine mapping). Para encontrar objetivos farmacológicos eficaces, es muy importante acotar con precisión las regiones regulatorias clave. Un paper reciente en Nature muestra un ejemplo de este problema e incluso un caso conectado con fármacos candidatos para regular la función de macrófagos en autoinmunidad.