- Los fundadores de Ligo Biosciences compartieron una implementación de código abierto de AlphaFold3, el modelo más reciente para la predicción de estructuras de proteínas
- Google DeepMind y su nueva startup Isomorphic Labs están expandiendo su negocio hacia el descubrimiento de fármacos
- Desarrollaron AlphaFold3 para acelerar el descubrimiento de fármacos y generar demanda por parte de las farmacéuticas
- Ya firmaron acuerdos por 3 mil millones de dólares con Novartis y Eli Lilly
- AlphaFold3 es un modelo de predicción de estructuras biomoleculares (biomolecular structure prediction) con tres funciones principales
- Predicción de estructuras de proteínas
- Predicción de estructuras de interacción fármaco-proteína
- Predicción de estructuras de complejos ácido nucleico-proteína
- AlphaFold3 es muy importante para la ciencia porque acelera enormemente el mapeo de estructuras proteicas
- Mientras que un estudiante de doctorado puede dedicar todo su doctorado a estudiar una sola estructura, con AlphaFold3 es posible obtener en minutos predicciones comparables en precisión a resultados experimentales
- El problema es que DeepMind anunció AlphaFold3 en mayo, pero no publicó el código
- Esto generó dudas sobre la reproducibilidad y descontento en la comunidad científica
- AlphaFold3 representa un avance fundamental en la tecnología de modelado estructural del que puede beneficiarse toda la industria biotecnológica, y sus aplicaciones son muy amplias
- Tecnología de edición genética CRISPR: los científicos pueden ver con precisión cómo el ADN interactúa con la proteína tijera Cas
- Investigación del cáncer: permite predecir cómo fármacos potenciales se unen a objetivos contra el cáncer. Uno de los puntos destacados del paper de DeepMind fue la predicción de la estructura del complejo entre un inhibidor clínico de KRAS y su objetivo
- Predicción de anticuerpos/nanocuerpos y sus objetivos: AlphaFold3 duplica la precisión frente a herramientas de segundo nivel para esta clase de moléculas
- Lamentablemente, al tener una licencia no comercial, ninguna empresa puede usarlo
- Por eso publicaron una implementación de código abierto de AlphaFold3
- Publican el modelo completo entrenado con proteínas de cadena única, y las otras dos funciones serán entrenadas y publicadas pronto
- También incluye el código de entrenamiento
- Los pesos se publicarán cuando finalicen el entrenamiento y el benchmarking
- Usan la licencia Apache 2.0 para que sea realmente de código abierto
- DeepMind reveló mediante su paper la arquitectura completa del modelo junto con pseudocódigo de cada componente
- Lo tradujeron completamente a PyTorch, aunque hizo falta bastante más ingeniería inversa de lo esperado
- Durante la implementación inicial encontraron varios problemas en el paper de DeepMind que podrían dificultar el entrenamiento. Probablemente le resulten interesantes a la comunidad de deep learning
- El escalado de la pérdida MSE es diferente al de Karras et al. (2022). Los pesos provistos en el paper no reducen la pérdida en niveles altos de ruido
- En el paper falta una residual layer
- Al agregar la residual layer faltante, observaron beneficios en el flujo del gradiente y en la convergencia
- Se preguntan si alguien sabe por qué DeepMind omitió la residual connection en el bloque DiT
- En su forma actual, el módulo MSA contiene una dead layer
- El último pair weighted averaging y la transition layer no pueden contribuir a la representación de pares, por lo que el gradiente no se propaga
- Lo reemplazaron por un orden como el de ExtraMsaStack de AlphaFold2
- Usar weight sharing también podría ser una alternativa, pero el paper es ambiguo al respecto
- En Ligo (YC S24) están usando las ideas de AlphaFold3 para diseñar enzimas
- Consideran que abrir AlphaFold3 es una misión secundaria que beneficia a la comunidad
Opinión de GN⁺
- AlphaFold3 es una tecnología revolucionaria en el campo de la predicción de estructuras de proteínas, y se espera que tenga un gran impacto en el descubrimiento de fármacos y la investigación en ciencias de la vida
- Sin embargo, que DeepMind no haya publicado el código puede verse como una acción contraria a la reproducibilidad y al espíritu de colaboración de la comunidad científica
- Entre los proyectos de código abierto con funciones similares a AlphaFold3 están OpenFold y RoseTTAFold
- Al adoptar AlphaFold3, es importante revisar cuidadosamente la precisión y las limitaciones del modelo, así como los requisitos de recursos computacionales
- La aparición de una implementación de código abierto permitirá que más investigadores y empresas se beneficien de AlphaFold3, aunque todavía existen restricciones para su comercialización
1 comentarios
Opiniones de Hacker News
DeepMind y AlphaFold se están moviendo hacia código cerrado
Me pregunto cómo se validan las predicciones
Me pregunto si planean publicar un artículo sobre la implementación
Me alegra que esta versión abierta pueda usarse en entornos comerciales
Creo que sería bueno cambiar el nombre de esta implementación
El código del modelo en sí es una parte pequeña del desafío
Tuve una breve experiencia con proteómica computacional
Quién hubiera pensado que publicar solo pseudocódigo no sería suficiente
Me pregunto si están familiarizados con ColabFold
Me pregunto cuál es el siguiente paso