3 puntos por GN⁺ 2024-09-05 | 1 comentarios | Compartir por WhatsApp
  • Los fundadores de Ligo Biosciences compartieron una implementación de código abierto de AlphaFold3, el modelo más reciente para la predicción de estructuras de proteínas
  • Google DeepMind y su nueva startup Isomorphic Labs están expandiendo su negocio hacia el descubrimiento de fármacos
    • Desarrollaron AlphaFold3 para acelerar el descubrimiento de fármacos y generar demanda por parte de las farmacéuticas
    • Ya firmaron acuerdos por 3 mil millones de dólares con Novartis y Eli Lilly
  • AlphaFold3 es un modelo de predicción de estructuras biomoleculares (biomolecular structure prediction) con tres funciones principales
    • Predicción de estructuras de proteínas
    • Predicción de estructuras de interacción fármaco-proteína
    • Predicción de estructuras de complejos ácido nucleico-proteína
  • AlphaFold3 es muy importante para la ciencia porque acelera enormemente el mapeo de estructuras proteicas
    • Mientras que un estudiante de doctorado puede dedicar todo su doctorado a estudiar una sola estructura, con AlphaFold3 es posible obtener en minutos predicciones comparables en precisión a resultados experimentales
  • El problema es que DeepMind anunció AlphaFold3 en mayo, pero no publicó el código
    • Esto generó dudas sobre la reproducibilidad y descontento en la comunidad científica
  • AlphaFold3 representa un avance fundamental en la tecnología de modelado estructural del que puede beneficiarse toda la industria biotecnológica, y sus aplicaciones son muy amplias
    • Tecnología de edición genética CRISPR: los científicos pueden ver con precisión cómo el ADN interactúa con la proteína tijera Cas
    • Investigación del cáncer: permite predecir cómo fármacos potenciales se unen a objetivos contra el cáncer. Uno de los puntos destacados del paper de DeepMind fue la predicción de la estructura del complejo entre un inhibidor clínico de KRAS y su objetivo
    • Predicción de anticuerpos/nanocuerpos y sus objetivos: AlphaFold3 duplica la precisión frente a herramientas de segundo nivel para esta clase de moléculas
  • Lamentablemente, al tener una licencia no comercial, ninguna empresa puede usarlo
  • Por eso publicaron una implementación de código abierto de AlphaFold3
    • Publican el modelo completo entrenado con proteínas de cadena única, y las otras dos funciones serán entrenadas y publicadas pronto
    • También incluye el código de entrenamiento
    • Los pesos se publicarán cuando finalicen el entrenamiento y el benchmarking
    • Usan la licencia Apache 2.0 para que sea realmente de código abierto
  • DeepMind reveló mediante su paper la arquitectura completa del modelo junto con pseudocódigo de cada componente
    • Lo tradujeron completamente a PyTorch, aunque hizo falta bastante más ingeniería inversa de lo esperado
  • Durante la implementación inicial encontraron varios problemas en el paper de DeepMind que podrían dificultar el entrenamiento. Probablemente le resulten interesantes a la comunidad de deep learning
    • El escalado de la pérdida MSE es diferente al de Karras et al. (2022). Los pesos provistos en el paper no reducen la pérdida en niveles altos de ruido
    • En el paper falta una residual layer
      • Al agregar la residual layer faltante, observaron beneficios en el flujo del gradiente y en la convergencia
      • Se preguntan si alguien sabe por qué DeepMind omitió la residual connection en el bloque DiT
    • En su forma actual, el módulo MSA contiene una dead layer
      • El último pair weighted averaging y la transition layer no pueden contribuir a la representación de pares, por lo que el gradiente no se propaga
      • Lo reemplazaron por un orden como el de ExtraMsaStack de AlphaFold2
      • Usar weight sharing también podría ser una alternativa, pero el paper es ambiguo al respecto
  • En Ligo (YC S24) están usando las ideas de AlphaFold3 para diseñar enzimas
  • Consideran que abrir AlphaFold3 es una misión secundaria que beneficia a la comunidad

Opinión de GN⁺

  • AlphaFold3 es una tecnología revolucionaria en el campo de la predicción de estructuras de proteínas, y se espera que tenga un gran impacto en el descubrimiento de fármacos y la investigación en ciencias de la vida
  • Sin embargo, que DeepMind no haya publicado el código puede verse como una acción contraria a la reproducibilidad y al espíritu de colaboración de la comunidad científica
  • Entre los proyectos de código abierto con funciones similares a AlphaFold3 están OpenFold y RoseTTAFold
  • Al adoptar AlphaFold3, es importante revisar cuidadosamente la precisión y las limitaciones del modelo, así como los requisitos de recursos computacionales
  • La aparición de una implementación de código abierto permitirá que más investigadores y empresas se beneficien de AlphaFold3, aunque todavía existen restricciones para su comercialización

1 comentarios

 
GN⁺ 2024-09-05
Opiniones de Hacker News
  • DeepMind y AlphaFold se están moviendo hacia código cerrado

    • Isomorphic Labs fue establecida como una división de Alphabet para enfocarse en trabajo de código cerrado
    • En teoría, una versión de código abierto de una herramienta académica parecería algo bueno
    • No estoy lo suficientemente familiarizado con este campo como para señalar beneficios concretos
    • Me pregunto cuál es el plan de la empresa
    • Me pregunto si seguirán trabajando en proyectos de código abierto como parte de su modelo de negocio, o si esto será algo de una sola vez
    • El sitio web es muy vago sobre lo que intentan vender
  • Me pregunto cómo se validan las predicciones

    • Me pregunto si después de hacer una predicción todavía hay que usar técnicas experimentales como cristalografía de rayos X, criomicroscopía electrónica, etc.
    • Me pregunto si las predicciones son tan cercanas a la realidad que se puede avanzar sin hacer experimentos
  • Me pregunto si planean publicar un artículo sobre la implementación

    • Haría más fácil citarlo en la literatura más adelante
    • Me pregunto si una revista importante aceptaría un artículo así
    • Supongo que lo aceptarían si hubiera preguntas sobre reproducibilidad
  • Me alegra que esta versión abierta pueda usarse en entornos comerciales

    • Es una gran manera de iniciar una empresa
  • Creo que sería bueno cambiar el nombre de esta implementación

    • Porque en realidad no es AlphaFold3
    • Podrían recibir una solicitud de cese de uso del nombre por parte de DM
  • El código del modelo en sí es una parte pequeña del desafío

    • El cómputo de entrenamiento y los datos de entrenamiento son una parte mucho más grande
    • Google probablemente tiene acceso a cómputo de entrenamiento a una escala mayor que cualquier otra entidad
  • Tuve una breve experiencia con proteómica computacional

    • Ese campo de verdad está en otro nivel
  • Quién hubiera pensado que publicar solo pseudocódigo no sería suficiente

    • Me alegra ver al sistema inmunológico científico luchando contra la ciencia cerrada
    • Me pregunto cuál será el siguiente movimiento de Google
  • Me pregunto si están familiarizados con ColabFold

  • Me pregunto cuál es el siguiente paso

    • Me pregunto por qué decidieron enfocarse en diseño de enzimas