1 puntos por GN⁺ 2024-07-14 | 1 comentarios | Compartir por WhatsApp

Introducción

Quién debería leer este artículo

  • Personas que quieren entender cómo funciona AlphaFold3
  • Personas que quieren comprender estructuras complejas de forma visual
  • Personas familiarizadas con machine learning

Resumen de la arquitectura

  • AlphaFold3 predice estructuras de proteínas, ácidos nucleicos y moléculas pequeñas, entre otras
  • Usa un método de featurización/tokenización más complejo para manejar tipos de entrada complejos

Preparación de entrada

Tokenización

  • Aminoácidos estándar: 1 token
  • Nucleótidos estándar: 1 token
  • Aminoácidos/nucleótidos no estándar: 1 átomo por token
  • Otras moléculas: 1 átomo por token

Búsqueda (generación de MSA y plantillas)

  • Busca secuencias similares para generar MSA y plantillas
  • Calcula la distancia euclidiana y luego la convierte en un distograma

Generación de representaciones a nivel atómico

  • Genera una "estructura de referencia" para cada aminoácido, nucleótido y ligando
  • Genera la representación individual a nivel atómico (q) y la representación por pares (p)

Actualización de representaciones a nivel atómico (Atom Transformer)

  • Actualiza q y p para generar mejores representaciones
  • Usa Adaptive LayerNorm, Attention with Pair Bias, Conditioned Gating y Conditioned Transition

Agregación de nivel atómico -> nivel de token

  • Convierte las representaciones a nivel atómico en representaciones a nivel de token
  • Agrega MSA e información proporcionada por el usuario

Aprendizaje de representaciones

Módulo de plantillas

  • Usa plantillas para actualizar z

Módulo MSA

  • Actualiza MSA y z
  • Usa Outer Product Mean y Row-wise Gated Self-Attention Using Only Pair Bias

Módulo Pairformer

  • Actualiza s y z
  • Usa Triangle Updates y Triangle Attention

Predicción de estructura

Principio básico de la difusión

  • Usa un modelo de difusión para predecir la estructura
  • Agrega y elimina ruido para generar la estructura final

Resumen de GN⁺

  • AlphaFold3 predice estructuras complejas como proteínas, ácidos nucleicos y moléculas pequeñas
  • Facilita la comprensión al explicar la compleja arquitectura del modelo con diagramas visuales
  • Es un modelo que logró avances importantes en los campos de machine learning y biotecnología
  • Entre los proyectos con funciones similares están RosettaFold y otros

1 comentarios

 
GN⁺ 2024-07-14
Opiniones de Hacker News
  • Agradezco que este artículo traduzca el paper para que lo pueda entender un biólogo estructural

  • Me enteré de que AF3, con una cantidad limitada de PTM, tiene que tratar todos los átomos como tokens individuales

  • Probablemente esto se deba a que las PTM aparecen muy poco en el PDB

  • Es un artículo que permite vislumbrar cómo podrían implementarse las redes neuronales y las tecnologías de IA en el futuro

  • Mucha ingeniería y una manipulación inteligente de tecnologías existentes se combinan con un modelo potente y bien entrenado

  • En este momento, cosas como ChatGPT están en la primera etapa de crear un modelo fundacional para la generalización y el procesamiento de datos

  • Aún no se ha trabajado mucho en procesar la entrada para que el modelo pueda entenderla de manera óptima

  • Hay investigación básica en este campo, pero todavía no hay nada tan sofisticado como AlphaFold

  • La gente está combinando LLM y usando prompts de sistema para ayudar con el procesamiento de entradas

  • Cuando aparezcan sistemas más complejos, probablemente veremos algo similar a una verdadera AGI

  • Es muy complejo

  • No había oído hablar del algoritmo MSA que se usa para alinear secuencias de proteínas

  • Es un artículo sorprendente, gracias

  • Voy a leerlo con más detalle