SimpleFold - el plegamiento de proteínas es más simple de lo que parece

(github.com/apple)

2 puntos por GN⁺ 2025-09-27 | 1 comentarios | Compartir por WhatsApp

SimpleFold es el primer modelo de predicción de plegamiento de proteínas basado en flow-matching presentado por Apple y un framework open source de predicción de estructuras de proteínas
En lugar de diseños especializados de dominio complejos, logra un alto rendimiento usando solo capas Transformer de propósito general y entrenamiento generativo con flow-matching
Fue entrenado con 3B (3 mil millones) de parámetros, lo que lo convierte en el de mayor escala hasta ahora, y muestra competitividad frente a modelos SOTA (estado del arte) en benchmarks públicos
Al no requerir módulos estructurales complejos (atención triangular, representaciones por pares, etc.), es eficiente y favorable para escalar a datasets grandes
Permite ajustar y reentrenar el modelo con datos personalizados, por lo que tiene alta utilidad práctica en bioinformática, farmacéutica y otros campos

Introducción e importancia de SimpleFold

SimpleFold es el primer modelo de predicción de plegamiento de proteínas basado en flow-matching anunciado por Apple
A diferencia de modelos representativos anteriores, usa únicamente capas Transformer de propósito general sin atención triangular compleja (triangle attention) ni sesgos de representación por pares (pair)
Fue entrenado con un objetivo generativo de flow-matching y muestra un rendimiento sólido no solo en configuraciones individuales, sino también en predicción por ensamble
Escala hasta un tamaño máximo de 3B parámetros y fue entrenado a gran escala combinando más de 8.6 millones de datos de proteínas con datos experimentales de PDB
Este es el modelo de plegamiento de proteínas más grande anunciado hasta la fecha

Funciones principales y ventajas

Versatilidad: puede aplicarse a distintos dominios y datasets sin restricciones
Eficiencia: al no incluir componentes complejos especializados de dominio, ofrece ventajas en velocidad de entrenamiento e inferencia, así como en tamaño del modelo
Escalabilidad: ofrece varios tamaños desde 100M hasta 3B parámetros, con soporte para GPU y MLX (PyTorch/hardware de Apple)
Entrenamiento generativo: admite predicción por ensamble para obtener múltiples resultados de predicción a la vez
Adaptación a datos del usuario: permite reentrenamiento, ajuste fino y usos personalizados con datasets propios

Ejemplos de uso y soporte

Incluye ejemplos en Jupyter Notebook (sample.ipynb), lo que permite predecir estructuras de inmediato usando secuencias reales de proteínas
Inferencia de alto rendimiento: desde la interfaz de línea de comandos se puede elegir el tamaño del modelo, especificar el backend de inferencia (MLX, PyTorch) y obtener archivos de resultados y métricas de confianza (pLDDT)
Resultados en datasets de benchmark: se ofrecen y publican resultados de predicción de SimpleFold en conjuntos de evaluación estándar (CAMEO22, CASP14, etc.)
Evaluación: incluye scripts de evaluación conectados con herramientas existentes como OpenStructure y TMscore, lo que permite evaluar distintas predicciones estructurales

Entrenamiento y preparación de datos

Para entrenamiento utiliza datos experimentales de PDB y más de 8.6 millones de estructuras de proteínas depuradas de AFDB SwissProt/AFESM/AFESM-E
También publica listas de datos (listas de objetivos) y archivos de muestra, facilitando a investigadores construir datasets personalizados
Permite preparar fácilmente el entorno experimental con preprocesamiento de archivos MMCIF, uso de Redis y archivos de configuración basados en Hydra
Incluye scripts de entrenamiento de ejemplo (train.py, train_fsdp.py) y configuraciones (config)

Open source y citación

Se publica bajo licencia MIT, lo que permite uso libre en investigación y aplicaciones comerciales en cualquier lugar
El código y los modelos incluyen contribuciones de múltiples proyectos open source y colaboradores; para más detalles hay que consultar ACKNOWLEDGEMENTS
Para su uso, citar el artículo de archivo (Arxiv:2509.18480)

Conclusión

SimpleFold propone un nuevo paradigma en la industria al reemplazar las estructuras complejas de las que dependían los modelos previos de predicción de estructuras de proteínas por un enfoque simple pero potente
En particular, la combinación de una arquitectura Transformer de propósito general y entrenamiento generativo abre expectativas para diversas aplicaciones creativas en ciencias de la vida, descubrimiento de fármacos y bioinformática

1 comentarios

GN⁺ 2025-09-27

Comentarios de Hacker News

Un punto fácil de pasar por alto aquí es que el modelo “simple” en realidad no aprendió a plegar a partir de estructuras experimentales. La mayor parte de los datos de entrenamiento vino de predicciones estilo AlphaFold, es decir, de millones de estructuras de proteínas generadas por modelos enormes, complejos y basados en MSA. O sea, no es que se puedan tirar por la borda todos esos sesgos inductivos y herramientas MSA; alguien tuvo que construir y ejecutar esos modelos para producir los datos de entrenamiento.
- La lección que yo saco de esto es simplicidad y escalabilidad. En machine learning suelen aparecer módulos cada vez más complejos para subir el rendimiento, y de pronto surge un avance en el que un modelo simple iguala a los complejos. Que esta arquitectura “simple” funcione tan bien por sí sola también significa que podría llegar todavía más lejos si se le vuelve a meter complejidad. Ahora me pregunto si será posible volver a incorporar MSA y hasta dónde podría llegar con eso. Según entiendo, un modelo generativo “burdo” produce varias conjeturas razonables, y validadores más formales se encargan de que respeten las leyes físicas y geométricas. La IA reduce un espacio de búsqueda inimaginablemente grande, evitando que simulaciones costosas se desperdicien en zonas inútiles. Si mejora la red que hace las conjeturas, todo el proceso se acelera. Viéndolo en retrospectiva, me recuerda a las redes recurrentes con funciones de transferencia cada vez más complejas, las cadenas complejas de preprocesamiento antes de las skip-forward layers, los objetivos compuestos de normalización antes de ReLU, las redes GAN con objetivos complejos antes de diffusion, y los modelos complejos de múltiples pasadas antes de las fully convolutional networks. En ese sentido, este trabajo me emociona mucho, no porque sea la arquitectura óptima, sino precisamente porque probablemente no lo es.
- No sé si esto sea tan raro. Casi todas las cosas simples alguna vez se consideraron complejas. De eso se trata justamente la emergencia, y por lo general, para encontrar una fórmula general y simple, primero hay que atravesar toda la complejidad. También es evidente que los fenómenos de la naturaleza en realidad surgen de reglas relativamente simples. Es como intentar inferir hacia atrás las reglas y los valores iniciales en Game of Life. Quien diga que eso es fácil está siendo demasiado confiado. Pero casi nadie de verdad cree que P=NP.
- AlphaFold es un modelo validado observando experimentalmente proteínas plegadas con rayos X.
- Exacto. Para quien no lo sepa, MSA se usa para generalizar de estructuras PDB existentes hacia nuevas secuencias. Si entrenas con resultados de AlphaFold2, esa generalización ya viene incluida, así que el modelo ya no necesita tener esa capacidad por sí mismo; le basta con memorizar. Da la impresión de que los autores del paper pasaron por alto esta conclusión tan simple.
Conocí el plegamiento de proteínas por primera vez en el proyecto Folding@Home(https://foldingathome.org), en la época en que la energía en la residencia universitaria era casi gratis y me sobraba capacidad en mi servidor multimedia. No soy experto, pero me da curiosidad si hoy, con el hardware actual, el plegamiento de proteínas se simplificó mucho en comparación con antes, o si esto solo aplica a ciertos problemas. Parece que el proyecto Folding@Home todavía existe.
- Hasta donde sé, Folding@Home era un solver de simulación basado en física, mientras que AlphaFold y sus descendientes, incluido esto, son métodos estadísticos. Los métodos estadísticos son muchísimo más baratos computacionalmente, pero como se basan en plegamientos de proteínas ya existentes, predicen peor cuando la proteína no se parece a las del conjunto de entrenamiento. O sea, hay un trade-off entre velocidad y generalidad, pero el rendimiento ha mejorado tanto que ahora normalmente puedes obtener la estructura plegada de la proteína que te interesa. Lo que antes era una predicción de plegamiento casi imposible ahora ya forma parte del workflow habitual.
- Yo también disfrutaba SETI@Home, y aunque no entendiera al 100% cuál era el resultado, los efectos visuales eran tan notorios que resultaba divertido.
- Según una entrada del blog de F@H (enlace), sigue siendo importante conocer no solo la forma plegada final, sino también la dinámica del plegamiento. Las proteínas predichas por ML también son objetivos importantes para validar simulaciones y entender cómo funcionan.
- Folding@Home sigue operando muy activamente y en ese tiempo ha producido muchos descubrimientos excelentes (enlace a papers/resultados).
El paper dice: “nuestro método es más simple que los modelos state of the art”. Pero no dice con la misma fuerza que “queda bastante por detrás del state of the art en todas las métricas”. No debe ser fácil publicar un paper así, pero si lo subes como preprint con el nombre de una gran empresa, parece que llama más la atención.
Vale mucho la pena leer el repositorio de GitHub enlazado en el artículo (enlace a arXiv).
- Con solo ver el resumen (si lo entendí bien), lo que dice es: “sí, igual necesitas IA, pero puedes usar mucha menos IA que con otros métodos”.
- También comparto el enlace de GitHub para quien le interese (apple/ml-simplefold).
Me pregunto por qué Apple está haciendo plegamiento de proteínas.
- Apple también tiene un grupo de investigación en ML. No solo hacen investigación “muy Apple”, sino también varios temas de optimización general y ciencia básica (Apple Machine Learning Research).
- Yo tampoco lo sé. Pero me gustaría postular a un puesto de I+D donde no haga falta esperar ingresos directos. Tal vez proyectos como este se usen para probar y pulir sus propios chips de IA.
- Creo que es por inferencia local. Parece que Apple quiere reducir este tipo de modelos de punta para que puedan inferir rápido en una desktop. En el paper incluso muestran resultados de inferencia en una M2 Max de 64 GB en la Figura 1E. La verdad es que la idea es excelente. Incluso una farmacéutica pequeña podría superar muchas barreras gracias a una inferencia local rápida. También se podría experimentar con optimización bayesiana o RL usando secuencias generadas. Comparado con eso, AlphaFold requiere bastantes recursos. Además, el uso de alineamiento múltiple de secuencias se siente un poco forzado, rinde peor cuando no hay proteínas parecidas y exige muchísimo preprocesamiento. ESM de Meta, hace ya algunos años, demostró que también se puede lograr buen rendimiento sin alineamiento. AlphaFold no tiene magia especial; al final es un problema seq2seq y muchos enfoques funcionan bien, incluidos los attention-free SSMs.
- ¿Para vender computadoras? Hace 20 años Apple incluso hacía sesiones de pósters científicos en la WWDC e intentaba portar PyMol a Mac. Las imágenes de proteínas que aparecen en papers se hicieron con PyMol, y más de la mitad de las imágenes en papers científicos de los últimos 15 años se han hecho con PyMol.
- No sé si esa sea la razón real, pero una parte importante de los proyectos de “ai for science” en realidad son marketing. Aunque no beneficien directamente a los productos de la empresa ni produzcan resultados prácticos, sí ayudan bastante a la “posición de marca”.
Desde que AlphaFold se publicó, me pregunto si la simulación clásica de dinámica molecular (MD) ya dejó de ser útil en el campo del plegamiento de proteínas. También me pregunto si investigaciones como las de DESRES están directamente relacionadas con el plegamiento de proteínas o si trabajan en algo totalmente distinto.
- MD trata del movimiento de los átomos, mientras que AlphaFold solo da una instantánea del resultado. Es decir, AlphaFold no aborda la dinámica. El núcleo de MD sigue siendo el movimiento.
- Me dio curiosidad y lo revisé: los parámetros de AlphaFold V3 solo se entregan a ciertas organizaciones y únicamente para uso no comercial, no están disponibles para cualquiera (parámetros de V3); en cambio, los parámetros de AlphaFold V2 sí los puede descargar cualquier persona (parámetros de V2).
- MD en realidad nunca fue una herramienta realmente utilizable para predicción estructural. Más que volverse inútil por AlphaFold, MD siempre ha sido más útil para estudiar el plegamiento en sí mismo: el proceso antes de que se forme la estructura final, o los movimientos sistemáticos después del plegamiento.
Me dio curiosidad qué proteína era la imagen del paper, así que lo busqué: “Figure 1 SimpleFold prediction result… los resultados reales están en color esmeralda brillante y la predicción en azul verdoso oscuro”. Pero ahora me intriga aún más por qué eligieron esa combinación de colores.
- La figura a) es un diagrama de cinta de la proteína 7QSW(https://www.ebi.ac.uk/pdbe/entry/pdb/7qsw), es decir, la proteína vegetal RubisCO(https://en.wikipedia.org/wiki/RuBisCO), clave en la fotosíntesis. Los colores se usaron para distinguir la predicción del valor real (ground truth). La razón por la que cuesta distinguirlos no es solo la elección de colores que mencionas, sino también que la predicción y el resultado real están demasiado cerca. Si la predicción no fuera precisa, deberían verse partes que sobresalen por separado en el espacio 3D y no encajan bien.
Me gustaría que alguien experto evaluara qué podría significar este enfoque para la investigación de plegamiento de proteínas. Parece un trabajo muy interesante, pero no me queda claro qué impacto real podría tener.
- El modelo tiene una representación simple y usa solo transformer. Eso permite aplicar directamente muchas teorías y herramientas pensadas para transformers y, más importante aún, hace que el escalado del modelo sea sencillo. Más importante todavía es que sugiere que en AlphaFold no había magia. Más que los detalles de la arquitectura o del método de entrenamiento, lo importante al final era entrenar modelos grandes con datasets grandes. Muchas personas que han probado AlphaFold experimentalmente observaron que se comporta parecido a un LLM: funciona bien con entradas similares a las del dataset de entrenamiento, pero casi no generaliza.
- Puede que el modelo cambie en el futuro. La opinión de esta persona podría servir de referencia (SimpleFold y el futuro de la predicción de estructura de proteínas). Pero la investigación siempre toma tiempo y el impacto real solo se puede evaluar después de varios meses o años. La capacidad de predecir el futuro es limitada.
No es algo completamente nuevo, pero es muy impresionante ver la tendencia a simplificar cada vez más los modelos de plegamiento de proteínas. De AF2 a AF3 ya se redujo la complejidad del modelo, y este trabajo avanza un paso más en esa misma dirección, poniendo en práctica la “bitter lesson”.
- Me pregunto si AF3 realmente pudo garantizar ese rendimiento porque en los datos de entrenamiento metieron resultados de AF2, que ya traían muchísimos sesgos inductivos incorporados.
La técnica de flow-matching que trata el paper me parece realmente fascinante. La conocí estudiando en el contexto de IA generativa, y me impresiona que una técnica que toma prestados conceptos termodinámicos y de movimiento browniano vuelva a encajar perfectamente para resolver el problema del plegamiento de proteínas.

SimpleFold - el plegamiento de proteínas es más simple de lo que parece

Introducción e importancia de SimpleFold

Funciones principales y ventajas

Ejemplos de uso y soporte

Entrenamiento y preparación de datos

Open source y citación

Conclusión

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News