- Experimento para hacer que varios Mac Studio funcionen como un único gran pool de memoria usando la nueva función de RDMA (Remote Direct Memory Access) sobre Thunderbolt 5 añadida en macOS 26.2
- Se configuró una memoria unificada de 1.5 TB con la herramienta de clustering open source Exo 1.0, mejorando la velocidad de ejecución de modelos grandes de IA
- El Mac Studio con M3 Ultra mostró alto rendimiento y eficiencia incluso en un solo nodo, y al aplicar RDMA la latencia de acceso a memoria bajó de 300 μs a menos de 50 μs
- También existen limitaciones operativas del clúster, como la complejidad del cableado de Thunderbolt 5, la ausencia de switches y las restricciones de administración en macOS
- La combinación de RDMA y Exo muestra el potencial de expansión de entornos de IA y HPC basados en Mac, aunque todavía necesita mejoras en estabilidad y escalabilidad
Resumen del experimento con RDMA sobre Thunderbolt 5
- Se probó la función de RDMA sobre Thunderbolt de macOS 26.2 usando un clúster de Mac Studio proporcionado por Apple
- RDMA permite que varias Mac funcionen como una sola RAM de gran tamaño, acelerando el procesamiento de modelos de IA a gran escala
- En las pruebas se utilizó la herramienta open source de clustering para IA Exo 1.0
- El costo de 4 Mac Studio con un total de 1.5 TB de memoria unificada fue de alrededor de 40 mil dólares
Historia de Apple en HPC y el lugar del M3 Ultra
- Apple casi no había tenido intentos relevantes en HPC desde la época de Xserve y Xgrid
- El Mac Studio con M3 Ultra ofrece un rendimiento adecuado para ejecutar modelos de IA en local y, con soporte RDMA, la latencia en clustering baja de 300 μs a menos de 50 μs
- Funciona de forma silenciosa con menos de 250 W de consumo, y también resulta adecuado para cómputo científico a pequeña escala y trabajo creativo
Configuración de hardware y red
- Las 2 unidades inferiores tienen 512 GB de RAM / CPU de 32 núcleos, y las 2 superiores cuentan con 256 GB de RAM
- Thunderbolt 5 ofrece un ancho de banda efectivo de 50 a 60 Gbps, pero debido a la ausencia de switches Thunderbolt cada Mac debe conectarse directamente con las demás
- La estabilidad de red es inferior en comparación con Nvidia DGX Spark, que usa puertos QSFP
- Existe ThunderLok-A para fijar los cables Thunderbolt, pero no se aplicó porque requería modificar el equipo Mac Studio
Benchmark de rendimiento del Mac Studio con M3 Ultra
- En Geekbench superó tanto en single-core como en multi-core al Dell Pro Max (GB10) y al AMD AI Max+ 395
- En el benchmark FP64 HPL superó 1 Tflop, aproximadamente el doble del rendimiento del Nvidia GB10
- También mostró muy buen desempeño en inferencia de modelos grandes de IA, con alta eficiencia para el mismo nivel de consumo eléctrico
- Un solo M3 Ultra superó en rendimiento y eficiencia a un clúster de 2 nodos Dell Pro Max
Administración del clúster y restricciones de macOS
- En macOS no es posible actualizar el sistema por SSH, por lo que se requiere interacción mediante GUI
- La administración remota se realizó con Screen Sharing
- En comparación con Linux, la automatización de administración de clústeres es más difícil, y la falta de herramientas MDM también resulta incómoda
Pruebas con HPL y Llama.cpp
- HPL logró 1.3 Tflops en un solo nodo, y en configuración de 4 nodos llegó a 3.7 Tflops, cerca de 3 veces más
- Al usar conexión TCP sobre Thunderbolt se produjeron crashes del sistema; sin RDMA, el entorno era inestable
- En pruebas con Llama.cpp, Thunderbolt 5 mostró menor latencia que Ethernet de 2.5 Gbps
Activación de RDMA y pruebas con Exo 1.0
- Procedimiento para activar RDMA: entrar en modo de recuperación → ejecutar el comando
rdma_ctl enable → reiniciar
- Exo 1.0 es la única herramienta que soporta RDMA y permite ejecutar de forma distribuida entre varias Mac modelos de más de 600 GB (como Kimi K2 Thinking)
- Llama.cpp distribuye capas del modelo mediante RPC, pero de manera ineficiente
- Exo mejora el rendimiento al aumentar el número de nodos, logrando 32 tokens por segundo con el modelo Qwen3 235B
- También se ejecutaron con éxito los modelos DeepSeek V3.1 y Kimi K2 Thinking (1 billón de parámetros)
Problemas de estabilidad y temas open source
- Las pruebas se realizaron sobre software pre-release, por lo que hubo inestabilidad
- Cuando RDMA funciona, el rendimiento es muy bueno, pero si falla es necesario reiniciar todo el clúster
- El equipo de desarrollo de Exo estuvo inactivo por un tiempo antes de volver, y el proyecto está publicado bajo licencia Apache 2.0
- También se mencionan preocupaciones sobre un proceso de desarrollo no público debido a la colaboración con Apple
Tareas futuras y preguntas pendientes
- Si habrá o no un M5 Ultra y qué mejoras podría traer para machine learning
- La necesidad de mejorar el clustering mediante el regreso de la expansión PCIe en el Mac Pro
- La posibilidad de compartir archivos a alta velocidad si se añade soporte para SMB Direct
- La expectativa de que otros programas como Llama.cpp amplíen su soporte para RDMA
Conclusión
- La combinación de RDMA y Exo amplía de forma importante las posibilidades de uso del Mac Studio en IA y HPC
- Sin embargo, las limitaciones estructurales de Thunderbolt 5 y las restricciones de administración de macOS siguen siendo cuellos de botella
- Se necesitan mejoras en escalabilidad de red, como la adopción de puertos QSFP
- Incluso cuando pase el auge de la IA, el Mac Studio seguirá teniendo valor como una workstation silenciosa y potente
2 comentarios
Me recuerda a impala.
Comentarios de Hacker News
Resumió lo que espera del M5 Max/Ultra
Le gustaría que, en lugar de Thunderbolt, soportara enlaces QSFP (200 Gb/s o más) de nivel DGX. La arquitectura RDMA está genial, pero si no alcanza velocidades de ese nivel, pierde rentabilidad
Quiere reducir el tiempo de prefill del prompt con un acelerador neuronal. No hace falta que llegue al nivel de una RTX 6000; con algo como una 3090/4090 sería suficiente
Espera que la versión tope de gama del Mac Studio venga con 1 TB de memoria unificada. Cree que aumentar la memoria es más eficiente que usar varios equipos
También le gustaría que el ancho de banda subiera en +1 TB/s. Lleva 3 generaciones recientes estancado en 800 GB/s
Ojalá también permitiera overclock. El Mac Studio no es una laptop, así que piensa que no habría problema en consumir más de 600 W. Actualmente está limitado a unos 250 W
Además, esta configuración RDMA solo permite conectar hasta 4 Macs. Como todos tienen que estar conectados directamente entre sí, cree que Apple debería invertir en enlaces rápidos como QSFP
Y también queda la duda de si de verdad hace falta una topología mesh completa entre todas las Macs. Thunderbolt parece funcionar sobre RDMA como si fuera una interfaz de red
Le intriga por qué Apple lanza una función como RDMA, pensada para clústeres de servidores, mientras ignora mejoras básicas de calidad como administración remota o montaje en rack
Cree que internamente ya usan productos servidor con chips de la serie M, y que esta función podría ser un subproducto de eso
El trabajo de Jeff está realmente genial. También le pareció interesante la noticia de RDMA sobre Thunderbolt
Sobre todo, agradece la energía positiva de Jeff y sus contribuciones constantes
Linux soporta RDMA, pero todavía no es posible sobre Thunderbolt. Implementarlo probablemente requeriría bastante trabajo
Estaría bien poder unir 2 o 3 cajas Strix Halo baratas (128 GB DDR5-8000, 2 USB4) para correr modelos grandes
Actualmente Thunderbolt no tiene switches, así que el tamaño del clúster está limitado
En cambio, le da curiosidad si se podría usar RoCE (RDMA over Converged Ethernet). Ha oído que RDMA es de 7 a 10 veces más rápido que TCP
También existen adaptadores Thunderbolt Ethernet de 10G a 80G, pero la latencia podría ser el problema
Si hubiera una ranura PCIe, bastaría con poner una tarjeta Infiniband, aunque al final todo depende del driver
Sorprende que Apple haya incluido el driver MLX5 incluso en iPadOS. Ver este blog relacionado
ibv_devicesLe gustaría ver datos que midan por separado la velocidad de entrada (prefill) y la de salida (decode)
En la publicación de Exo se mencionaba que en hardware Mac ambas velocidades son bastante distintas
Está pensando en proponerle al equipo de Exo que agregue una función de benchmark
Le pareció interesante que Thunderbolt 5 no fuera tan dominante como esperaba
Frente a Ethernet de 2.5 Gbps, TB5 solo fue alrededor de un 10% más rápido. El M3 Studio soporta Ethernet de 10 Gbps, pero no fue probado
TB5 tiene el límite de 4 equipos porque todas las CPU deben estar conectadas directamente entre sí. En cambio, con un switch Ethernet se podrían conectar más nodos
Cada nodo del clúster tiene 512 GB de RAM. El modelo DeepSeek V3.1 necesita 700 GB de RAM
Le parece extraño que al pasar de 1 nodo a 2, la velocidad de inferencia solo mejorara un 32%. Incluso con 4 nodos, la mejora es menor al 50%
Parece que hay algún cuello de botella
La estructura en la que todos los nodos están conectados entre sí le recordó a NUMALink de SGI.
Las supercomputadoras SGI conectaban cada nodo con todos los demás mediante dos enlaces. Había muchos cables, pero no hacía falta preocuparse por framing ni control de congestión
Es la misma lógica por la que hoy los sistemas de trading de alta frecuencia colocan procesos teniendo en cuenta los núcleos de CPU y la ubicación de los DIMM
Le gustaron varios detalles interesantes que aparecían en el artículo
La misteriosa desaparición de Exo, que Jeff quiera SMB Direct para Mac, la velocidad de inferencia del M3 Ultra y el escritorio Framework AI de 2100 dólares
Gracias a eso siente que encontró una nueva madriguera de conejo