6 puntos por GN⁺ 2025-12-19 | 2 comentarios | Compartir por WhatsApp
  • Experimento para hacer que varios Mac Studio funcionen como un único gran pool de memoria usando la nueva función de RDMA (Remote Direct Memory Access) sobre Thunderbolt 5 añadida en macOS 26.2
  • Se configuró una memoria unificada de 1.5 TB con la herramienta de clustering open source Exo 1.0, mejorando la velocidad de ejecución de modelos grandes de IA
  • El Mac Studio con M3 Ultra mostró alto rendimiento y eficiencia incluso en un solo nodo, y al aplicar RDMA la latencia de acceso a memoria bajó de 300 μs a menos de 50 μs
  • También existen limitaciones operativas del clúster, como la complejidad del cableado de Thunderbolt 5, la ausencia de switches y las restricciones de administración en macOS
  • La combinación de RDMA y Exo muestra el potencial de expansión de entornos de IA y HPC basados en Mac, aunque todavía necesita mejoras en estabilidad y escalabilidad

Resumen del experimento con RDMA sobre Thunderbolt 5

  • Se probó la función de RDMA sobre Thunderbolt de macOS 26.2 usando un clúster de Mac Studio proporcionado por Apple
    • RDMA permite que varias Mac funcionen como una sola RAM de gran tamaño, acelerando el procesamiento de modelos de IA a gran escala
  • En las pruebas se utilizó la herramienta open source de clustering para IA Exo 1.0
  • El costo de 4 Mac Studio con un total de 1.5 TB de memoria unificada fue de alrededor de 40 mil dólares

Historia de Apple en HPC y el lugar del M3 Ultra

  • Apple casi no había tenido intentos relevantes en HPC desde la época de Xserve y Xgrid
  • El Mac Studio con M3 Ultra ofrece un rendimiento adecuado para ejecutar modelos de IA en local y, con soporte RDMA, la latencia en clustering baja de 300 μs a menos de 50 μs
  • Funciona de forma silenciosa con menos de 250 W de consumo, y también resulta adecuado para cómputo científico a pequeña escala y trabajo creativo

Configuración de hardware y red

  • Las 2 unidades inferiores tienen 512 GB de RAM / CPU de 32 núcleos, y las 2 superiores cuentan con 256 GB de RAM
  • Thunderbolt 5 ofrece un ancho de banda efectivo de 50 a 60 Gbps, pero debido a la ausencia de switches Thunderbolt cada Mac debe conectarse directamente con las demás
  • La estabilidad de red es inferior en comparación con Nvidia DGX Spark, que usa puertos QSFP
  • Existe ThunderLok-A para fijar los cables Thunderbolt, pero no se aplicó porque requería modificar el equipo Mac Studio

Benchmark de rendimiento del Mac Studio con M3 Ultra

  • En Geekbench superó tanto en single-core como en multi-core al Dell Pro Max (GB10) y al AMD AI Max+ 395
  • En el benchmark FP64 HPL superó 1 Tflop, aproximadamente el doble del rendimiento del Nvidia GB10
  • También mostró muy buen desempeño en inferencia de modelos grandes de IA, con alta eficiencia para el mismo nivel de consumo eléctrico
  • Un solo M3 Ultra superó en rendimiento y eficiencia a un clúster de 2 nodos Dell Pro Max

Administración del clúster y restricciones de macOS

  • En macOS no es posible actualizar el sistema por SSH, por lo que se requiere interacción mediante GUI
  • La administración remota se realizó con Screen Sharing
  • En comparación con Linux, la automatización de administración de clústeres es más difícil, y la falta de herramientas MDM también resulta incómoda

Pruebas con HPL y Llama.cpp

  • HPL logró 1.3 Tflops en un solo nodo, y en configuración de 4 nodos llegó a 3.7 Tflops, cerca de 3 veces más
  • Al usar conexión TCP sobre Thunderbolt se produjeron crashes del sistema; sin RDMA, el entorno era inestable
  • En pruebas con Llama.cpp, Thunderbolt 5 mostró menor latencia que Ethernet de 2.5 Gbps

Activación de RDMA y pruebas con Exo 1.0

  • Procedimiento para activar RDMA: entrar en modo de recuperación → ejecutar el comando rdma_ctl enable → reiniciar
  • Exo 1.0 es la única herramienta que soporta RDMA y permite ejecutar de forma distribuida entre varias Mac modelos de más de 600 GB (como Kimi K2 Thinking)
  • Llama.cpp distribuye capas del modelo mediante RPC, pero de manera ineficiente
  • Exo mejora el rendimiento al aumentar el número de nodos, logrando 32 tokens por segundo con el modelo Qwen3 235B
  • También se ejecutaron con éxito los modelos DeepSeek V3.1 y Kimi K2 Thinking (1 billón de parámetros)

Problemas de estabilidad y temas open source

  • Las pruebas se realizaron sobre software pre-release, por lo que hubo inestabilidad
  • Cuando RDMA funciona, el rendimiento es muy bueno, pero si falla es necesario reiniciar todo el clúster
  • El equipo de desarrollo de Exo estuvo inactivo por un tiempo antes de volver, y el proyecto está publicado bajo licencia Apache 2.0
  • También se mencionan preocupaciones sobre un proceso de desarrollo no público debido a la colaboración con Apple

Tareas futuras y preguntas pendientes

  • Si habrá o no un M5 Ultra y qué mejoras podría traer para machine learning
  • La necesidad de mejorar el clustering mediante el regreso de la expansión PCIe en el Mac Pro
  • La posibilidad de compartir archivos a alta velocidad si se añade soporte para SMB Direct
  • La expectativa de que otros programas como Llama.cpp amplíen su soporte para RDMA

Conclusión

  • La combinación de RDMA y Exo amplía de forma importante las posibilidades de uso del Mac Studio en IA y HPC
  • Sin embargo, las limitaciones estructurales de Thunderbolt 5 y las restricciones de administración de macOS siguen siendo cuellos de botella
  • Se necesitan mejoras en escalabilidad de red, como la adopción de puertos QSFP
  • Incluso cuando pase el auge de la IA, el Mac Studio seguirá teniendo valor como una workstation silenciosa y potente

2 comentarios

 
kaydash 2025-12-21

Me recuerda a impala.

 
GN⁺ 2025-12-19
Comentarios de Hacker News
  • Resumió lo que espera del M5 Max/Ultra
    Le gustaría que, en lugar de Thunderbolt, soportara enlaces QSFP (200 Gb/s o más) de nivel DGX. La arquitectura RDMA está genial, pero si no alcanza velocidades de ese nivel, pierde rentabilidad
    Quiere reducir el tiempo de prefill del prompt con un acelerador neuronal. No hace falta que llegue al nivel de una RTX 6000; con algo como una 3090/4090 sería suficiente
    Espera que la versión tope de gama del Mac Studio venga con 1 TB de memoria unificada. Cree que aumentar la memoria es más eficiente que usar varios equipos
    También le gustaría que el ancho de banda subiera en +1 TB/s. Lleva 3 generaciones recientes estancado en 800 GB/s
    Ojalá también permitiera overclock. El Mac Studio no es una laptop, así que piensa que no habría problema en consumir más de 600 W. Actualmente está limitado a unos 250 W
    Además, esta configuración RDMA solo permite conectar hasta 4 Macs. Como todos tienen que estar conectados directamente entre sí, cree que Apple debería invertir en enlaces rápidos como QSFP

    • ¿1 TB de memoria? Deberían dejar algo de RAM para que la compremos los usuarios comunes. Suena a “¡IA, haz feliz a la humanidad!”
    • El M4 ya alcanza la velocidad necesaria por canal, y el M5 la supera. Si sale una versión Ultra, 1 TB/s de ancho de banda seguramente será posible. El Max es la mitad de un Ultra, así que probablemente no llegue a tanto
    • El Mac Studio no tiene el diseño térmico para soportar de forma sostenida el calor de 650 W. Ese nivel solo sería viable en un diseño tipo Mac Pro
    • Los puertos USB-C frontales del M3 Ultra Mac Studio también son Thunderbolt 5, así que en total hay 6 puertos. Viendo las especificaciones oficiales, da curiosidad por qué sería necesario el límite de 4 equipos
    • El Apple Neural Engine ya soporta operaciones INT8 y FP16. El problema es que los frameworks de IA todavía no lo aprovechan bien
      Y también queda la duda de si de verdad hace falta una topología mesh completa entre todas las Macs. Thunderbolt parece funcionar sobre RDMA como si fuera una interfaz de red
  • Le intriga por qué Apple lanza una función como RDMA, pensada para clústeres de servidores, mientras ignora mejoras básicas de calidad como administración remota o montaje en rack
    Cree que internamente ya usan productos servidor con chips de la serie M, y que esta función podría ser un subproducto de eso

    • Tal vez Apple realmente está preparando un producto de nivel servidor, y publicó RDMA antes para que el software de terceros se adapte con anticipación
    • El Mac Studio tiene una posición única para inferencia de LLM. RDMA no sería para servidores en general, sino para agrupar 4 Studios y usarlos como un clúster de inferencia de LLM
    • Antes escuchó que Apple apilaba Macs Pro M2 en racks para la función de Private Compute
    • Le da curiosidad si Apple opera sus propios centros de datos. Pensaba que subcontrataban la mayor parte en GCP
    • Siempre le ha dado curiosidad esto: por qué el tooling para desarrollo es tan pobre y qué tipo de entorno usan dentro de Apple. Encadenar Mac Mini con cables Thunderbolt se siente algo frustrante
  • El trabajo de Jeff está realmente genial. También le pareció interesante la noticia de RDMA sobre Thunderbolt
    Sobre todo, agradece la energía positiva de Jeff y sus contribuciones constantes

  • Linux soporta RDMA, pero todavía no es posible sobre Thunderbolt. Implementarlo probablemente requeriría bastante trabajo
    Estaría bien poder unir 2 o 3 cajas Strix Halo baratas (128 GB DDR5-8000, 2 USB4) para correr modelos grandes

  • Actualmente Thunderbolt no tiene switches, así que el tamaño del clúster está limitado
    En cambio, le da curiosidad si se podría usar RoCE (RDMA over Converged Ethernet). Ha oído que RDMA es de 7 a 10 veces más rápido que TCP
    También existen adaptadores Thunderbolt Ethernet de 10G a 80G, pero la latencia podría ser el problema
    Si hubiera una ranura PCIe, bastaría con poner una tarjeta Infiniband, aunque al final todo depende del driver

    • También es posible convertir Thunderbolt a PCIe y usar una NIC común. Atto Thunderlink en realidad es básicamente una carcasa para una NIC Broadcom
      Sorprende que Apple haya incluido el driver MLX5 incluso en iPadOS. Ver este blog relacionado
    • macOS incluye drivers para tarjetas Mellanox ConnectX, pero no está claro si realmente aparecen en ibv_devices
  • Le gustaría ver datos que midan por separado la velocidad de entrada (prefill) y la de salida (decode)
    En la publicación de Exo se mencionaba que en hardware Mac ambas velocidades son bastante distintas

    • Hay algunos datos relacionados en este issue de GitHub.
      Está pensando en proponerle al equipo de Exo que agregue una función de benchmark
  • Le pareció interesante que Thunderbolt 5 no fuera tan dominante como esperaba
    Frente a Ethernet de 2.5 Gbps, TB5 solo fue alrededor de un 10% más rápido. El M3 Studio soporta Ethernet de 10 Gbps, pero no fue probado
    TB5 tiene el límite de 4 equipos porque todas las CPU deben estar conectadas directamente entre sí. En cambio, con un switch Ethernet se podrían conectar más nodos

    • En este video hacen pruebas con Ethernet de 10 Gbps
    • Por experiencias anteriores con llama RPC, Ethernet de 10G apenas mejora la velocidad. La latencia importa más, pero incluso ahí hay límites
    • llama todavía no estaba muy optimizado y escalaba mal. RDMA tiene menos sobrecarga que Ethernet
  • Cada nodo del clúster tiene 512 GB de RAM. El modelo DeepSeek V3.1 necesita 700 GB de RAM
    Le parece extraño que al pasar de 1 nodo a 2, la velocidad de inferencia solo mejorara un 32%. Incluso con 4 nodos, la mejora es menor al 50%
    Parece que hay algún cuello de botella

    • El ancho de banda de red es de 80 Gbps, así que ese es el cuello de botella. Infiniband es 10 veces más rápido
    • Los pesos del modelo son de solo lectura, así que podrían mapearse en memoria desde SSD. La limitación real es la memoria de activaciones. Una arquitectura MoE podría ayudar
    • TB5 RDMA es muchísimo más lento que el acceso directo a la memoria del sistema
  • La estructura en la que todos los nodos están conectados entre sí le recordó a NUMALink de SGI.
    Las supercomputadoras SGI conectaban cada nodo con todos los demás mediante dos enlaces. Había muchos cables, pero no hacía falta preocuparse por framing ni control de congestión

    • El hardware de SGI implementaba ccNUMA (cache-coherent NUMA). El sistema operativo IRIX movía los trabajos y la memoria físicamente cerca para reducir la latencia
      Es la misma lógica por la que hoy los sistemas de trading de alta frecuencia colocan procesos teniendo en cuenta los núcleos de CPU y la ubicación de los DIMM
    • El rack NVL72 también tiene una estructura parecida, con decenas de enlaces entre GPUs
  • Le gustaron varios detalles interesantes que aparecían en el artículo
    La misteriosa desaparición de Exo, que Jeff quiera SMB Direct para Mac, la velocidad de inferencia del M3 Ultra y el escritorio Framework AI de 2100 dólares
    Gracias a eso siente que encontró una nueva madriguera de conejo