Desde macOS 26.2 ya es posible crear clústeres de IA rápidos con RDMA sobre Thunderbolt

(developer.apple.com)

11 puntos por GN⁺ 2025-12-13 | 4 comentarios | Compartir por WhatsApp

macOS Tahoe 26.2 incorpora una nueva función de RDMA basado en Thunderbolt 5, que permite comunicaciones de baja latencia para casos como la inferencia distribuida de IA con MLX
Esto significa “poder tratar a una Mac como un nodo de cómputo distribuido de alta velocidad”, lo que permite que macOS vaya más allá de ser solo un sistema operativo de escritorio y pueda ampliarse como una plataforma local de experimentación para IA y HPC

¿Qué es RDMA?

RDMA (Remote Direct Memory Access) es un método de comunicación en el que una computadora accede directamente a la memoria de otra sin intervención de la CPU
Al evitar el stack de red, las copias en kernel y los cambios de contexto, reduce la latencia al mínimo y aumenta considerablemente el rendimiento
Se ha utilizado principalmente en redes de centros de datos como InfiniBand y RoCE
Se ha consolidado como una tecnología estándar en computación de alto rendimiento (HPC), almacenamiento distribuido y entrenamiento e inferencia de IA a gran escala
La clave es que “aunque haya comunicación por red, funciona casi tan rápido como si se usara la misma memoria”

Qué significa RDMA sobre Thunderbolt

En macOS 26.2, se admite la comunicación RDMA entre Macs conectadas mediante Thunderbolt 5
Si antes RDMA estaba limitado a equipos de red de nivel servidor, ahora también es posible en un clúster local de Macs conectadas con un solo cable
Se puede aprovechar directamente el alto ancho de banda y la latencia extremadamente baja de Thunderbolt dentro del modelo RDMA
En otras palabras, se abre “una vía para unir varias Macs sobre el escritorio como si fueran un centro de datos”

Por qué encaja bien con las cargas de trabajo de IA

En el entrenamiento o la inferencia distribuida de IA, el intercambio de tensores entre nodos suele convertirse en un cuello de botella
En este proceso, RDMA evita consumir CPU y ofrece un patrón de comunicación cercano a GPU ↔ GPU
La inferencia distribuida de IA basada en MLX mencionada en las notas de la versión está diseñada precisamente bajo el supuesto de esta comunicación de baja latencia y alto ancho de banda
Se amplían las posibilidades de dividir un modelo entre varias Macs y construir un clúster de inferencia que funcione como una sola máquina
Para equipos pequeños o entornos de investigación, “crear un clúster de IA con Macs sin necesidad de servidores” se vuelve una opción realista

Casos de uso que ahora sí son viables

Conectar varias Mac Studio / Mac Pro por Thunderbolt para armar una granja local de inferencia de IA
Si es difícil cargar un modelo grande en una sola GPU, se pueden hacer pruebas de inferencia con partición del modelo
Simulación distribuida local, pipelines de datos de alta velocidad e investigación experimental de sistemas distribuidos
Reducción importante del costo de construir entornos de prototipado y PoC antes de pasar al centro de datos

4 comentarios

bus710 2025-12-14

La red por Thunderbolt sí que es realmente cómoda
Como permite conexión en cadena, ni siquiera hace falta un hub

shakespeares 2025-12-13

Ahora sí parece que va a haber bastantes personas conectando dispositivos Mac para armar una granja de inferencia y ofrecer servicios desde casa.

xguru 2025-12-13

Las notas de lanzamiento oficiales de Apple solo dicen una sola línea, que ahora es posible usar "RDMA over Thunderbolt", así que agregué una explicación adicional en GN+.

GN⁺ 2025-12-13

Opiniones de Hacker News

Sigo al equipo de MLX en Twitter. A menudo comparten casos donde conectan dos o más Macs para ejecutar modelos que requieren más de 512 GB de RAM
Por ejemplo, Kimi K2 Thinking (1T parámetros) y DeepSeek R1 (671B). En este último caso también compartieron una guía de configuración en Gist
- Esas publicaciones usan paralelización por pipeline. Si hay N máquinas, se distribuyen L/N capas en cada una. No mejora la velocidad, pero sí permite ejecutar modelos demasiado grandes para una sola máquina
  En la próxima versión Tahoe 26.2 será posible la paralelización de tensores. Cada capa podrá fragmentarse entre varias máquinas, así que con N equipos se podría obtener casi N veces más velocidad. El gran reto, eso sí, es la latencia de comunicación
- La semana pasada hicieron una prueba de paralelización de tensores basada en RDMA. Enlace de la prueba. También mencionan un método alternativo de sincronización rápida
- Ojalá este enfoque no resulte tan atractivo para quienes no son especialistas. En cargas de trabajo paralelas o de contexto, el rendimiento no escala bien
  Aun así, para personas que quieren experimentar con LLMs en local sí suena bien, pero no parece que empresas con mucho presupuesto vayan a comprar esto masivamente en lugar de GPUs
- Lo más sorprendente es el consumo eléctrico. ¿De verdad unas dos máquinas juntas consumen apenas unos 50 W? Hasta pensé que lo había leído mal
Comparé hardware para inferencia con un presupuesto de $50,000
- Clúster Apple M3 Ultra ($50k): maximiza la capacidad (3 TB). Es la única opción capaz de ejecutar modelos de 3T+ parámetros (como Kimi K2), pero es lento (~15 t/s)
- Estación de trabajo NVIDIA RTX 6000 ($50k): maximiza el rendimiento (>80 t/s). Es excelente tanto para entrenamiento como para inferencia, pero su VRAM está limitada a 384 GB, así que solo sirve para modelos de menos de 400B
- Para conseguir al mismo tiempo la misma capacidad (3 TB) y más de 100 t/s de rendimiento, haría falta un clúster NVIDIA GH200 de unos $270,000. El clúster de Apple ofrece el 87% de esa capacidad por apenas el 18% del costo
- También se puede hacer mucho más barato. Yo ejecuto DeepSeek-R1 en una estación de trabajo Xeon de doble socket (768 GB de RAM) de $2,000, a una velocidad de 1 a 2 tokens por segundo
- Me da curiosidad ese cálculo de un clúster NVIDIA de $50k. Si una RTX 6000 cuesta como $8k, con unas 5 saldrían cerca de $40k y darían medio TB. Aun así, para inferencia los Mac siguen siendo eficientes, y el M5 Ultra probablemente tendrá una mejor relación precio-rendimiento
- Con el mismo presupuesto también se podrían comprar 25 placas de escritorio de Framework (cada una con 128 GB de VRAM y con Strix Halo). Serían 3 TB de VRAM en total, aunque agruparlas en clúster sería bastante complicado
- Si se toma en cuenta la mejora de velocidad por paralelización que todavía no está implementada, parece una oferta bastante decente para un entorno on-premise de inferencia
- Apple usa LPDDR5X para reducir el consumo energético y el costo, mientras que NVIDIA prioriza el rendimiento con GDDR/HBM
Con todo el caos actual en el mercado de RAM, sería bastante irónico que, gracias a la cadena de suministro estable de Apple, sus equipos terminen convirtiéndose en una opción con muy buena relación costo-beneficio para armar clústeres medianos de inferencia
- Sería un problema si los usuarios comerciales empiezan a comprar todas las Mac buenas
- En algunos usos eso ya está pasando
Se habla de agrupar varias Mac Studio en un clúster, pero me preocupan las limitaciones físicas y de administración
1. La ubicación del botón de encendido es incómoda, así que en rack no resulta práctico
2. Thunderbolt está muy bien para periféricos, pero como interconexión permanente me preocupa la durabilidad de los puertos
3. La calidad del cable importa mucho. Con TB4/TB5 he tenido bastantes problemas si no se usan cables caros
4. La administración remota de macOS es menos eficiente que la de Linux. Por ejemplo, hacer la actualización de macOS 26.1 → 26.2 sin GUI puede ser complicado. Con sudo softwareupdate -i -a solo se pueden aplicar actualizaciones menores
- Sobre el punto 2, el dock de OWC tiene orificios con tornillo para fijar cables. Con el OWC Thunderbolt Dock y el adaptador ClingOn se puede reducir el estrés sobre el puerto
- El problema del botón de encendido se puede resolver con el chasis RackMac Studio. Extiende mecánicamente el botón
- Usar Thunderbolt como interconexión de servidor no se ve muy elegante, pero si todo queda fijo dentro del rack, de hecho hay menos estrés físico
- Con una solución MDM no solo se pueden gestionar actualizaciones de software, sino también LOM (administración remota de energía). Incluso existen opciones MDM de código abierto
- Todavía se vende la versión rackmount de la Mac Pro, pero como no se ha actualizado a M3 Ultra, probablemente pronto será descontinuada
Ojalá Apple construya su propia nube basada en chips de la serie M, refuerce Metal para IA y ofrezca un modelo de self-hosting centrado en la privacidad. Podría tener muchísimo éxito en industrias con datos sensibles
- Ya existe algo parecido: Private Cloud Compute, aunque está limitado a usuarios de Apple y a modelos de Apple
- En centros de datos, fragmentar el trabajo mediante interconexiones rápidas suele ser más eficiente que tener mucha memoria por GPU. NVIDIA y AMD siguen estando por delante en rendimiento de cómputo
Me pregunto si esto también podría usarse para cargas distribuidas generales más allá de la IA
- Lo probé con HPL y mpirun, pero por ahora RDMA no está soportado y solo funciona el modo Ring. Está algo verde, pero sí funciona
  Referencia: guía de uso distribuido de MLX
Artículo relacionado: Engadget - Puedes convertir un clúster de Macs en una supercomputadora de IA en macOS Tahoe 26.2
George Hotz logró hacer funcionar una GPU de NVIDIA desde una Mac por USB4 usando tinygrad
Tweet de tinygrad
- También hay un ejemplo de NVIDIA funcionando en una Mac Pro 2023 con Linux
No entiendo bien qué es RDMA, pero ¿significa que se puede ejecutar inferencia en paralelo conectando varias Macs? Si es así, suena increíble
- Ya era posible hacer inferencia con varias Macs desde hace un año, pero ahora funciona mucho más rápido