- macOS Tahoe 26.2 incorpora una nueva función de RDMA basado en Thunderbolt 5, que permite comunicaciones de baja latencia para casos como la inferencia distribuida de IA con MLX
- Esto significa “poder tratar a una Mac como un nodo de cómputo distribuido de alta velocidad”, lo que permite que macOS vaya más allá de ser solo un sistema operativo de escritorio y pueda ampliarse como una plataforma local de experimentación para IA y HPC
¿Qué es RDMA?
- RDMA (Remote Direct Memory Access) es un método de comunicación en el que una computadora accede directamente a la memoria de otra sin intervención de la CPU
- Al evitar el stack de red, las copias en kernel y los cambios de contexto, reduce la latencia al mínimo y aumenta considerablemente el rendimiento
- Se ha utilizado principalmente en redes de centros de datos como InfiniBand y RoCE
- Se ha consolidado como una tecnología estándar en computación de alto rendimiento (HPC), almacenamiento distribuido y entrenamiento e inferencia de IA a gran escala
- La clave es que “aunque haya comunicación por red, funciona casi tan rápido como si se usara la misma memoria”
Qué significa RDMA sobre Thunderbolt
- En macOS 26.2, se admite la comunicación RDMA entre Macs conectadas mediante Thunderbolt 5
- Si antes RDMA estaba limitado a equipos de red de nivel servidor, ahora también es posible en un clúster local de Macs conectadas con un solo cable
- Se puede aprovechar directamente el alto ancho de banda y la latencia extremadamente baja de Thunderbolt dentro del modelo RDMA
- En otras palabras, se abre “una vía para unir varias Macs sobre el escritorio como si fueran un centro de datos”
Por qué encaja bien con las cargas de trabajo de IA
- En el entrenamiento o la inferencia distribuida de IA, el intercambio de tensores entre nodos suele convertirse en un cuello de botella
- En este proceso, RDMA evita consumir CPU y ofrece un patrón de comunicación cercano a GPU ↔ GPU
- La inferencia distribuida de IA basada en MLX mencionada en las notas de la versión está diseñada precisamente bajo el supuesto de esta comunicación de baja latencia y alto ancho de banda
- Se amplían las posibilidades de dividir un modelo entre varias Macs y construir un clúster de inferencia que funcione como una sola máquina
- Para equipos pequeños o entornos de investigación, “crear un clúster de IA con Macs sin necesidad de servidores” se vuelve una opción realista
Casos de uso que ahora sí son viables
- Conectar varias Mac Studio / Mac Pro por Thunderbolt para armar una granja local de inferencia de IA
- Si es difícil cargar un modelo grande en una sola GPU, se pueden hacer pruebas de inferencia con partición del modelo
- Simulación distribuida local, pipelines de datos de alta velocidad e investigación experimental de sistemas distribuidos
- Reducción importante del costo de construir entornos de prototipado y PoC antes de pasar al centro de datos
4 comentarios
La red por Thunderbolt sí que es realmente cómoda
Como permite conexión en cadena, ni siquiera hace falta un hub
Ahora sí parece que va a haber bastantes personas conectando dispositivos Mac para armar una granja de inferencia y ofrecer servicios desde casa.
Las notas de lanzamiento oficiales de Apple solo dicen una sola línea, que ahora es posible usar "RDMA over Thunderbolt", así que agregué una explicación adicional en GN+.
Opiniones de Hacker News
Sigo al equipo de MLX en Twitter. A menudo comparten casos donde conectan dos o más Macs para ejecutar modelos que requieren más de 512 GB de RAM
Por ejemplo, Kimi K2 Thinking (1T parámetros) y DeepSeek R1 (671B). En este último caso también compartieron una guía de configuración en Gist
En la próxima versión Tahoe 26.2 será posible la paralelización de tensores. Cada capa podrá fragmentarse entre varias máquinas, así que con N equipos se podría obtener casi N veces más velocidad. El gran reto, eso sí, es la latencia de comunicación
Aun así, para personas que quieren experimentar con LLMs en local sí suena bien, pero no parece que empresas con mucho presupuesto vayan a comprar esto masivamente en lugar de GPUs
Comparé hardware para inferencia con un presupuesto de $50,000
Con todo el caos actual en el mercado de RAM, sería bastante irónico que, gracias a la cadena de suministro estable de Apple, sus equipos terminen convirtiéndose en una opción con muy buena relación costo-beneficio para armar clústeres medianos de inferencia
Se habla de agrupar varias Mac Studio en un clúster, pero me preocupan las limitaciones físicas y de administración
sudo softwareupdate -i -asolo se pueden aplicar actualizaciones menoresOjalá Apple construya su propia nube basada en chips de la serie M, refuerce Metal para IA y ofrezca un modelo de self-hosting centrado en la privacidad. Podría tener muchísimo éxito en industrias con datos sensibles
Me pregunto si esto también podría usarse para cargas distribuidas generales más allá de la IA
Referencia: guía de uso distribuido de MLX
Artículo relacionado: Engadget - Puedes convertir un clúster de Macs en una supercomputadora de IA en macOS Tahoe 26.2
George Hotz logró hacer funcionar una GPU de NVIDIA desde una Mac por USB4 usando tinygrad
Tweet de tinygrad
No entiendo bien qué es RDMA, pero ¿significa que se puede ejecutar inferencia en paralelo conectando varias Macs? Si es así, suena increíble