11 puntos por GN⁺ 2025-12-13 | 4 comentarios | Compartir por WhatsApp
  • macOS Tahoe 26.2 incorpora una nueva función de RDMA basado en Thunderbolt 5, que permite comunicaciones de baja latencia para casos como la inferencia distribuida de IA con MLX
  • Esto significa “poder tratar a una Mac como un nodo de cómputo distribuido de alta velocidad”, lo que permite que macOS vaya más allá de ser solo un sistema operativo de escritorio y pueda ampliarse como una plataforma local de experimentación para IA y HPC

¿Qué es RDMA?

  • RDMA (Remote Direct Memory Access) es un método de comunicación en el que una computadora accede directamente a la memoria de otra sin intervención de la CPU
  • Al evitar el stack de red, las copias en kernel y los cambios de contexto, reduce la latencia al mínimo y aumenta considerablemente el rendimiento
  • Se ha utilizado principalmente en redes de centros de datos como InfiniBand y RoCE
  • Se ha consolidado como una tecnología estándar en computación de alto rendimiento (HPC), almacenamiento distribuido y entrenamiento e inferencia de IA a gran escala
  • La clave es que “aunque haya comunicación por red, funciona casi tan rápido como si se usara la misma memoria”

Qué significa RDMA sobre Thunderbolt

  • En macOS 26.2, se admite la comunicación RDMA entre Macs conectadas mediante Thunderbolt 5
  • Si antes RDMA estaba limitado a equipos de red de nivel servidor, ahora también es posible en un clúster local de Macs conectadas con un solo cable
  • Se puede aprovechar directamente el alto ancho de banda y la latencia extremadamente baja de Thunderbolt dentro del modelo RDMA
  • En otras palabras, se abre “una vía para unir varias Macs sobre el escritorio como si fueran un centro de datos”

Por qué encaja bien con las cargas de trabajo de IA

  • En el entrenamiento o la inferencia distribuida de IA, el intercambio de tensores entre nodos suele convertirse en un cuello de botella
  • En este proceso, RDMA evita consumir CPU y ofrece un patrón de comunicación cercano a GPU ↔ GPU
  • La inferencia distribuida de IA basada en MLX mencionada en las notas de la versión está diseñada precisamente bajo el supuesto de esta comunicación de baja latencia y alto ancho de banda
  • Se amplían las posibilidades de dividir un modelo entre varias Macs y construir un clúster de inferencia que funcione como una sola máquina
  • Para equipos pequeños o entornos de investigación, “crear un clúster de IA con Macs sin necesidad de servidores” se vuelve una opción realista

Casos de uso que ahora sí son viables

  • Conectar varias Mac Studio / Mac Pro por Thunderbolt para armar una granja local de inferencia de IA
  • Si es difícil cargar un modelo grande en una sola GPU, se pueden hacer pruebas de inferencia con partición del modelo
  • Simulación distribuida local, pipelines de datos de alta velocidad e investigación experimental de sistemas distribuidos
  • Reducción importante del costo de construir entornos de prototipado y PoC antes de pasar al centro de datos

4 comentarios

 
bus710 2025-12-14

La red por Thunderbolt sí que es realmente cómoda
Como permite conexión en cadena, ni siquiera hace falta un hub

 
shakespeares 2025-12-13

Ahora sí parece que va a haber bastantes personas conectando dispositivos Mac para armar una granja de inferencia y ofrecer servicios desde casa.

 
xguru 2025-12-13

Las notas de lanzamiento oficiales de Apple solo dicen una sola línea, que ahora es posible usar "RDMA over Thunderbolt", así que agregué una explicación adicional en GN+.

 
GN⁺ 2025-12-13
Opiniones de Hacker News
  • Sigo al equipo de MLX en Twitter. A menudo comparten casos donde conectan dos o más Macs para ejecutar modelos que requieren más de 512 GB de RAM
    Por ejemplo, Kimi K2 Thinking (1T parámetros) y DeepSeek R1 (671B). En este último caso también compartieron una guía de configuración en Gist

    • Esas publicaciones usan paralelización por pipeline. Si hay N máquinas, se distribuyen L/N capas en cada una. No mejora la velocidad, pero sí permite ejecutar modelos demasiado grandes para una sola máquina
      En la próxima versión Tahoe 26.2 será posible la paralelización de tensores. Cada capa podrá fragmentarse entre varias máquinas, así que con N equipos se podría obtener casi N veces más velocidad. El gran reto, eso sí, es la latencia de comunicación
    • La semana pasada hicieron una prueba de paralelización de tensores basada en RDMA. Enlace de la prueba. También mencionan un método alternativo de sincronización rápida
    • Ojalá este enfoque no resulte tan atractivo para quienes no son especialistas. En cargas de trabajo paralelas o de contexto, el rendimiento no escala bien
      Aun así, para personas que quieren experimentar con LLMs en local sí suena bien, pero no parece que empresas con mucho presupuesto vayan a comprar esto masivamente en lugar de GPUs
    • Lo más sorprendente es el consumo eléctrico. ¿De verdad unas dos máquinas juntas consumen apenas unos 50 W? Hasta pensé que lo había leído mal
  • Comparé hardware para inferencia con un presupuesto de $50,000

    • Clúster Apple M3 Ultra ($50k): maximiza la capacidad (3 TB). Es la única opción capaz de ejecutar modelos de 3T+ parámetros (como Kimi K2), pero es lento (~15 t/s)
    • Estación de trabajo NVIDIA RTX 6000 ($50k): maximiza el rendimiento (>80 t/s). Es excelente tanto para entrenamiento como para inferencia, pero su VRAM está limitada a 384 GB, así que solo sirve para modelos de menos de 400B
    • Para conseguir al mismo tiempo la misma capacidad (3 TB) y más de 100 t/s de rendimiento, haría falta un clúster NVIDIA GH200 de unos $270,000. El clúster de Apple ofrece el 87% de esa capacidad por apenas el 18% del costo
    • También se puede hacer mucho más barato. Yo ejecuto DeepSeek-R1 en una estación de trabajo Xeon de doble socket (768 GB de RAM) de $2,000, a una velocidad de 1 a 2 tokens por segundo
    • Me da curiosidad ese cálculo de un clúster NVIDIA de $50k. Si una RTX 6000 cuesta como $8k, con unas 5 saldrían cerca de $40k y darían medio TB. Aun así, para inferencia los Mac siguen siendo eficientes, y el M5 Ultra probablemente tendrá una mejor relación precio-rendimiento
    • Con el mismo presupuesto también se podrían comprar 25 placas de escritorio de Framework (cada una con 128 GB de VRAM y con Strix Halo). Serían 3 TB de VRAM en total, aunque agruparlas en clúster sería bastante complicado
    • Si se toma en cuenta la mejora de velocidad por paralelización que todavía no está implementada, parece una oferta bastante decente para un entorno on-premise de inferencia
    • Apple usa LPDDR5X para reducir el consumo energético y el costo, mientras que NVIDIA prioriza el rendimiento con GDDR/HBM
  • Con todo el caos actual en el mercado de RAM, sería bastante irónico que, gracias a la cadena de suministro estable de Apple, sus equipos terminen convirtiéndose en una opción con muy buena relación costo-beneficio para armar clústeres medianos de inferencia

    • Sería un problema si los usuarios comerciales empiezan a comprar todas las Mac buenas
    • En algunos usos eso ya está pasando
  • Se habla de agrupar varias Mac Studio en un clúster, pero me preocupan las limitaciones físicas y de administración

    1. La ubicación del botón de encendido es incómoda, así que en rack no resulta práctico
    2. Thunderbolt está muy bien para periféricos, pero como interconexión permanente me preocupa la durabilidad de los puertos
    3. La calidad del cable importa mucho. Con TB4/TB5 he tenido bastantes problemas si no se usan cables caros
    4. La administración remota de macOS es menos eficiente que la de Linux. Por ejemplo, hacer la actualización de macOS 26.1 → 26.2 sin GUI puede ser complicado. Con sudo softwareupdate -i -a solo se pueden aplicar actualizaciones menores
    • Sobre el punto 2, el dock de OWC tiene orificios con tornillo para fijar cables. Con el OWC Thunderbolt Dock y el adaptador ClingOn se puede reducir el estrés sobre el puerto
    • El problema del botón de encendido se puede resolver con el chasis RackMac Studio. Extiende mecánicamente el botón
    • Usar Thunderbolt como interconexión de servidor no se ve muy elegante, pero si todo queda fijo dentro del rack, de hecho hay menos estrés físico
    • Con una solución MDM no solo se pueden gestionar actualizaciones de software, sino también LOM (administración remota de energía). Incluso existen opciones MDM de código abierto
    • Todavía se vende la versión rackmount de la Mac Pro, pero como no se ha actualizado a M3 Ultra, probablemente pronto será descontinuada
  • Ojalá Apple construya su propia nube basada en chips de la serie M, refuerce Metal para IA y ofrezca un modelo de self-hosting centrado en la privacidad. Podría tener muchísimo éxito en industrias con datos sensibles

    • Ya existe algo parecido: Private Cloud Compute, aunque está limitado a usuarios de Apple y a modelos de Apple
    • En centros de datos, fragmentar el trabajo mediante interconexiones rápidas suele ser más eficiente que tener mucha memoria por GPU. NVIDIA y AMD siguen estando por delante en rendimiento de cómputo
  • Me pregunto si esto también podría usarse para cargas distribuidas generales más allá de la IA

    • Lo probé con HPL y mpirun, pero por ahora RDMA no está soportado y solo funciona el modo Ring. Está algo verde, pero sí funciona
      Referencia: guía de uso distribuido de MLX
  • Artículo relacionado: Engadget - Puedes convertir un clúster de Macs en una supercomputadora de IA en macOS Tahoe 26.2

  • George Hotz logró hacer funcionar una GPU de NVIDIA desde una Mac por USB4 usando tinygrad
    Tweet de tinygrad

  • No entiendo bien qué es RDMA, pero ¿significa que se puede ejecutar inferencia en paralelo conectando varias Macs? Si es así, suena increíble

    • Ya era posible hacer inferencia con varias Macs desde hace un año, pero ahora funciona mucho más rápido