Rapid-MLX - motor ultrarrápido de IA local exclusivo para Apple Silicon

xguru · 2026-05-12T09:46:02+09:00

Un motor de inferencia para ejecutar modelos de IA localmente en Macs con Apple Silicon, que aprovecha kernels de cómputo Metal nativos basados en el framework MLX de Apple Hasta 4.2 veces más rápido en velocidad de inferencia que Ollama: 180 tok/s con Phi-4 Mini 14B (3.2 veces frente a 56 tok/s de Ollama) y 108 tok/s con Qwen3.5-9B (2.6 veces frente a 41 tok/s de Ollama) TTFT de 0.08 segundos con caché (basado en Kimi-Linear-48B), y entre 0.1 y 0.3 segundos en la mayoría de los modelos 17 parsers de llamadas a herramientas integrados y detección automática según el nombre del modelo — incluso si un modelo cuantizado a 4 bits imprime llamadas a herramientas rotas como texto, las recupera automáticamente a un formato estructurado Ofrece mapeo óptimo de modelos según la RAM, desde una MacBook Air de 16 GB (Qwen3.5-4B, 160 tok/s) hasta una Mac Studio Ultra de 256 GB (DeepSeek V4 Flash 158B, 31 tok/s, contexto de 1M) 16 GB MacBook Air/Pro: Qwen3.5-4B 4bit → 2.4 GB de RAM, 160 tok/s, permite chat, programación y llamadas a herramientas 24 GB MacBook Pro: Qwen3.5-9B 4bit → 5.1 GB, 108 tok/s, modelo de propósito general 32 GB Mac Mini/Studio: Qwen3.5-27B 4bit (15.3 GB, 39 tok/s), Nemotron-Nano 30B 4bit (18 GB, 141 tok/s, 100% llamadas a herramientas), Qwen3.6-35B-A3B 4bit (20 GB, 95 tok/s, 256 expertos MoE, contexto de 262K) 48~64 GB: Qwen3.5-35B-A3B 8bit → 37 GB, 83 tok/s, el mejor equilibrio entre inteligencia y velocidad 96 GB+: Qwen3.5-122B mxfp4 → 65 GB, 57 tok/s, inteligencia de nivel frontier 128 GB+: DeepSeek V4 Flash 158B-A13B 2-bit DQ → 91 GB, 56 tok/s, MoE frontier desde el día 0 192~256 GB: Qwen3.5-122B 8bit (130 GB, 44 tok/s) o DeepSeek V4 Flash 8-bit (136 GB, 31 tok/s, contexto de 1M) 4bit ahorra memoria (recomendado en la mayoría de los casos), 8bit ofrece inferencia de mayor calidad, y mxfp4 es un formato 4bit de alta calidad Función de separación de razonamiento que divide el proceso de inferencia de los modelos chain-of-thought en un campo reasoning_content independiente — compatible con formatos Qwen3, DeepSeek-R1, MiniMax y GPT-OSS Con recorte de caché KV para transformers estándar y snapshots de estado DeltaNet para la arquitectura híbrida de Qwen3.5 (~0.1 ms de restauración), mejora el TTFT en conversaciones multiturno entre 2 y 5 veces, siempre activado sin flags adicionales Compatible con enrutamiento inteligente a la nube para cambiar automáticamente a LLMs en la nube como GPT-5 o Claude cuando las solicitudes de gran contexto son lentas en el prefill local Reemplazo directo de la API de OpenAI — cualquier app compatible con OpenAI como Cursor, Claude Code, Aider, LangChain, PydanticAI, smolagents, Hermes Agent u Open WebUI puede conectarse de inmediato mediante localhost:8000/v1 Compatible con expansiones multimodales y opcionales como Vision (Gemma 4, Qwen-VL), Audio (TTS/STT), Embeddings, Gradio Chat UI y generación JSON con restricciones por esquema Integra diversas técnicas de optimización como TurboQuant V-cache (86% de ahorro de memoria), cuantización de caché KV, prefill por chunks y tool logits bias Ofrece el MHI (Model-Harness Index) para medir la compatibilidad entre modelos y agent harnesses — Qwopus 27B obtiene la puntuación más alta con MHI 92 Técnicas de aceleración adicionales como Speculative Decode (1.5~2.3 veces), EAGLE-3 (3~6.5 veces) y ReDrafter (1.4~1.5 veces) están incluidas en la hoja de ruta Licencia Apache 2.0

(github.com/raullenchai)

13 puntos por xguru 7 시간 전 | 3 comentarios | Compartir por WhatsApp

Un motor de inferencia para ejecutar modelos de IA localmente en Macs con Apple Silicon, que aprovecha kernels de cómputo Metal nativos basados en el framework MLX de Apple
Hasta 4.2 veces más rápido en velocidad de inferencia que Ollama: 180 tok/s con Phi-4 Mini 14B (3.2 veces frente a 56 tok/s de Ollama) y 108 tok/s con Qwen3.5-9B (2.6 veces frente a 41 tok/s de Ollama)
TTFT de 0.08 segundos con caché (basado en Kimi-Linear-48B), y entre 0.1 y 0.3 segundos en la mayoría de los modelos
17 parsers de llamadas a herramientas integrados y detección automática según el nombre del modelo — incluso si un modelo cuantizado a 4 bits imprime llamadas a herramientas rotas como texto, las recupera automáticamente a un formato estructurado
Ofrece mapeo óptimo de modelos según la RAM, desde una MacBook Air de 16 GB (Qwen3.5-4B, 160 tok/s) hasta una Mac Studio Ultra de 256 GB (DeepSeek V4 Flash 158B, 31 tok/s, contexto de 1M)
- 16 GB MacBook Air/Pro: Qwen3.5-4B 4bit → 2.4 GB de RAM, 160 tok/s, permite chat, programación y llamadas a herramientas
- 24 GB MacBook Pro: Qwen3.5-9B 4bit → 5.1 GB, 108 tok/s, modelo de propósito general
- 32 GB Mac Mini/Studio: Qwen3.5-27B 4bit (15.3 GB, 39 tok/s), Nemotron-Nano 30B 4bit (18 GB, 141 tok/s, 100% llamadas a herramientas), Qwen3.6-35B-A3B 4bit (20 GB, 95 tok/s, 256 expertos MoE, contexto de 262K)
- 48~64 GB: Qwen3.5-35B-A3B 8bit → 37 GB, 83 tok/s, el mejor equilibrio entre inteligencia y velocidad
- 96 GB+: Qwen3.5-122B mxfp4 → 65 GB, 57 tok/s, inteligencia de nivel frontier
- 128 GB+: DeepSeek V4 Flash 158B-A13B 2-bit DQ → 91 GB, 56 tok/s, MoE frontier desde el día 0
- 192~256 GB: Qwen3.5-122B 8bit (130 GB, 44 tok/s) o DeepSeek V4 Flash 8-bit (136 GB, 31 tok/s, contexto de 1M)
- 4bit ahorra memoria (recomendado en la mayoría de los casos), 8bit ofrece inferencia de mayor calidad, y mxfp4 es un formato 4bit de alta calidad
Función de separación de razonamiento que divide el proceso de inferencia de los modelos chain-of-thought en un campo reasoning_content independiente — compatible con formatos Qwen3, DeepSeek-R1, MiniMax y GPT-OSS
Con recorte de caché KV para transformers estándar y snapshots de estado DeltaNet para la arquitectura híbrida de Qwen3.5 (~0.1 ms de restauración), mejora el TTFT en conversaciones multiturno entre 2 y 5 veces, siempre activado sin flags adicionales
Compatible con enrutamiento inteligente a la nube para cambiar automáticamente a LLMs en la nube como GPT-5 o Claude cuando las solicitudes de gran contexto son lentas en el prefill local
Reemplazo directo de la API de OpenAI — cualquier app compatible con OpenAI como Cursor, Claude Code, Aider, LangChain, PydanticAI, smolagents, Hermes Agent u Open WebUI puede conectarse de inmediato mediante localhost:8000/v1
Compatible con expansiones multimodales y opcionales como Vision (Gemma 4, Qwen-VL), Audio (TTS/STT), Embeddings, Gradio Chat UI y generación JSON con restricciones por esquema
Integra diversas técnicas de optimización como TurboQuant V-cache (86% de ahorro de memoria), cuantización de caché KV, prefill por chunks y tool logits bias
Ofrece el MHI (Model-Harness Index) para medir la compatibilidad entre modelos y agent harnesses — Qwopus 27B obtiene la puntuación más alta con MHI 92
Técnicas de aceleración adicionales como Speculative Decode (1.5~2.3 veces), EAGLE-3 (3~6.5 veces) y ReDrafter (1.4~1.5 veces) están incluidas en la hoja de ruta
Licencia Apache 2.0

3 comentarios

parkindani 3 시간 전

Me da curiosidad saber cómo será el rendimiento en comparación con omlx.

xguru 6 시간 전

Personalmente estoy probando deepseek4 con antirez/ds4, y parece que en velocidad ds4 sale siendo un poco más rápido.

ds4 es solo para 128gb, así que queda un poco en terreno ambiguo, pero para otros modelos creo que se ve bien.

Hace poco fue bastante popular un tuit del CEO de HuggingFace diciendo que probó programar en un avión con Qwen3.6 27B y que estaba al nivel de Opus, así que voy a tener que subirle 3.6 27B a esto.
https://x.com/julien_c/status/2047647522173104145

yangeok 6 시간 전

Me pregunto qué tal será el rendimiento en coreano... Estoy usando una de 96 GB, pero supongo que rendirá peor que un LLM de pago, ¿no?..

Con que llegue al nivel de Gemini CLI ya estaría bien jaja

Rapid-MLX - motor ultrarrápido de IA local exclusivo para Apple Silicon

Lecturas relacionadas

3 comentarios