Ollama ahora funciona sobre MLX en Apple Silicon
(ollama.com)- Se publicó una versión preliminar de Ollama basada en el framework Apple MLX, que ofrece mejoras de rendimiento al aprovechar la arquitectura de memoria unificada de Apple Silicon
- Gracias al GPU Neural Accelerator de los chips de la serie M5, mejoran tanto el TTFT (tiempo hasta el primer token) como la velocidad de generación de tokens
- Con soporte para el formato NVFP4, se reducen el ancho de banda de memoria y los requisitos de almacenamiento mientras se mantiene la precisión del modelo, y es posible ejecutar modelos optimizados con NVIDIA Model Optimizer
- La reutilización de caché y las políticas inteligentes de caché aumentan la eficiencia de memoria entre conversaciones y la velocidad de respuesta, además de mejorar la tasa de aciertos de caché en prompts compartidos
- En el futuro, planean ampliar las arquitecturas compatibles añadiendo más modelos y la función para importar modelos personalizados
Vista previa de Ollama ejecutándose sobre MLX en Apple Silicon
- Se presentó una nueva versión preliminar de Ollama basada en el framework MLX de Apple
- Permite ejecutar más rápido en macOS asistentes personales (OpenClaw) o agentes de código (Claude Code, OpenCode, Codex, etc.)
- Mejora el rendimiento al aprovechar la arquitectura de memoria unificada de Apple Silicon
-
Mejoras de rendimiento en Apple Silicon
- Ollama funciona sobre el framework de machine learning MLX de Apple y acelera tanto el TTFT (tiempo hasta el primer token) como la velocidad de generación de tokens usando el GPU Neural Accelerator de los chips M5, M5 Pro y M5 Max
- En una prueba del 29 de marzo de 2026, se comparó el modelo Qwen3.5-35B-A3B de Alibaba (cuantizado en
NVFP4) con la implementación anterior de Ollama (Q4_K_M) - La versión 0.19 de Ollama registró un rendimiento de 1851 token/s en prefilling y 134 token/s en decodificación al ejecutar
int4
-
Soporte para NVFP4
- Soporta el formato NVFP4 de NVIDIA, logrando mantener la precisión del modelo y al mismo tiempo reducir el ancho de banda de memoria y los requisitos de almacenamiento
- Garantiza la consistencia de resultados entre entornos de inferencia y de producción que usan NVFP4
- Permite ejecutar modelos optimizados con Model Optimizer de NVIDIA
- También se planea añadir otras precisiones según el diseño y uso de los socios de investigación y hardware de Ollama
-
Mejoras en el sistema de caché
- La reutilización de caché reduce el uso de memoria entre conversaciones y mejora la tasa de aciertos de caché cuando se usan prompts de sistema compartidos
- Se introducen checkpoints inteligentes para reducir el procesamiento de prompts y mejorar la velocidad de respuesta
- Una política inteligente de eliminación de caché permite que los prefijos compartidos se conserven por más tiempo incluso cuando se eliminan ramas antiguas
-
Cómo empezar
- Se puede descargar Ollama 0.19
- El nuevo modelo Qwen3.5-35B-A3B fue ajustado con parámetros de muestreo para tareas de programación
- Se requiere una Mac con 32 GB o más de memoria unificada
- Ejemplos de ejecución:
- Claude Code:
ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4 - OpenClaw:
ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4 - Conversación con el modelo:
ollama run qwen3.5:35b-a3b-coding-nvfp4
- Claude Code:
-
Próximos planes
- Se añadirá soporte para más modelos
- Se incorporará una función para importar modelos personalizados basada en las arquitecturas compatibles
- La lista de arquitecturas compatibles seguirá ampliándose
-
Agradecimientos
- Al equipo de colaboradores de MLX por el desarrollo del framework de aceleración
- Al equipo de NVIDIA por la cuantización NVFP4, la optimización de modelos, el soporte de MLX CUDA y la optimización y pruebas de Ollama
- A los equipos de GGML y llama.cpp por construir el framework local y la comunidad
- Al equipo de Alibaba Qwen por ofrecer modelos open source y colaborar
1 comentarios
Comentarios en Hacker News
"apfel", que hice yo, es un CLI para los foundation models locales on-device de Apple
Tiene una limitación de contexto de 4k y guardrails excesivos que incluso bloquean descripciones de colores, pero se siente realmente poderoso poder usarlo directamente desde scripts de bash sin llamadas externas
Yo también tenía expectativas, pero al usarlo la decepción fue grande. Ahora hasta me parece mejor que Apple haya girado por completo hacia Gemini
Creo que los LLM on-device son el futuro
Refuerzan la seguridad, consumen menos energía que los datacenters y también pueden aliviar el problema de la demanda de inferencia. La mayoría de los usuarios no necesitan rendimiento de modelos de última generación
Los datacenters son casi 100 veces más eficientes que una PC personal gracias al batching en GPU y a su alta utilización
Aun así, un enfoque híbrido donde el modelo local maneje solicitudes simples y lo complejo se derive a la nube parece prometedor
Trae una interfaz estilo ChatGPT integrada, así que sirve mucho para pruebas rápidas. Incluso con 16GB de RAM corren modelos bastante decentes
Por ejemplo, Qwen 3.5 9B está muy censurado, pero la versión Uncensored se va al extremo opuesto y resulta interesante encontrar un equilibrio
Eso sí, el cuello de botella es el ancho de banda del SSD, así que mientras más RAM haya para caché, mejor. Si puedes esperar las respuestas, es bastante práctico
Hace poco armé una app graphRAG combinando Qwen 3.5 4B y 27B, y al separar las tareas pequeñas de las de preguntas y respuestas funciona bastante bien
Usé MLX y se sintió mucho más rápido al hacer procesamiento por lotes para extracción de entidades
Qué bueno ver que la inferencia de Ollama en Mac mejoró mucho gracias a MLX
En especial, la función de caché KV en SSD de omlx.ai fue un cambio total
Aunque la sesión desaparezca de memoria, ya no hace falta volver a hacer prefill, y con la rápida velocidad de prefill de la M5 Max ahora se puede dedicar más tiempo a la generación
Estoy corriendo qwen 70b 4-bit con llama.cpp en una M2 Max de 96GB
Para trabajo diario es lo bastante estable. Antes Ollama invocaba llama.cpp desde el shell, pero ahora con el cambio nativo a MLX parece que mejorará la eficiencia de memoria
Pienso compararlo con la ruta gguf en modelos grandes
Me pregunto por qué la gente sigue usando Ollama
Lemonade o llama.cpp están mejor optimizados y la usabilidad es parecida
Me pregunto si existe alguna alternativa no Mac para correr modelos locales con un nivel de rendimiento comparable
Me pregunto cómo se compara con el motor de inferencia optiq de MLX más reciente
optiq soporta Turboquantization
Tengo curiosidad por la comparación de rendimiento entre llama.cpp y MLX
Aun así, en la mayoría de los casos la mejora de velocidad vale más la pena
Estoy esperando el día en que se pueda usar cómodamente Claude Code con un LLM local en MacOS con solo 16GB de RAM