Ollama ahora funciona sobre MLX en Apple Silicon

(ollama.com)

5 puntos por GN⁺ 29 일 전 | 1 comentarios | Compartir por WhatsApp

Se publicó una versión preliminar de Ollama basada en el framework Apple MLX, que ofrece mejoras de rendimiento al aprovechar la arquitectura de memoria unificada de Apple Silicon
Gracias al GPU Neural Accelerator de los chips de la serie M5, mejoran tanto el TTFT (tiempo hasta el primer token) como la velocidad de generación de tokens
Con soporte para el formato NVFP4, se reducen el ancho de banda de memoria y los requisitos de almacenamiento mientras se mantiene la precisión del modelo, y es posible ejecutar modelos optimizados con NVIDIA Model Optimizer
La reutilización de caché y las políticas inteligentes de caché aumentan la eficiencia de memoria entre conversaciones y la velocidad de respuesta, además de mejorar la tasa de aciertos de caché en prompts compartidos
En el futuro, planean ampliar las arquitecturas compatibles añadiendo más modelos y la función para importar modelos personalizados

Vista previa de Ollama ejecutándose sobre MLX en Apple Silicon

Se presentó una nueva versión preliminar de Ollama basada en el framework MLX de Apple
- Permite ejecutar más rápido en macOS asistentes personales (OpenClaw) o agentes de código (Claude Code, OpenCode, Codex, etc.)
- Mejora el rendimiento al aprovechar la arquitectura de memoria unificada de Apple Silicon
Mejoras de rendimiento en Apple Silicon
- Ollama funciona sobre el framework de machine learning MLX de Apple y acelera tanto el TTFT (tiempo hasta el primer token) como la velocidad de generación de tokens usando el GPU Neural Accelerator de los chips M5, M5 Pro y M5 Max
- En una prueba del 29 de marzo de 2026, se comparó el modelo Qwen3.5-35B-A3B de Alibaba (cuantizado en NVFP4) con la implementación anterior de Ollama (Q4_K_M)
- La versión 0.19 de Ollama registró un rendimiento de 1851 token/s en prefilling y 134 token/s en decodificación al ejecutar int4
Soporte para NVFP4
- Soporta el formato NVFP4 de NVIDIA, logrando mantener la precisión del modelo y al mismo tiempo reducir el ancho de banda de memoria y los requisitos de almacenamiento
- Garantiza la consistencia de resultados entre entornos de inferencia y de producción que usan NVFP4
- Permite ejecutar modelos optimizados con Model Optimizer de NVIDIA
- También se planea añadir otras precisiones según el diseño y uso de los socios de investigación y hardware de Ollama
Mejoras en el sistema de caché
- La reutilización de caché reduce el uso de memoria entre conversaciones y mejora la tasa de aciertos de caché cuando se usan prompts de sistema compartidos
- Se introducen checkpoints inteligentes para reducir el procesamiento de prompts y mejorar la velocidad de respuesta
- Una política inteligente de eliminación de caché permite que los prefijos compartidos se conserven por más tiempo incluso cuando se eliminan ramas antiguas
Cómo empezar
- Se puede descargar Ollama 0.19
- El nuevo modelo Qwen3.5-35B-A3B fue ajustado con parámetros de muestreo para tareas de programación
- Se requiere una Mac con 32 GB o más de memoria unificada
- Ejemplos de ejecución:
  - Claude Code: ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
  - OpenClaw: ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4
  - Conversación con el modelo: ollama run qwen3.5:35b-a3b-coding-nvfp4
Próximos planes
- Se añadirá soporte para más modelos
- Se incorporará una función para importar modelos personalizados basada en las arquitecturas compatibles
- La lista de arquitecturas compatibles seguirá ampliándose
Agradecimientos
- Al equipo de colaboradores de MLX por el desarrollo del framework de aceleración
- Al equipo de NVIDIA por la cuantización NVFP4, la optimización de modelos, el soporte de MLX CUDA y la optimización y pruebas de Ollama
- A los equipos de GGML y llama.cpp por construir el framework local y la comunidad
- Al equipo de Alibaba Qwen por ofrecer modelos open source y colaborar

1 comentarios

GN⁺ 29 일 전

Comentarios en Hacker News

"apfel", que hice yo, es un CLI para los foundation models locales on-device de Apple
Tiene una limitación de contexto de 4k y guardrails excesivos que incluso bloquean descripciones de colores, pero se siente realmente poderoso poder usarlo directamente desde scripts de bash sin llamadas externas
- Sinceramente, no puedo creer que Apple haya lanzado un producto en este estado
  Yo también tenía expectativas, pero al usarlo la decepción fue grande. Ahora hasta me parece mejor que Apple haya girado por completo hacia Gemini
- Gran proyecto. Me pregunto si también hay planes de distribución por Homebrew
Creo que los LLM on-device son el futuro
Refuerzan la seguridad, consumen menos energía que los datacenters y también pueden aliviar el problema de la demanda de inferencia. La mayoría de los usuarios no necesitan rendimiento de modelos de última generación
- La seguridad sí mejora, pero la eficiencia de suministro podría empeorar
  Los datacenters son casi 100 veces más eficientes que una PC personal gracias al batching en GPU y a su alta utilización
- Desde la perspectiva empresarial, el modelo de datacenter centralizado puede seguir teniendo sentido
  Aun así, un enfoque híbrido donde el modelo local maneje solicitudes simples y lo complejo se derive a la nube parece prometedor
- Últimamente estoy probando modelos locales en una M4 MBP con llama.cpp instalado
  Trae una interfaz estilo ChatGPT integrada, así que sirve mucho para pruebas rápidas. Incluso con 16GB de RAM corren modelos bastante decentes
  Por ejemplo, Qwen 3.5 9B está muy censurado, pero la versión Uncensored se va al extremo opuesto y resulta interesante encontrar un equilibrio
- Incluso con offloading al SSD se pueden correr modelos SOTA en PCs de consumo
  Eso sí, el cuello de botella es el ancho de banda del SSD, así que mientras más RAM haya para caché, mejor. Si puedes esperar las respuestas, es bastante práctico
- Llevo 5 años haciendo journaling digital y veía venir esta tendencia
  Hace poco armé una app graphRAG combinando Qwen 3.5 4B y 27B, y al separar las tareas pequeñas de las de preguntas y respuestas funciona bastante bien
  Usé MLX y se sintió mucho más rápido al hacer procesamiento por lotes para extracción de entidades
Qué bueno ver que la inferencia de Ollama en Mac mejoró mucho gracias a MLX
En especial, la función de caché KV en SSD de omlx.ai fue un cambio total
Aunque la sesión desaparezca de memoria, ya no hace falta volver a hacer prefill, y con la rápida velocidad de prefill de la M5 Max ahora se puede dedicar más tiempo a la generación
Estoy corriendo qwen 70b 4-bit con llama.cpp en una M2 Max de 96GB
Para trabajo diario es lo bastante estable. Antes Ollama invocaba llama.cpp desde el shell, pero ahora con el cambio nativo a MLX parece que mejorará la eficiencia de memoria
Pienso compararlo con la ruta gguf en modelos grandes
- Me pregunto cuántos tokens por segundo da
- En el lanzamiento inicial se sobrescribieron algunos modelos GGUF, lo que bloqueó la descarga en plataformas distintas de Apple Silicon. Ojalá lo arreglen pronto
Me pregunto por qué la gente sigue usando Ollama
Lemonade o llama.cpp están mejor optimizados y la usabilidad es parecida
Me pregunto si existe alguna alternativa no Mac para correr modelos locales con un nivel de rendimiento comparable
- No al mismo nivel. En PC necesitas una GPU tipo 5090, pero en eficiencia de tokens por costo y eficiencia energética Apple Silicon es muy superior
Me pregunto cómo se compara con el motor de inferencia optiq de MLX más reciente
optiq soporta Turboquantization
Tengo curiosidad por la comparación de rendimiento entre llama.cpp y MLX
- MLX es un poco más rápido, pero usa algo más de RAM
  Aun así, en la mayoría de los casos la mejora de velocidad vale más la pena
Estoy esperando el día en que se pueda usar cómodamente Claude Code con un LLM local en MacOS con solo 16GB de RAM
- Ahora mismo escuché que se necesitan al menos 32GB, pero me pregunto qué tan cerca estamos en realidad

Ollama ahora funciona sobre MLX en Apple Silicon

Vista previa de Ollama ejecutándose sobre MLX en Apple Silicon

Mejoras de rendimiento en Apple Silicon

Soporte para NVFP4

Mejoras en el sistema de caché

Cómo empezar

Próximos planes

Agradecimientos

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News