5 puntos por GN⁺ 29 일 전 | 1 comentarios | Compartir por WhatsApp
  • Se publicó una versión preliminar de Ollama basada en el framework Apple MLX, que ofrece mejoras de rendimiento al aprovechar la arquitectura de memoria unificada de Apple Silicon
  • Gracias al GPU Neural Accelerator de los chips de la serie M5, mejoran tanto el TTFT (tiempo hasta el primer token) como la velocidad de generación de tokens
  • Con soporte para el formato NVFP4, se reducen el ancho de banda de memoria y los requisitos de almacenamiento mientras se mantiene la precisión del modelo, y es posible ejecutar modelos optimizados con NVIDIA Model Optimizer
  • La reutilización de caché y las políticas inteligentes de caché aumentan la eficiencia de memoria entre conversaciones y la velocidad de respuesta, además de mejorar la tasa de aciertos de caché en prompts compartidos
  • En el futuro, planean ampliar las arquitecturas compatibles añadiendo más modelos y la función para importar modelos personalizados

Vista previa de Ollama ejecutándose sobre MLX en Apple Silicon

  • Se presentó una nueva versión preliminar de Ollama basada en el framework MLX de Apple
    • Permite ejecutar más rápido en macOS asistentes personales (OpenClaw) o agentes de código (Claude Code, OpenCode, Codex, etc.)
    • Mejora el rendimiento al aprovechar la arquitectura de memoria unificada de Apple Silicon
  • Mejoras de rendimiento en Apple Silicon

    • Ollama funciona sobre el framework de machine learning MLX de Apple y acelera tanto el TTFT (tiempo hasta el primer token) como la velocidad de generación de tokens usando el GPU Neural Accelerator de los chips M5, M5 Pro y M5 Max
    • En una prueba del 29 de marzo de 2026, se comparó el modelo Qwen3.5-35B-A3B de Alibaba (cuantizado en NVFP4) con la implementación anterior de Ollama (Q4_K_M)
    • La versión 0.19 de Ollama registró un rendimiento de 1851 token/s en prefilling y 134 token/s en decodificación al ejecutar int4
  • Soporte para NVFP4

    • Soporta el formato NVFP4 de NVIDIA, logrando mantener la precisión del modelo y al mismo tiempo reducir el ancho de banda de memoria y los requisitos de almacenamiento
    • Garantiza la consistencia de resultados entre entornos de inferencia y de producción que usan NVFP4
    • Permite ejecutar modelos optimizados con Model Optimizer de NVIDIA
    • También se planea añadir otras precisiones según el diseño y uso de los socios de investigación y hardware de Ollama
  • Mejoras en el sistema de caché

    • La reutilización de caché reduce el uso de memoria entre conversaciones y mejora la tasa de aciertos de caché cuando se usan prompts de sistema compartidos
    • Se introducen checkpoints inteligentes para reducir el procesamiento de prompts y mejorar la velocidad de respuesta
    • Una política inteligente de eliminación de caché permite que los prefijos compartidos se conserven por más tiempo incluso cuando se eliminan ramas antiguas
  • Cómo empezar

    • Se puede descargar Ollama 0.19
    • El nuevo modelo Qwen3.5-35B-A3B fue ajustado con parámetros de muestreo para tareas de programación
    • Se requiere una Mac con 32 GB o más de memoria unificada
    • Ejemplos de ejecución:
      • Claude Code: ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
      • OpenClaw: ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4
      • Conversación con el modelo: ollama run qwen3.5:35b-a3b-coding-nvfp4
  • Próximos planes

    • Se añadirá soporte para más modelos
    • Se incorporará una función para importar modelos personalizados basada en las arquitecturas compatibles
    • La lista de arquitecturas compatibles seguirá ampliándose
  • Agradecimientos

    • Al equipo de colaboradores de MLX por el desarrollo del framework de aceleración
    • Al equipo de NVIDIA por la cuantización NVFP4, la optimización de modelos, el soporte de MLX CUDA y la optimización y pruebas de Ollama
    • A los equipos de GGML y llama.cpp por construir el framework local y la comunidad
    • Al equipo de Alibaba Qwen por ofrecer modelos open source y colaborar

1 comentarios

 
GN⁺ 29 일 전
Comentarios en Hacker News
  • "apfel", que hice yo, es un CLI para los foundation models locales on-device de Apple
    Tiene una limitación de contexto de 4k y guardrails excesivos que incluso bloquean descripciones de colores, pero se siente realmente poderoso poder usarlo directamente desde scripts de bash sin llamadas externas

    • Sinceramente, no puedo creer que Apple haya lanzado un producto en este estado
      Yo también tenía expectativas, pero al usarlo la decepción fue grande. Ahora hasta me parece mejor que Apple haya girado por completo hacia Gemini
    • Gran proyecto. Me pregunto si también hay planes de distribución por Homebrew
  • Creo que los LLM on-device son el futuro
    Refuerzan la seguridad, consumen menos energía que los datacenters y también pueden aliviar el problema de la demanda de inferencia. La mayoría de los usuarios no necesitan rendimiento de modelos de última generación

    • La seguridad sí mejora, pero la eficiencia de suministro podría empeorar
      Los datacenters son casi 100 veces más eficientes que una PC personal gracias al batching en GPU y a su alta utilización
    • Desde la perspectiva empresarial, el modelo de datacenter centralizado puede seguir teniendo sentido
      Aun así, un enfoque híbrido donde el modelo local maneje solicitudes simples y lo complejo se derive a la nube parece prometedor
    • Últimamente estoy probando modelos locales en una M4 MBP con llama.cpp instalado
      Trae una interfaz estilo ChatGPT integrada, así que sirve mucho para pruebas rápidas. Incluso con 16GB de RAM corren modelos bastante decentes
      Por ejemplo, Qwen 3.5 9B está muy censurado, pero la versión Uncensored se va al extremo opuesto y resulta interesante encontrar un equilibrio
    • Incluso con offloading al SSD se pueden correr modelos SOTA en PCs de consumo
      Eso sí, el cuello de botella es el ancho de banda del SSD, así que mientras más RAM haya para caché, mejor. Si puedes esperar las respuestas, es bastante práctico
    • Llevo 5 años haciendo journaling digital y veía venir esta tendencia
      Hace poco armé una app graphRAG combinando Qwen 3.5 4B y 27B, y al separar las tareas pequeñas de las de preguntas y respuestas funciona bastante bien
      Usé MLX y se sintió mucho más rápido al hacer procesamiento por lotes para extracción de entidades
  • Qué bueno ver que la inferencia de Ollama en Mac mejoró mucho gracias a MLX
    En especial, la función de caché KV en SSD de omlx.ai fue un cambio total
    Aunque la sesión desaparezca de memoria, ya no hace falta volver a hacer prefill, y con la rápida velocidad de prefill de la M5 Max ahora se puede dedicar más tiempo a la generación

  • Estoy corriendo qwen 70b 4-bit con llama.cpp en una M2 Max de 96GB
    Para trabajo diario es lo bastante estable. Antes Ollama invocaba llama.cpp desde el shell, pero ahora con el cambio nativo a MLX parece que mejorará la eficiencia de memoria
    Pienso compararlo con la ruta gguf en modelos grandes

    • Me pregunto cuántos tokens por segundo da
    • En el lanzamiento inicial se sobrescribieron algunos modelos GGUF, lo que bloqueó la descarga en plataformas distintas de Apple Silicon. Ojalá lo arreglen pronto
  • Me pregunto por qué la gente sigue usando Ollama
    Lemonade o llama.cpp están mejor optimizados y la usabilidad es parecida

  • Me pregunto si existe alguna alternativa no Mac para correr modelos locales con un nivel de rendimiento comparable

    • No al mismo nivel. En PC necesitas una GPU tipo 5090, pero en eficiencia de tokens por costo y eficiencia energética Apple Silicon es muy superior
  • Me pregunto cómo se compara con el motor de inferencia optiq de MLX más reciente
    optiq soporta Turboquantization

  • Tengo curiosidad por la comparación de rendimiento entre llama.cpp y MLX

    • MLX es un poco más rápido, pero usa algo más de RAM
      Aun así, en la mayoría de los casos la mejora de velocidad vale más la pena
  • Estoy esperando el día en que se pueda usar cómodamente Claude Code con un LLM local en MacOS con solo 16GB de RAM

    • Ahora mismo escuché que se necesitan al menos 32GB, pero me pregunto qué tan cerca estamos en realidad