33 puntos por GN⁺ 25 일 전 | 1 comentarios | Compartir por WhatsApp
  • Resumen del procedimiento para configurar Ollama y el modelo Gemma 4 en un Mac mini con Apple Silicon para que se ejecuten automáticamente y permanezcan cargados en memoria
  • Usando Homebrew, Launch Agent y variables de entorno, el modelo se carga automáticamente incluso después de reiniciar, y el modelo 8B funciona de forma estable con alrededor de 9.6 GB de memoria
  • Ollama v0.19 o superior admite el backend MLX y el formato NVFP4, mejorando el rendimiento de inferencia en entornos Apple y NVIDIA
  • El modelo 26B no se recomienda por su alto uso de memoria, y el modelo 8B es más adecuado para uso real
  • A través de la API local se pueden hacer solicitudes de Chat Completion compatibles con OpenAI, lo que resulta útil para construir un entorno de servicio LLM persistente en Mac mini

Preparación previa

  • Se requiere un Mac mini con Apple Silicon (M1~M5)
  • Para ejecutar el modelo Gemma 4 (8B) se recomiendan al menos 16 GB de memoria unificada
  • Se requiere un entorno macOS con Homebrew instalado

Paso 1 — Instalar Ollama

  • Instalar la app de Ollama para macOS usando Homebrew cask

    brew install --cask ollama-app
    
  • Después de la instalación, Ollama.app queda en /Applications/ y el CLI en /opt/homebrew/bin/ollama

  • Incluye actualizaciones automáticas y el backend MLX

Paso 2 — Ejecutar Ollama y verificar

  • Ejecutar la app de Ollama

    open -a Ollama
    
  • Esperar a que aparezca el ícono en la barra de menú y a que el servidor se inicialice

  • Verificar el estado de ejecución

    ollama list
    

Paso 3 — Descargar el modelo Gemma 4

  • Descargar el modelo

    ollama pull gemma4
    
  • Tras descargar aproximadamente 9.6 GB, verificar con ollama list

  • El modelo 26B ocupa la mayor parte de los 24 GB de memoria y provoca una menor respuesta del sistema

    • Se recomienda usar el modelo base 8B (cuantización Q4_K_M)

Paso 4 — Probar el modelo y confirmar aceleración por GPU

  • Probar el modelo

    ollama run gemma4:latest "Hello, what model are you?"
    
  • Verificar el estado de aceleración por GPU

    ollama ps
    
    • Ejemplo: proporción CPU/GPU de 14%/86%

Paso 5 — Configurar inicio automático y persistencia del modelo

  • 5a. Inicio automático de la app de Ollama

    • Hacer clic en el ícono de la barra de menú → activar Launch at Login
    • O agregarlo manualmente en System Settings > General > Login Items
  • 5b. Precarga automática de Gemma 4

    • Crear un Launch Agent para cargar automáticamente el modelo al iniciar Ollama y mantenerlo activo cada 5 minutos

      cat << 'EOF' > ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
      ...
      EOF
      
    • Cargar el agente

      launchctl load ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
      
    • Enviar un prompt vacío cada 5 minutos para mantener el modelo en memoria

  • 5c. Mantener el modelo indefinidamente

    • Por defecto, el modelo se descarga tras 5 minutos de inactividad

    • Configurar persistencia indefinida

      launchctl setenv OLLAMA_KEEP_ALIVE "-1"
      
    • Para mantenerlo también después de reiniciar, añadirlo a ~/.zshrc

Paso 6 — Verificar la configuración

  • Confirmar que el servidor de Ollama esté en ejecución

    ollama list
    
  • Confirmar que el modelo esté cargado en memoria

    ollama ps
    
  • Confirmar el registro del Launch Agent

    launchctl list | grep ollama
    
  • Ejemplo de salida esperada

    gemma4:latest ... 9.6 GB 14%/86% CPU/GPU 4096 Forever
    

Acceso a la API

Comandos útiles

Comando Descripción
ollama list Lista de modelos descargados
ollama ps Modelos en ejecución y uso de memoria
ollama run gemma4:latest Ejecución interactiva
ollama stop gemma4:latest Descargar el modelo
ollama pull gemma4:latest Actualizar a la versión más reciente
ollama rm gemma4:latest Eliminar el modelo

Desinstalar Ollama y desactivar el inicio automático

launchctl unload ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
rm ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
brew uninstall --cask ollama-app

Principales mejoras de Ollama v0.19+ (31 de marzo de 2026)

  • Backend MLX (Apple Silicon)

    • Usa automáticamente el framework Apple MLX para mejorar la velocidad de inferencia
    • Los chips de la serie M5 admiten aceleración adicional con GPU Neural Accelerator
    • Los chips M4 e inferiores también reciben mejoras generales de velocidad basadas en MLX
  • Formato NVFP4 (NVIDIA)

    • El formato NVFP4 reduce el ancho de banda de memoria y el espacio de almacenamiento manteniendo la precisión
    • Compatible con modelos generados con herramientas de optimización de modelos de NVIDIA
  • Mejoras de caché (programación y tareas de agentes)

    • Menor uso de memoria: mejora la eficiencia reutilizando caché entre conversaciones
    • Checkpoints inteligentes: reduce el procesamiento de prompts y mejora la velocidad de respuesta
    • Eliminación inteligente de caché: mejora la eficiencia en tareas ramificadas al conservar prefijos comunes

Notas adicionales

  • El modelo Gemma 4 (8B) usa aproximadamente 9.6 GB de memoria
    • En un Mac mini de 24 GB, pueden quedar unos 14 GB libres
  • El modelo 26B usa aproximadamente 17 GB, lo que provoca swap del sistema y una menor capacidad de respuesta
    • El modelo 8B ofrece un rendimiento estable

Enlaces de referencia

1 comentarios

 
GN⁺ 25 일 전
Comentarios en Hacker News
  • Si eres de los que usa un modelo open weight por primera vez apenas sale, debes saber que las implementaciones iniciales y la cuantización (quantization) siempre traen bugs
    Como cada proyecto se apresura para dar soporte el día del lanzamiento, es posible que los resultados no sean correctos
    Ya se han encontrado varios problemas en la implementación del tokenizer, y la cuantización que usa imatrix también puede dar problemas
    Durante las próximas semanas van a aparecer muchas publicaciones del tipo “la llamada de herramientas no funciona y el modelo es un desastre”. En realidad, eso le pasa a quienes están usando implementaciones rotas
    Si quieres usar modelos cutting-edge, debes estar listo para actualizar seguido el motor de inferencia y volver a descargar las versiones cuantizadas cada vez que cambien
    Por la competencia por llegar al día del lanzamiento, muchas veces se trabaja con la lógica de “si ya salen tokens, se despliega”, así que la verificación de precisión queda para después

    • Me pregunto qué inference engine debería usar en Linux con una 4090
      Me pasa seguido que la llamada de herramientas no funciona, pero no sé si es problema del modelo o de ollama
  • Estoy pensando en comprar una Mac mini para ejecutar modelos en local
    Yo uso Claude sobre todo para trabajo de desarrollo y proyectos de homelab, y quisiera saber si los modelos abiertos ya sirven a ese nivel o si sigue siendo mejor mantener la suscripción de 20 dólares al mes

    • Para tareas pequeñas está bien, pero si esperas usarlo como Claude, es muy probable que te decepcione
      Antes de comprar hardware y hostearlo tú mismo, recomiendo probar primero en un servicio hospedado. Así puedes sentir de antemano las limitaciones del modelo
    • Yo uso modelos abiertos desde la filtración de llama. Han mejorado poco a poco, y está genial poder ejecutar un bloque de conocimiento en local sin internet
      Pero hay que bajar las expectativas. Digan lo que digan los benchmarks, no se puede comparar con Sonnet u Opus
    • Lo mejor es probarlo tú mismo gastando solo 10 dólares en créditos de OpenRouter. En mi experiencia todavía les falta bastante, pero igual es entretenido revisarlo de vez en cuando
    • gpt-oss-20B tenía un rendimiento como agente bastante decente, pero no se puede comparar con los modelos de pago de Claude Code. He oído que 120B es mucho mejor
  • Lo probé en una MacBook Pro M4 (36GB) con LM Studio y el frontend open code, pero la llamada de herramientas fallaba todo el tiempo, así que volví a qwen
    Me pregunto si alguien con un entorno parecido ha tenido éxito

    • El fallo en la llamada de herramientas es un problema de la implementación del motor de inferencia o de la cuantización. Te recomiendo intentarlo de nuevo en unos días, después de alguna actualización. Esto pasa en cada lanzamiento de modelos abiertos
    • A mí en una M5 (32GB) LM Studio hizo que la computadora se congelara y tuve que reiniciar
      Pero gemma-4-26B-A4B-it-GGUF:Q4_K_M sí funcionó bien en llama.cpp. Tanto la velocidad (38 tokens por segundo) como la calidad me parecieron impresionantes
    • Yo también tuve el mismo problema. En la versión Q_8 de LM Studio entraba en modo bucle y repetía comandos sin parar
    • Según otros, hay que actualizar tanto la versión principal como la de runtime
    • También confirmé fallos en la llamada de herramientas en un servidor Ubuntu (charmbracelet/crush)
  • Estoy buscando un modelo abierto que pueda reemplazar a Claude Sonnet 4.5
    Me pregunto si hay alguno en Ollama Cloud o en OpenRouter.ai que realmente pueda servir como reemplazo
    Más que benchmarks, quiero escuchar experiencias de uso reales de desarrolladores

    • En conclusión, no hay ningún modelo que reemplace a Sonnet y Opus. La familia GPT Codex también sigue siendo excelente
      He probado MiniMax, GLM, Qwen, Kimi y otros, pero en tareas complejas todos muestran limitaciones importantes
    • Siento que GLM5 y KimiK2.5 sí son sustitutos bastante cercanos a Sonnet
  • Me pregunto si alguien lo ha ejecutado con un build de oMLX en una M5 Air (32GB, 10 núcleos). También quiero saber si funciona la llamada de herramientas

    • La release v0.3.2 tiene soporte parcial. Genera texto, pero el manejo de tokens especiales todavía está incompleto
      Personalmente estoy haciendo pruebas para añadir soporte para llamada de herramientas y para thinking con <|channel>
    • Escuché que alguien ya ejecutó Gemma 4 E4B en MLX (enlace)
  • Es raro que los pasos para “Gemma 4 12B” cambien a la mitad a 26B
    Además, en ollama ps aparece “14%/86% CPU/GPU”; ¿eso no significa que el rendimiento de la GPU es malo?

    • La Mac mini comparte memoria entre CPU y GPU, así que ese porcentaje probablemente se puede ignorar
  • Es impresionante poder ejecutar un modelo 26B en local, pero la latencia es alta y eso dificulta cualquier cosa que no sea chat
    Nosotros cambiamos tareas de generación de imágenes de inferencia local a llamadas por API. El cold start y el tiempo de generación eran demasiado largos
    Lo local está bien para experimentar, pero para workloads de producción que requieren ejecución puntual la API sigue siendo más conveniente
    Aun así, cuando se trata de datos sensibles de privacidad, una configuración local es muy útil

  • Me pregunto por qué tanta gente usa Ollama. Lo probé y se sintió demasiado simplificado
    Últimamente Unsloth Studio me parece una mejor opción por defecto para principiantes

    • Ollama es accesible porque basta con una sola línea, ollama pull, para bajar un modelo
      No tienes la complejidad de tener que buscar manualmente el nombre exacto del modelo y su versión en Hugging Face
      Pero si quieres profundizar, al final igual tienes que aprender cómo está armado el servidor
    • Ollama tuvo la ventaja de llegar primero. En ese momento, compilar llama.cpp manualmente era una barrera importante
      Ahora recomiendo más LM Studio. Me da curiosidad qué tiene de diferente Unsloth Studio
    • No entiendo por qué la gente no menciona más LMStudio. Yo me cambié hace unos meses y me parece mucho mejor
    • La popularidad de Ollama se debe al efecto de marketing. Se promocionó en Reddit y Discord como ‘el frontend fácil para llama.cpp’
      Si de verdad quieres ganar, tienes que borrar Ollama y pasar directo a llama.cpp
    • Yo preguntaría lo contrario: ¿qué problema tiene Ollama?
      Incluso con una GPU de 16GB funciona bien, y como backend para experimentar con otros frontends también cumple bastante bien
  • Me pregunto si este modelo se puede usar para programar en local y qué IDE o harness son compatibles

    • La mayoría de los harness permiten programar en local si les apuntas a un endpoint de API compatible con OpenAI
      Eso sí, la versión más reciente de Codex tiene problemas de compatibilidad de API con llama.cpp
      Yo prefiero Pi. Es minimalista y extensible. También se usan mucho Claude Code y OpenCode
    • Tiene que soportar llamada de herramientas, y muchas cuantizaciones gguf no lo soportan
      Para resolver eso, hice un proxy llamado Petsitter que emula funciones entre el motor de inferencia y el harness
      Enlace de GitHub
      Puedes poner Petsitter encima de Ollama y luego montar encima el harness de agente
      La versión más reciente de Ollama ya soporta "completion", "vision", "audio", "tools", "thinking"
  • Anoche, para usar este modelo, tuve que instalar la prerrelease de Ollama v0.20. Por eso dudo que la guía actual siga siendo correcta