Resumen de configuración de Ollama y el modelo Gemma 4 26B en Mac mini (a abril de 2026)
(gist.github.com/greenstevester)- Resumen del procedimiento para configurar Ollama y el modelo Gemma 4 en un Mac mini con Apple Silicon para que se ejecuten automáticamente y permanezcan cargados en memoria
- Usando Homebrew, Launch Agent y variables de entorno, el modelo se carga automáticamente incluso después de reiniciar, y el modelo 8B funciona de forma estable con alrededor de 9.6 GB de memoria
- Ollama v0.19 o superior admite el backend MLX y el formato NVFP4, mejorando el rendimiento de inferencia en entornos Apple y NVIDIA
- El modelo 26B no se recomienda por su alto uso de memoria, y el modelo 8B es más adecuado para uso real
- A través de la API local se pueden hacer solicitudes de Chat Completion compatibles con OpenAI, lo que resulta útil para construir un entorno de servicio LLM persistente en Mac mini
Preparación previa
- Se requiere un Mac mini con Apple Silicon (M1~M5)
- Para ejecutar el modelo Gemma 4 (8B) se recomiendan al menos 16 GB de memoria unificada
- Se requiere un entorno macOS con Homebrew instalado
Paso 1 — Instalar Ollama
-
Instalar la app de Ollama para macOS usando Homebrew cask
brew install --cask ollama-app -
Después de la instalación, Ollama.app queda en
/Applications/y el CLI en/opt/homebrew/bin/ollama -
Incluye actualizaciones automáticas y el backend MLX
Paso 2 — Ejecutar Ollama y verificar
-
Ejecutar la app de Ollama
open -a Ollama -
Esperar a que aparezca el ícono en la barra de menú y a que el servidor se inicialice
-
Verificar el estado de ejecución
ollama list
Paso 3 — Descargar el modelo Gemma 4
-
Descargar el modelo
ollama pull gemma4 -
Tras descargar aproximadamente 9.6 GB, verificar con
ollama list -
El modelo 26B ocupa la mayor parte de los 24 GB de memoria y provoca una menor respuesta del sistema
- Se recomienda usar el modelo base 8B (cuantización Q4_K_M)
Paso 4 — Probar el modelo y confirmar aceleración por GPU
-
Probar el modelo
ollama run gemma4:latest "Hello, what model are you?" -
Verificar el estado de aceleración por GPU
ollama ps- Ejemplo: proporción CPU/GPU de 14%/86%
Paso 5 — Configurar inicio automático y persistencia del modelo
-
5a. Inicio automático de la app de Ollama
- Hacer clic en el ícono de la barra de menú → activar Launch at Login
- O agregarlo manualmente en System Settings > General > Login Items
-
5b. Precarga automática de Gemma 4
-
Crear un Launch Agent para cargar automáticamente el modelo al iniciar Ollama y mantenerlo activo cada 5 minutos
cat << 'EOF' > ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist ... EOF -
Cargar el agente
launchctl load ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist -
Enviar un prompt vacío cada 5 minutos para mantener el modelo en memoria
-
-
5c. Mantener el modelo indefinidamente
-
Por defecto, el modelo se descarga tras 5 minutos de inactividad
-
Configurar persistencia indefinida
launchctl setenv OLLAMA_KEEP_ALIVE "-1" -
Para mantenerlo también después de reiniciar, añadirlo a
~/.zshrc
-
Paso 6 — Verificar la configuración
-
Confirmar que el servidor de Ollama esté en ejecución
ollama list -
Confirmar que el modelo esté cargado en memoria
ollama ps -
Confirmar el registro del Launch Agent
launchctl list | grep ollama -
Ejemplo de salida esperada
gemma4:latest ... 9.6 GB 14%/86% CPU/GPU 4096 Forever
Acceso a la API
-
Endpoint de API local:
http://localhost:11434 -
Ejemplo de Chat Completion compatible con OpenAI
curl http://localhost:11434/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "gemma4:latest", "messages": [{"role": "user", "content": "Hello"}] }'
Comandos útiles
| Comando | Descripción |
|---|---|
ollama list |
Lista de modelos descargados |
ollama ps |
Modelos en ejecución y uso de memoria |
ollama run gemma4:latest |
Ejecución interactiva |
ollama stop gemma4:latest |
Descargar el modelo |
ollama pull gemma4:latest |
Actualizar a la versión más reciente |
ollama rm gemma4:latest |
Eliminar el modelo |
Desinstalar Ollama y desactivar el inicio automático
launchctl unload ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
rm ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
brew uninstall --cask ollama-app
Principales mejoras de Ollama v0.19+ (31 de marzo de 2026)
-
Backend MLX (Apple Silicon)
- Usa automáticamente el framework Apple MLX para mejorar la velocidad de inferencia
- Los chips de la serie M5 admiten aceleración adicional con GPU Neural Accelerator
- Los chips M4 e inferiores también reciben mejoras generales de velocidad basadas en MLX
-
Formato NVFP4 (NVIDIA)
- El formato NVFP4 reduce el ancho de banda de memoria y el espacio de almacenamiento manteniendo la precisión
- Compatible con modelos generados con herramientas de optimización de modelos de NVIDIA
-
Mejoras de caché (programación y tareas de agentes)
- Menor uso de memoria: mejora la eficiencia reutilizando caché entre conversaciones
- Checkpoints inteligentes: reduce el procesamiento de prompts y mejora la velocidad de respuesta
- Eliminación inteligente de caché: mejora la eficiencia en tareas ramificadas al conservar prefijos comunes
Notas adicionales
- El modelo Gemma 4 (8B) usa aproximadamente 9.6 GB de memoria
- En un Mac mini de 24 GB, pueden quedar unos 14 GB libres
- El modelo 26B usa aproximadamente 17 GB, lo que provoca swap del sistema y una menor capacidad de respuesta
- El modelo 8B ofrece un rendimiento estable
1 comentarios
Comentarios en Hacker News
Si eres de los que usa un modelo open weight por primera vez apenas sale, debes saber que las implementaciones iniciales y la cuantización (quantization) siempre traen bugs
Como cada proyecto se apresura para dar soporte el día del lanzamiento, es posible que los resultados no sean correctos
Ya se han encontrado varios problemas en la implementación del tokenizer, y la cuantización que usa imatrix también puede dar problemas
Durante las próximas semanas van a aparecer muchas publicaciones del tipo “la llamada de herramientas no funciona y el modelo es un desastre”. En realidad, eso le pasa a quienes están usando implementaciones rotas
Si quieres usar modelos cutting-edge, debes estar listo para actualizar seguido el motor de inferencia y volver a descargar las versiones cuantizadas cada vez que cambien
Por la competencia por llegar al día del lanzamiento, muchas veces se trabaja con la lógica de “si ya salen tokens, se despliega”, así que la verificación de precisión queda para después
Me pasa seguido que la llamada de herramientas no funciona, pero no sé si es problema del modelo o de ollama
Estoy pensando en comprar una Mac mini para ejecutar modelos en local
Yo uso Claude sobre todo para trabajo de desarrollo y proyectos de homelab, y quisiera saber si los modelos abiertos ya sirven a ese nivel o si sigue siendo mejor mantener la suscripción de 20 dólares al mes
Antes de comprar hardware y hostearlo tú mismo, recomiendo probar primero en un servicio hospedado. Así puedes sentir de antemano las limitaciones del modelo
Pero hay que bajar las expectativas. Digan lo que digan los benchmarks, no se puede comparar con Sonnet u Opus
Lo probé en una MacBook Pro M4 (36GB) con LM Studio y el frontend open code, pero la llamada de herramientas fallaba todo el tiempo, así que volví a qwen
Me pregunto si alguien con un entorno parecido ha tenido éxito
Pero gemma-4-26B-A4B-it-GGUF:Q4_K_M sí funcionó bien en llama.cpp. Tanto la velocidad (38 tokens por segundo) como la calidad me parecieron impresionantes
Estoy buscando un modelo abierto que pueda reemplazar a Claude Sonnet 4.5
Me pregunto si hay alguno en Ollama Cloud o en OpenRouter.ai que realmente pueda servir como reemplazo
Más que benchmarks, quiero escuchar experiencias de uso reales de desarrolladores
He probado MiniMax, GLM, Qwen, Kimi y otros, pero en tareas complejas todos muestran limitaciones importantes
Me pregunto si alguien lo ha ejecutado con un build de oMLX en una M5 Air (32GB, 10 núcleos). También quiero saber si funciona la llamada de herramientas
Personalmente estoy haciendo pruebas para añadir soporte para llamada de herramientas y para thinking con
<|channel>Es raro que los pasos para “Gemma 4 12B” cambien a la mitad a 26B
Además, en ollama ps aparece “14%/86% CPU/GPU”; ¿eso no significa que el rendimiento de la GPU es malo?
Es impresionante poder ejecutar un modelo 26B en local, pero la latencia es alta y eso dificulta cualquier cosa que no sea chat
Nosotros cambiamos tareas de generación de imágenes de inferencia local a llamadas por API. El cold start y el tiempo de generación eran demasiado largos
Lo local está bien para experimentar, pero para workloads de producción que requieren ejecución puntual la API sigue siendo más conveniente
Aun así, cuando se trata de datos sensibles de privacidad, una configuración local es muy útil
Me pregunto por qué tanta gente usa Ollama. Lo probé y se sintió demasiado simplificado
Últimamente Unsloth Studio me parece una mejor opción por defecto para principiantes
ollama pull, para bajar un modeloNo tienes la complejidad de tener que buscar manualmente el nombre exacto del modelo y su versión en Hugging Face
Pero si quieres profundizar, al final igual tienes que aprender cómo está armado el servidor
Ahora recomiendo más LM Studio. Me da curiosidad qué tiene de diferente Unsloth Studio
Si de verdad quieres ganar, tienes que borrar Ollama y pasar directo a llama.cpp
Incluso con una GPU de 16GB funciona bien, y como backend para experimentar con otros frontends también cumple bastante bien
Me pregunto si este modelo se puede usar para programar en local y qué IDE o harness son compatibles
Eso sí, la versión más reciente de Codex tiene problemas de compatibilidad de API con llama.cpp
Yo prefiero Pi. Es minimalista y extensible. También se usan mucho Claude Code y OpenCode
Para resolver eso, hice un proxy llamado Petsitter que emula funciones entre el motor de inferencia y el harness
Enlace de GitHub
Puedes poner Petsitter encima de Ollama y luego montar encima el harness de agente
La versión más reciente de Ollama ya soporta
"completion", "vision", "audio", "tools", "thinking"Anoche, para usar este modelo, tuve que instalar la prerrelease de Ollama v0.20. Por eso dudo que la guía actual siga siendo correcta