Resumen de configuración de Ollama y el modelo Gemma 4 26B en Mac mini (a abril de 2026)

(gist.github.com/greenstevester)

33 puntos por GN⁺ 25 일 전 | 1 comentarios | Compartir por WhatsApp

Resumen del procedimiento para configurar Ollama y el modelo Gemma 4 en un Mac mini con Apple Silicon para que se ejecuten automáticamente y permanezcan cargados en memoria
Usando Homebrew, Launch Agent y variables de entorno, el modelo se carga automáticamente incluso después de reiniciar, y el modelo 8B funciona de forma estable con alrededor de 9.6 GB de memoria
Ollama v0.19 o superior admite el backend MLX y el formato NVFP4, mejorando el rendimiento de inferencia en entornos Apple y NVIDIA
El modelo 26B no se recomienda por su alto uso de memoria, y el modelo 8B es más adecuado para uso real
A través de la API local se pueden hacer solicitudes de Chat Completion compatibles con OpenAI, lo que resulta útil para construir un entorno de servicio LLM persistente en Mac mini

Preparación previa

Se requiere un Mac mini con Apple Silicon (M1~M5)
Para ejecutar el modelo Gemma 4 (8B) se recomiendan al menos 16 GB de memoria unificada
Se requiere un entorno macOS con Homebrew instalado

Paso 1 — Instalar Ollama

Instalar la app de Ollama para macOS usando Homebrew cask
```
brew install --cask ollama-app
```
Después de la instalación, Ollama.app queda en /Applications/ y el CLI en /opt/homebrew/bin/ollama
Incluye actualizaciones automáticas y el backend MLX

Paso 2 — Ejecutar Ollama y verificar

Ejecutar la app de Ollama
```
open -a Ollama
```
Esperar a que aparezca el ícono en la barra de menú y a que el servidor se inicialice
Verificar el estado de ejecución
```
ollama list
```

Paso 3 — Descargar el modelo Gemma 4

Descargar el modelo
```
ollama pull gemma4
```
Tras descargar aproximadamente 9.6 GB, verificar con ollama list
El modelo 26B ocupa la mayor parte de los 24 GB de memoria y provoca una menor respuesta del sistema
- Se recomienda usar el modelo base 8B (cuantización Q4_K_M)

Paso 4 — Probar el modelo y confirmar aceleración por GPU

Probar el modelo

ollama run gemma4:latest "Hello, what model are you?"

Verificar el estado de aceleración por GPU
```
ollama ps
```
- Ejemplo: proporción CPU/GPU de 14%/86%

Paso 5 — Configurar inicio automático y persistencia del modelo

5a. Inicio automático de la app de Ollama
- Hacer clic en el ícono de la barra de menú → activar Launch at Login
- O agregarlo manualmente en System Settings > General > Login Items
5b. Precarga automática de Gemma 4
- Crear un Launch Agent para cargar automáticamente el modelo al iniciar Ollama y mantenerlo activo cada 5 minutos
```
cat << 'EOF' > ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
...
EOF
```
- Cargar el agente
```
launchctl load ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
```
- Enviar un prompt vacío cada 5 minutos para mantener el modelo en memoria
5c. Mantener el modelo indefinidamente
- Por defecto, el modelo se descarga tras 5 minutos de inactividad
- Configurar persistencia indefinida
```
launchctl setenv OLLAMA_KEEP_ALIVE "-1"
```
- Para mantenerlo también después de reiniciar, añadirlo a ~/.zshrc

Paso 6 — Verificar la configuración

Confirmar que el servidor de Ollama esté en ejecución
```
ollama list
```
Confirmar que el modelo esté cargado en memoria
```
ollama ps
```
Confirmar el registro del Launch Agent
```
launchctl list | grep ollama
```

Ejemplo de salida esperada

gemma4:latest ... 9.6 GB 14%/86% CPU/GPU 4096 Forever

Acceso a la API

Endpoint de API local: http://localhost:11434

Ejemplo de Chat Completion compatible con OpenAI

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4:latest",
    "messages": [{"role": "user", "content": "Hello"}]
  }'

Comandos útiles

Comando	Descripción
`ollama list`	Lista de modelos descargados
`ollama ps`	Modelos en ejecución y uso de memoria
`ollama run gemma4:latest`	Ejecución interactiva
`ollama stop gemma4:latest`	Descargar el modelo
`ollama pull gemma4:latest`	Actualizar a la versión más reciente
`ollama rm gemma4:latest`	Eliminar el modelo

Desinstalar Ollama y desactivar el inicio automático

launchctl unload ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
rm ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
brew uninstall --cask ollama-app

Principales mejoras de Ollama v0.19+ (31 de marzo de 2026)

Backend MLX (Apple Silicon)
- Usa automáticamente el framework Apple MLX para mejorar la velocidad de inferencia
- Los chips de la serie M5 admiten aceleración adicional con GPU Neural Accelerator
- Los chips M4 e inferiores también reciben mejoras generales de velocidad basadas en MLX
Formato NVFP4 (NVIDIA)
- El formato NVFP4 reduce el ancho de banda de memoria y el espacio de almacenamiento manteniendo la precisión
- Compatible con modelos generados con herramientas de optimización de modelos de NVIDIA
Mejoras de caché (programación y tareas de agentes)
- Menor uso de memoria: mejora la eficiencia reutilizando caché entre conversaciones
- Checkpoints inteligentes: reduce el procesamiento de prompts y mejora la velocidad de respuesta
- Eliminación inteligente de caché: mejora la eficiencia en tareas ramificadas al conservar prefijos comunes

Notas adicionales

El modelo Gemma 4 (8B) usa aproximadamente 9.6 GB de memoria
- En un Mac mini de 24 GB, pueden quedar unos 14 GB libres
El modelo 26B usa aproximadamente 17 GB, lo que provoca swap del sistema y una menor capacidad de respuesta
- El modelo 8B ofrece un rendimiento estable

Enlaces de referencia

1 comentarios

GN⁺ 25 일 전

Comentarios en Hacker News

Si eres de los que usa un modelo open weight por primera vez apenas sale, debes saber que las implementaciones iniciales y la cuantización (quantization) siempre traen bugs
Como cada proyecto se apresura para dar soporte el día del lanzamiento, es posible que los resultados no sean correctos
Ya se han encontrado varios problemas en la implementación del tokenizer, y la cuantización que usa imatrix también puede dar problemas
Durante las próximas semanas van a aparecer muchas publicaciones del tipo “la llamada de herramientas no funciona y el modelo es un desastre”. En realidad, eso le pasa a quienes están usando implementaciones rotas
Si quieres usar modelos cutting-edge, debes estar listo para actualizar seguido el motor de inferencia y volver a descargar las versiones cuantizadas cada vez que cambien
Por la competencia por llegar al día del lanzamiento, muchas veces se trabaja con la lógica de “si ya salen tokens, se despliega”, así que la verificación de precisión queda para después
- Me pregunto qué inference engine debería usar en Linux con una 4090
  Me pasa seguido que la llamada de herramientas no funciona, pero no sé si es problema del modelo o de ollama
Estoy pensando en comprar una Mac mini para ejecutar modelos en local
Yo uso Claude sobre todo para trabajo de desarrollo y proyectos de homelab, y quisiera saber si los modelos abiertos ya sirven a ese nivel o si sigue siendo mejor mantener la suscripción de 20 dólares al mes
- Para tareas pequeñas está bien, pero si esperas usarlo como Claude, es muy probable que te decepcione
  Antes de comprar hardware y hostearlo tú mismo, recomiendo probar primero en un servicio hospedado. Así puedes sentir de antemano las limitaciones del modelo
- Yo uso modelos abiertos desde la filtración de llama. Han mejorado poco a poco, y está genial poder ejecutar un bloque de conocimiento en local sin internet
  Pero hay que bajar las expectativas. Digan lo que digan los benchmarks, no se puede comparar con Sonnet u Opus
- Lo mejor es probarlo tú mismo gastando solo 10 dólares en créditos de OpenRouter. En mi experiencia todavía les falta bastante, pero igual es entretenido revisarlo de vez en cuando
- gpt-oss-20B tenía un rendimiento como agente bastante decente, pero no se puede comparar con los modelos de pago de Claude Code. He oído que 120B es mucho mejor
Lo probé en una MacBook Pro M4 (36GB) con LM Studio y el frontend open code, pero la llamada de herramientas fallaba todo el tiempo, así que volví a qwen
Me pregunto si alguien con un entorno parecido ha tenido éxito
- El fallo en la llamada de herramientas es un problema de la implementación del motor de inferencia o de la cuantización. Te recomiendo intentarlo de nuevo en unos días, después de alguna actualización. Esto pasa en cada lanzamiento de modelos abiertos
- A mí en una M5 (32GB) LM Studio hizo que la computadora se congelara y tuve que reiniciar
  Pero gemma-4-26B-A4B-it-GGUF:Q4_K_M sí funcionó bien en llama.cpp. Tanto la velocidad (38 tokens por segundo) como la calidad me parecieron impresionantes
- Yo también tuve el mismo problema. En la versión Q_8 de LM Studio entraba en modo bucle y repetía comandos sin parar
- Según otros, hay que actualizar tanto la versión principal como la de runtime
- También confirmé fallos en la llamada de herramientas en un servidor Ubuntu (charmbracelet/crush)
Estoy buscando un modelo abierto que pueda reemplazar a Claude Sonnet 4.5
Me pregunto si hay alguno en Ollama Cloud o en OpenRouter.ai que realmente pueda servir como reemplazo
Más que benchmarks, quiero escuchar experiencias de uso reales de desarrolladores
- En conclusión, no hay ningún modelo que reemplace a Sonnet y Opus. La familia GPT Codex también sigue siendo excelente
  He probado MiniMax, GLM, Qwen, Kimi y otros, pero en tareas complejas todos muestran limitaciones importantes
- Siento que GLM5 y KimiK2.5 sí son sustitutos bastante cercanos a Sonnet
Me pregunto si alguien lo ha ejecutado con un build de oMLX en una M5 Air (32GB, 10 núcleos). También quiero saber si funciona la llamada de herramientas
- La release v0.3.2 tiene soporte parcial. Genera texto, pero el manejo de tokens especiales todavía está incompleto
  Personalmente estoy haciendo pruebas para añadir soporte para llamada de herramientas y para thinking con <|channel>
- Escuché que alguien ya ejecutó Gemma 4 E4B en MLX (enlace)
Es raro que los pasos para “Gemma 4 12B” cambien a la mitad a 26B
Además, en ollama ps aparece “14%/86% CPU/GPU”; ¿eso no significa que el rendimiento de la GPU es malo?
- La Mac mini comparte memoria entre CPU y GPU, así que ese porcentaje probablemente se puede ignorar
Es impresionante poder ejecutar un modelo 26B en local, pero la latencia es alta y eso dificulta cualquier cosa que no sea chat
Nosotros cambiamos tareas de generación de imágenes de inferencia local a llamadas por API. El cold start y el tiempo de generación eran demasiado largos
Lo local está bien para experimentar, pero para workloads de producción que requieren ejecución puntual la API sigue siendo más conveniente
Aun así, cuando se trata de datos sensibles de privacidad, una configuración local es muy útil
Me pregunto por qué tanta gente usa Ollama. Lo probé y se sintió demasiado simplificado
Últimamente Unsloth Studio me parece una mejor opción por defecto para principiantes
- Ollama es accesible porque basta con una sola línea, ollama pull, para bajar un modelo
  No tienes la complejidad de tener que buscar manualmente el nombre exacto del modelo y su versión en Hugging Face
  Pero si quieres profundizar, al final igual tienes que aprender cómo está armado el servidor
- Ollama tuvo la ventaja de llegar primero. En ese momento, compilar llama.cpp manualmente era una barrera importante
  Ahora recomiendo más LM Studio. Me da curiosidad qué tiene de diferente Unsloth Studio
- No entiendo por qué la gente no menciona más LMStudio. Yo me cambié hace unos meses y me parece mucho mejor
- La popularidad de Ollama se debe al efecto de marketing. Se promocionó en Reddit y Discord como ‘el frontend fácil para llama.cpp’
  Si de verdad quieres ganar, tienes que borrar Ollama y pasar directo a llama.cpp
- Yo preguntaría lo contrario: ¿qué problema tiene Ollama?
  Incluso con una GPU de 16GB funciona bien, y como backend para experimentar con otros frontends también cumple bastante bien
Me pregunto si este modelo se puede usar para programar en local y qué IDE o harness son compatibles
- La mayoría de los harness permiten programar en local si les apuntas a un endpoint de API compatible con OpenAI
  Eso sí, la versión más reciente de Codex tiene problemas de compatibilidad de API con llama.cpp
  Yo prefiero Pi. Es minimalista y extensible. También se usan mucho Claude Code y OpenCode
- Tiene que soportar llamada de herramientas, y muchas cuantizaciones gguf no lo soportan
  Para resolver eso, hice un proxy llamado Petsitter que emula funciones entre el motor de inferencia y el harness
  Enlace de GitHub
  Puedes poner Petsitter encima de Ollama y luego montar encima el harness de agente
  La versión más reciente de Ollama ya soporta "completion", "vision", "audio", "tools", "thinking"
Anoche, para usar este modelo, tuve que instalar la prerrelease de Ollama v0.20. Por eso dudo que la guía actual siga siendo correcta

Resumen de configuración de Ollama y el modelo Gemma 4 26B en Mac mini (a abril de 2026)

Preparación previa

Paso 1 — Instalar Ollama

Paso 2 — Ejecutar Ollama y verificar

Paso 3 — Descargar el modelo Gemma 4

Paso 4 — Probar el modelo y confirmar aceleración por GPU

Paso 5 — Configurar inicio automático y persistencia del modelo

5a. Inicio automático de la app de Ollama

5b. Precarga automática de Gemma 4

5c. Mantener el modelo indefinidamente

Paso 6 — Verificar la configuración

Acceso a la API

Comandos útiles

Desinstalar Ollama y desactivar el inicio automático

Principales mejoras de Ollama v0.19+ (31 de marzo de 2026)

Backend MLX (Apple Silicon)

Formato NVFP4 (NVIDIA)

Mejoras de caché (programación y tareas de agentes)

Notas adicionales

Enlaces de referencia

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News