- Pregunta sobre qué valor tiene usar una Mac Studio (M4 Max, 64 GB) como servidor LLM local frente a un clúster de GPU del nivel de una RTX 3090
- Según la experiencia de varios usuarios, los modelos de 8B a 32B ofrecen un rendimiento suficientemente bueno para uso real incluso en una Mac Mini o Mac Studio
- En cambio, predomina la percepción de que para alcanzar el nivel de rendimiento y velocidad de los modelos fundacionales grandes más recientes sigue siendo inevitable depender de la nube
- La discusión va más allá de una simple comparación de rendimiento y se extiende a cuestiones de consumo eléctrico, calor, costo, mantenimiento y confiabilidad del software
- En conclusión, la Mac Studio se perfila como una opción centrada en la comodidad y la estabilidad, mientras que el clúster de GPU se distingue como una opción centrada en el rendimiento puro
Puntos clave de la pregunta original
- Se plantea si vale la pena comprar una Mac Studio M4 Max (64 GB) como host para Ollama
- Se pide compararla con la alternativa de armar un clúster con varias GPU como la RTX 3090
- El uso principal previsto es LLM enfocado en programación, mientras que la generación de medios sería un uso secundario
Experiencia real de usuarios: rendimiento de Apple Silicon
- Hay muchos casos que indican que incluso una Mac Mini M4 de especificación base puede ejecutar sin problemas al mismo tiempo un modelo 8B y un modelo de embeddings
- Se repite la evaluación de que modelos medianos como Gemma 12B, la familia Qwen o GLM 4.7 Flash sí son utilizables en la práctica
- Para modelos del rango de 30B, la opinión dominante es que “se pueden usar, pero no son rápidos”
- Con 64 GB de memoria, el tiempo hasta la primera respuesta (TTFT) puede alargarse hasta decenas de segundos
Perspectivas de comparación con un clúster de GPU
- En capacidad de cómputo pura y ancho de banda de memoria, un clúster de RTX 3090 tiene una ventaja aplastante
- Muchos opinan que para fine-tuning y experimentación basados en CUDA, el entorno de NVIDIA es prácticamente indispensable
- Por otro lado, también se señala el aumento en la dificultad operativa por factores como el consumo eléctrico (hasta 800 W con 2×3090), el calor y la configuración de la fuente de poder
- La Mac es vista como una opción mucho más simple en cuanto a configuración, consumo, ruido y manejo térmico
La importancia de la memoria
- Muchos sostienen que la capacidad de memoria influye más en el rendimiento percibido que el CPU
- Se mencionan casos en entornos con M1 Ultra de 128 GB y M3 Ultra de 256 GB donde es posible servir modelos de más de 30B a múltiples usuarios
- También se comparte la observación de que, cuanto más grande es el modelo, mejor es la calidad de respuesta y más frecuente termina siendo su uso
Límites y realidad de los LLM locales
- Incluso usando una Mac Studio de 192 GB o 256 GB, sigue siendo difícil reemplazar por completo el nivel de Claude, Gemini o ChatGPT
- De hecho, se comenta que muchos usuarios con entornos locales de alta gama siguen usando en paralelo una suscripción a Claude de alrededor de $200 al mes
- Existe la percepción de que los modelos locales son adecuados para transcripción y procesamiento de texto donde la privacidad es importante, tareas repetitivas y bucles de agentes
Críticas a Ollama y alternativas
- Existen críticas fuertes de que Ollama, aunque toma como base llama.cpp, no ha mostrado una buena actitud en la gestión del open source
- Se menciona que respondió lentamente a vulnerabilidades de seguridad y se plantea la preocupación de una posible transición comercial a largo plazo similar a Docker Desktop
- Como alternativas:
- llama.cpp: excelente rendimiento; la configuración es algo más compleja, pero ofrece alta confianza
- LM Studio: la opción más sencilla; puede aprovechar modelos MLX
- MLX / vLLM: ofrecen mejor rendimiento y eficiencia de memoria en Apple Silicon
Resumen general
- La Mac Studio es adecuada para usuarios a quienes les importan cargas de trabajo continuas, un entorno silencioso y una baja carga operativa
- El clúster de GPU es más adecuado cuando lo principal es el máximo rendimiento, el trabajo con CUDA y la experimentación con modelos grandes
- Se observa claramente una tendencia a usar los LLM locales no como reemplazo total de la nube, sino en una distribución de roles
- Las opiniones convergen en la conclusión: “Mac para la comodidad, NVIDIA para el rendimiento, y en la práctica, un enfoque híbrido”
5 comentarios
¿Cuándo creen que macOS tendrá soporte para CUDA?
¿Debería hacerlo?
No, creo que no lo haría..
jajajaja
No tengo ninguna razón para usarlo en mi situación, pero no dejo de pensar en probar modelos locales jaja. ¿Será porque me da pena pagar una suscripción...?