19 puntos por GN⁺ 2026-01-30 | 5 comentarios | Compartir por WhatsApp
  • Pregunta sobre qué valor tiene usar una Mac Studio (M4 Max, 64 GB) como servidor LLM local frente a un clúster de GPU del nivel de una RTX 3090
  • Según la experiencia de varios usuarios, los modelos de 8B a 32B ofrecen un rendimiento suficientemente bueno para uso real incluso en una Mac Mini o Mac Studio
  • En cambio, predomina la percepción de que para alcanzar el nivel de rendimiento y velocidad de los modelos fundacionales grandes más recientes sigue siendo inevitable depender de la nube
  • La discusión va más allá de una simple comparación de rendimiento y se extiende a cuestiones de consumo eléctrico, calor, costo, mantenimiento y confiabilidad del software
  • En conclusión, la Mac Studio se perfila como una opción centrada en la comodidad y la estabilidad, mientras que el clúster de GPU se distingue como una opción centrada en el rendimiento puro

Puntos clave de la pregunta original

  • Se plantea si vale la pena comprar una Mac Studio M4 Max (64 GB) como host para Ollama
  • Se pide compararla con la alternativa de armar un clúster con varias GPU como la RTX 3090
  • El uso principal previsto es LLM enfocado en programación, mientras que la generación de medios sería un uso secundario

Experiencia real de usuarios: rendimiento de Apple Silicon

  • Hay muchos casos que indican que incluso una Mac Mini M4 de especificación base puede ejecutar sin problemas al mismo tiempo un modelo 8B y un modelo de embeddings
  • Se repite la evaluación de que modelos medianos como Gemma 12B, la familia Qwen o GLM 4.7 Flash sí son utilizables en la práctica
  • Para modelos del rango de 30B, la opinión dominante es que “se pueden usar, pero no son rápidos”
  • Con 64 GB de memoria, el tiempo hasta la primera respuesta (TTFT) puede alargarse hasta decenas de segundos

Perspectivas de comparación con un clúster de GPU

  • En capacidad de cómputo pura y ancho de banda de memoria, un clúster de RTX 3090 tiene una ventaja aplastante
  • Muchos opinan que para fine-tuning y experimentación basados en CUDA, el entorno de NVIDIA es prácticamente indispensable
  • Por otro lado, también se señala el aumento en la dificultad operativa por factores como el consumo eléctrico (hasta 800 W con 2×3090), el calor y la configuración de la fuente de poder
  • La Mac es vista como una opción mucho más simple en cuanto a configuración, consumo, ruido y manejo térmico

La importancia de la memoria

  • Muchos sostienen que la capacidad de memoria influye más en el rendimiento percibido que el CPU
  • Se mencionan casos en entornos con M1 Ultra de 128 GB y M3 Ultra de 256 GB donde es posible servir modelos de más de 30B a múltiples usuarios
  • También se comparte la observación de que, cuanto más grande es el modelo, mejor es la calidad de respuesta y más frecuente termina siendo su uso

Límites y realidad de los LLM locales

  • Incluso usando una Mac Studio de 192 GB o 256 GB, sigue siendo difícil reemplazar por completo el nivel de Claude, Gemini o ChatGPT
  • De hecho, se comenta que muchos usuarios con entornos locales de alta gama siguen usando en paralelo una suscripción a Claude de alrededor de $200 al mes
  • Existe la percepción de que los modelos locales son adecuados para transcripción y procesamiento de texto donde la privacidad es importante, tareas repetitivas y bucles de agentes

Críticas a Ollama y alternativas

  • Existen críticas fuertes de que Ollama, aunque toma como base llama.cpp, no ha mostrado una buena actitud en la gestión del open source
  • Se menciona que respondió lentamente a vulnerabilidades de seguridad y se plantea la preocupación de una posible transición comercial a largo plazo similar a Docker Desktop
  • Como alternativas:
    • llama.cpp: excelente rendimiento; la configuración es algo más compleja, pero ofrece alta confianza
    • LM Studio: la opción más sencilla; puede aprovechar modelos MLX
    • MLX / vLLM: ofrecen mejor rendimiento y eficiencia de memoria en Apple Silicon

Resumen general

  • La Mac Studio es adecuada para usuarios a quienes les importan cargas de trabajo continuas, un entorno silencioso y una baja carga operativa
  • El clúster de GPU es más adecuado cuando lo principal es el máximo rendimiento, el trabajo con CUDA y la experimentación con modelos grandes
  • Se observa claramente una tendencia a usar los LLM locales no como reemplazo total de la nube, sino en una distribución de roles
  • Las opiniones convergen en la conclusión: “Mac para la comodidad, NVIDIA para el rendimiento, y en la práctica, un enfoque híbrido”

5 comentarios

 
yangeok 2026-01-31

¿Cuándo creen que macOS tendrá soporte para CUDA?

 
chcv0313 2026-02-02

¿Debería hacerlo?

 
yangeok 2026-02-02

No, creo que no lo haría..

 
chcv0313 2026-02-02

jajajaja

 
pencil6962 2026-01-31

No tengo ninguna razón para usarlo en mi situación, pero no dejo de pensar en probar modelos locales jaja. ¿Será porque me da pena pagar una suscripción...?