- Los modelos locales pueden cubrir adecuadamente alrededor del 90% del trabajo de desarrollo, pero en el 10% restante, que requiere mayor precisión, los servicios comerciales siguen teniendo ventaja
- En términos de ahorro de costos, seguridad y disponibilidad, los modelos locales ofrecen ventajas importantes, especialmente para proyectos personales o entornos sin conexión
- Sin embargo, se señala que la compatibilidad con herramientas, las limitaciones de memoria y la complejidad de configuración son los principales obstáculos para su adopción en el trabajo real
- Los modelos locales son útiles para proyectos de hobby, pero no son adecuados para entornos de producción ni para uso empresarial; lo realista es utilizarlos como apoyo de herramientas de frontera
- Con la aparición de las herramientas gratuitas de IA para programar de Google (Gemini CLI, Jules, etc.), el efecto de ahorro de costos de los modelos locales se ha reducido en gran medida
Aviso de corrección del texto original
- Se reconoce que la hipótesis original era incorrecta y se publica una corrección porque podía influir en decisiones financieras de los lectores
- Sigue siendo válido que los modelos locales son más capaces en tareas de programación de lo que normalmente se les reconoce
- Pero se retira la recomendación de cancelar las suscripciones de programación y comprar una MacBook Pro
- La causa del error fue haber defendido esa idea sin validación empírica
-
Razones concretas por las que la hipótesis era incorrecta
- Los modelos locales pueden realizar alrededor del 90% de las tareas de desarrollo de software, pero el último 10% es el más importante, y vale la pena pagar por modelos de frontera para resolverlo
- El análisis se hizo desde la perspectiva de un desarrollador aficionado, pero en un entorno de producción se recomienda que las empresas proporcionen a sus empleados herramientas como Claude Code
- Si se ejecutan al mismo tiempo otras herramientas de desarrollo que consumen RAM, como Docker, hay que reducir el tamaño del modelo, y el rendimiento cae de forma importante
- En conclusión, los modelos locales pueden usarse como herramienta complementaria de los modelos de frontera o para bajar de nivel de suscripción, pero en situaciones ligadas directamente al sustento ofrecen poco valor en relación con el esfuerzo
Valor y ventajas de los modelos locales
- La mayor ventaja de los modelos locales es el ahorro de costos, ya que al usar hardware propio no hace falta pagar suscripciones en la nube
- En lugar de pagar más de $100 al mes en suscripciones, se puede invertir en una mejora de hardware y ahorrar a largo plazo
- También tienen ventajas en términos de confiabilidad y seguridad
- No dependen de caídas de rendimiento ni de restricciones de acceso de servicios en la nube, y los datos no se filtran al exterior
- También pueden aprovecharse en entornos donde se necesita proteger la propiedad intelectual (IP) interna de una empresa
- Otra ventaja es que están siempre disponibles, ya que funcionan incluso en entornos con internet restringido (aviones, redes seguras, etc.)
Estructura de memoria y optimización
- Para ejecutar un modelo local, la memoria se consume tanto por el modelo mismo como por la ventana de contexto
- Ejemplo: un modelo de 30B parámetros requiere alrededor de 60 GB de RAM
- Como la ventana de contexto debe incluir la base de código, se recomienda un mínimo de 64,000 tokens
- Cuanto más grande es el modelo, mayor es también el requerimiento de memoria por token
- Un modelo de 80B necesita aproximadamente el doble de RAM que uno de 30B
- Es posible ahorrar memoria mediante una arquitectura de Hybrid Attention o con Quantization
- Al cuantizar de 16 bits a 8 bits, la pérdida de rendimiento es pequeña, pero la cuantización de la caché KV puede provocar una pérdida de rendimiento mayor
Selección de modelos y herramientas de serving
- Los modelos Instruct son adecuados para herramientas de programación conversacionales, mientras que los modelos Non-instruct son más adecuados para autocompletado
- Entre las herramientas para servir modelos locales, destacan Ollama y MLX
- Ollama es de propósito general, fácil de configurar y ofrece compatibilidad con la API de OpenAI
- MLX es exclusivo para Mac y ofrece mayor velocidad de procesamiento de tokens, aunque su configuración es más compleja
- En el uso real, son importantes el tiempo hasta el primer token y la velocidad de procesamiento de tokens por segundo
- MLX mostró una velocidad de respuesta aproximadamente 20% más rápida que Ollama
Cómo montar un entorno local para programar
- Herramientas recomendadas para programar: OpenCode, Aider, Qwen Code, Roo Code, Continue
- Todas admiten el estándar de API de OpenAI, por lo que cambiar de modelo es sencillo
- En las pruebas, la combinación de Qwen Code con el modelo Qwen3-Coder fue la más estable
- El modelo GPT-OSS mostró muchos casos de rechazo de solicitudes
- La memoria unificada de MacBook permite compartir memoria entre CPU y GPU, lo que favorece la ejecución de modelos locales
- Después de instalar MLX, el comando
mlx-lm.server permite servir el modelo como una API compatible con OpenAI
- Según la cantidad de RAM, se puede elegir entre modelos de 4B a 80B
- Es indispensable monitorear el uso de memoria, ya que al usar memoria swap la velocidad cae drásticamente
Resultados del experimento y conclusión
- Hipótesis inicial: “En lugar de una suscripción de $100 al mes, es más económico mejorar el hardware”
- Conclusión corregida: “No”; en un entorno real de trabajo, las herramientas por suscripción siguen siendo más eficientes
- Los modelos locales son adecuados para un papel complementario, y al usarlos junto con el nivel gratuito de modelos de alto rendimiento se puede ahorrar dinero
- El modelo Qwen3-Coder tiene un rendimiento aproximadamente media generación por detrás frente a herramientas comerciales
- Con la oferta gratuita de Google Gemini 3 Flash, la rentabilidad de los modelos locales ha disminuido
- Se espera una futura mejora de rendimiento y reducción de tamaño de los modelos locales, por lo que siguen siendo una opción atractiva para desarrolladores individuales
Lecciones clave
- Los modelos locales destacan en ahorro de costos, mayor seguridad y acceso sin conexión
- Sin embargo, la estabilidad de las herramientas, los límites de memoria y la complejidad de configuración son las principales restricciones para su uso profesional
- Usarlos en paralelo con modelos en la nube es el enfoque más realista
- Los modelos locales tienen más valor como complemento que como “sustituto”
3 comentarios
Por eso MacPpa es el problema.
Qué problema tan lejano
Opiniones de Hacker News
Vi este artículo desde la perspectiva de un desarrollador aficionado. O sea, gente que hace proyectos personales, no entornos de producción
Últimamente hay mucha gente pagando suscripciones de $100~$200 por herramientas de programación para uso personal, pero en realidad la mayoría no lo necesita
Con solo el plan de $20/mes de OpenAI o Anthropic se puede llegar bastante lejos. En especial OpenAI tiene precios de Codex mucho más baratos, así que rinde bien por lo que cuesta
El momento de gastar más de $100 llega cuando ya agotaste el límite del plan de $20 y te empieza a frustrar. Ahí simplemente evalúas por tu cuenta si te conviene subir de plan
No es por tacaño, sino porque creo que la caída en el costo de inferencia va a terminar llevando todo hacia eso
Antes buscaba documentación manualmente, pero lo automaticé con un comando como
$ what-man "pregunta". Hice una base de datos local de embeddings de manpages y el LLM busca la documentación y la resumeComo no le pido al modelo que ‘piense’, sino solo que haga procesamiento de texto, funciona de forma muy estable
Los autores de documentación tienden a esconder flags importantes muy adentro, y este método resuelve ese problema
Pero yo casi siempre lo uso solo para buscar código o hacer refactors, así que me alcanza
En cambio, si haces que el LLM escriba código directamente, los tokens se evaporan enseguida. Si desarrollas al estilo “vibecoding”, el desperdicio de tokens es serio
Para algo del nivel de una app simple de React está bien, pero cuando te mueves a áreas que no están en sus datos de entrenamiento, se nota que el modelo empieza a perderse continuamente
No quiero darle dinero a OpenAI
Mi proyecto todavía no genera ingresos, pero lo veo como una inversión en aprendizaje
En cambio Claude es muy productivo
Y creo que la mayoría de la gente tiene suficiente criterio para subir de plan solo cuando realmente lo necesita. No hace falta empezar de entrada con el plan caro
Además, el tema de este artículo son los modelos locales, así que los consejos sobre planes de suscripción se sienten un poco fuera de lugar
Tenía curiosidad por el cálculo detrás de pensar que una laptop de $5,000 podría competir con modelos SOTA durante los próximos 5 años
En la práctica, yo diría que esa ilusión se rompió en dos días. A mí también me ha pasado dejarme deslumbrar por hardware brillante y hacer algo parecido
Al final, los modelos locales son para hobby o obsesión con la privacidad. Si de verdad necesitas privacidad, creo que es mejor rentar un servidor
No es una comparación perfecta, pero viendo la velocidad a la que avanzan los modelos locales, sigue siendo algo bastante significativo
Igual necesitas la laptop de todos modos, así que me parece mejor comprar una con especificaciones suficientes para modelos locales
Me pareció interesante que el autor reconociera por su cuenta que estaba partiendo de una suposición equivocada
Pero la idea de “usar una Mac durante 5 años” no es realista. Los modelos avanzan demasiado rápido
En un entorno empresarial quizá sí haga falta equipo de gama alta como una Mac Studio con 512GB de RAM
También hubo discusión sobre esto en un hilo anterior
En el artículo solo mencionan MLX y Ollama, y me dio pena que quedara fuera LM Studio
LM Studio soporta tanto modelos MLX como GGUF y ofrece una GUI de macOS más completa que Ollama
Su catálogo de modelos también se mantiene activamente en la página oficial
En el artículo dicen “correr un modelo de 80B con 128GB de RAM”, pero luego sugieren que si tienes 8GB de RAM pruebes con un modelo de 4B. Se sintió raro
No hay ninguna discusión sobre la pérdida de calidad
Yo corrí 260 millones de tokens con el plan Cursor de $20/mes. Fue mi primera suscripción paga y no entiendo el enfoque de este artículo
Sinceramente siento que falta algo, y todavía me quedan muchas dudas
Creo que la depreciación de una Mac supera por sí sola el costo de una suscripción mensual, así que el argumento de ahorro no me convence
Puede haber otras razones para usar modelos locales, pero en eficiencia de costos salen mal parados
Además, el hardware corre el riesgo de quedarse corto muy rápido. Al final, si usas modelos pequeños en herramientas online, aplica la misma lógica
Los modelos más nuevos (Opus 4.5, GPT 5.2) apenas están empezando a seguir los problemas que yo les lanzo
Creo que todavía faltan 1~2 años para que los modelos locales lleguen a un nivel en el que no hagan perder tiempo al desarrollador
En esos casos tienes que escribir prompts más específicos, pero eso mismo termina haciéndote ir más lento
Una MacBook Pro al máximo de configuración es demasiado cara para la potencia de cómputo que ofrece. Apple en particular pone precios excesivos a la RAM
Puedes armar un desktop Linux con especificaciones parecidas por la mitad del precio
Si la portabilidad importa, también hay laptops no Apple más baratas como alternativa
En Linux existen cosas como Nvidia Spark o la serie AMD Ryzen AI, pero los modelos con 128GB de RAM son raros
También son difíciles de actualizar y siguen siendo caros
En realidad esa es una de las grandes ventajas de la Mac. Ahora incluso con Exo se puede pasar de 512GB
Yo no corro modelos locales en mi PC de desarrollo. Creo que es mejor hacerlo en una máquina separada
Hay menos ruido de ventiladores y tampoco afecta el rendimiento de la PC en la que trabajas
A un LLM no le molestan unos cientos de ms de latencia. Salvo que estés trabajando offline durante un viaje, no veo mucha razón para hacerlo