20 puntos por GN⁺ 2025-12-22 | 3 comentarios | Compartir por WhatsApp
  • Los modelos locales pueden cubrir adecuadamente alrededor del 90% del trabajo de desarrollo, pero en el 10% restante, que requiere mayor precisión, los servicios comerciales siguen teniendo ventaja
  • En términos de ahorro de costos, seguridad y disponibilidad, los modelos locales ofrecen ventajas importantes, especialmente para proyectos personales o entornos sin conexión
  • Sin embargo, se señala que la compatibilidad con herramientas, las limitaciones de memoria y la complejidad de configuración son los principales obstáculos para su adopción en el trabajo real
  • Los modelos locales son útiles para proyectos de hobby, pero no son adecuados para entornos de producción ni para uso empresarial; lo realista es utilizarlos como apoyo de herramientas de frontera
  • Con la aparición de las herramientas gratuitas de IA para programar de Google (Gemini CLI, Jules, etc.), el efecto de ahorro de costos de los modelos locales se ha reducido en gran medida

Aviso de corrección del texto original

  • Se reconoce que la hipótesis original era incorrecta y se publica una corrección porque podía influir en decisiones financieras de los lectores
  • Sigue siendo válido que los modelos locales son más capaces en tareas de programación de lo que normalmente se les reconoce
  • Pero se retira la recomendación de cancelar las suscripciones de programación y comprar una MacBook Pro
  • La causa del error fue haber defendido esa idea sin validación empírica
  • Razones concretas por las que la hipótesis era incorrecta

    • Los modelos locales pueden realizar alrededor del 90% de las tareas de desarrollo de software, pero el último 10% es el más importante, y vale la pena pagar por modelos de frontera para resolverlo
    • El análisis se hizo desde la perspectiva de un desarrollador aficionado, pero en un entorno de producción se recomienda que las empresas proporcionen a sus empleados herramientas como Claude Code
    • Si se ejecutan al mismo tiempo otras herramientas de desarrollo que consumen RAM, como Docker, hay que reducir el tamaño del modelo, y el rendimiento cae de forma importante
    • En conclusión, los modelos locales pueden usarse como herramienta complementaria de los modelos de frontera o para bajar de nivel de suscripción, pero en situaciones ligadas directamente al sustento ofrecen poco valor en relación con el esfuerzo

Valor y ventajas de los modelos locales

  • La mayor ventaja de los modelos locales es el ahorro de costos, ya que al usar hardware propio no hace falta pagar suscripciones en la nube
    • En lugar de pagar más de $100 al mes en suscripciones, se puede invertir en una mejora de hardware y ahorrar a largo plazo
  • También tienen ventajas en términos de confiabilidad y seguridad
    • No dependen de caídas de rendimiento ni de restricciones de acceso de servicios en la nube, y los datos no se filtran al exterior
    • También pueden aprovecharse en entornos donde se necesita proteger la propiedad intelectual (IP) interna de una empresa
  • Otra ventaja es que están siempre disponibles, ya que funcionan incluso en entornos con internet restringido (aviones, redes seguras, etc.)

Estructura de memoria y optimización

  • Para ejecutar un modelo local, la memoria se consume tanto por el modelo mismo como por la ventana de contexto
    • Ejemplo: un modelo de 30B parámetros requiere alrededor de 60 GB de RAM
  • Como la ventana de contexto debe incluir la base de código, se recomienda un mínimo de 64,000 tokens
  • Cuanto más grande es el modelo, mayor es también el requerimiento de memoria por token
    • Un modelo de 80B necesita aproximadamente el doble de RAM que uno de 30B
  • Es posible ahorrar memoria mediante una arquitectura de Hybrid Attention o con Quantization
    • Al cuantizar de 16 bits a 8 bits, la pérdida de rendimiento es pequeña, pero la cuantización de la caché KV puede provocar una pérdida de rendimiento mayor

Selección de modelos y herramientas de serving

  • Los modelos Instruct son adecuados para herramientas de programación conversacionales, mientras que los modelos Non-instruct son más adecuados para autocompletado
  • Entre las herramientas para servir modelos locales, destacan Ollama y MLX
    • Ollama es de propósito general, fácil de configurar y ofrece compatibilidad con la API de OpenAI
    • MLX es exclusivo para Mac y ofrece mayor velocidad de procesamiento de tokens, aunque su configuración es más compleja
  • En el uso real, son importantes el tiempo hasta el primer token y la velocidad de procesamiento de tokens por segundo
    • MLX mostró una velocidad de respuesta aproximadamente 20% más rápida que Ollama

Cómo montar un entorno local para programar

  • Herramientas recomendadas para programar: OpenCode, Aider, Qwen Code, Roo Code, Continue
    • Todas admiten el estándar de API de OpenAI, por lo que cambiar de modelo es sencillo
  • En las pruebas, la combinación de Qwen Code con el modelo Qwen3-Coder fue la más estable
    • El modelo GPT-OSS mostró muchos casos de rechazo de solicitudes
  • La memoria unificada de MacBook permite compartir memoria entre CPU y GPU, lo que favorece la ejecución de modelos locales
  • Después de instalar MLX, el comando mlx-lm.server permite servir el modelo como una API compatible con OpenAI
    • Según la cantidad de RAM, se puede elegir entre modelos de 4B a 80B
  • Es indispensable monitorear el uso de memoria, ya que al usar memoria swap la velocidad cae drásticamente

Resultados del experimento y conclusión

  • Hipótesis inicial: “En lugar de una suscripción de $100 al mes, es más económico mejorar el hardware”
    • Conclusión corregida: “No”; en un entorno real de trabajo, las herramientas por suscripción siguen siendo más eficientes
  • Los modelos locales son adecuados para un papel complementario, y al usarlos junto con el nivel gratuito de modelos de alto rendimiento se puede ahorrar dinero
  • El modelo Qwen3-Coder tiene un rendimiento aproximadamente media generación por detrás frente a herramientas comerciales
  • Con la oferta gratuita de Google Gemini 3 Flash, la rentabilidad de los modelos locales ha disminuido
  • Se espera una futura mejora de rendimiento y reducción de tamaño de los modelos locales, por lo que siguen siendo una opción atractiva para desarrolladores individuales

Lecciones clave

  • Los modelos locales destacan en ahorro de costos, mayor seguridad y acceso sin conexión
  • Sin embargo, la estabilidad de las herramientas, los límites de memoria y la complejidad de configuración son las principales restricciones para su uso profesional
  • Usarlos en paralelo con modelos en la nube es el enfoque más realista
  • Los modelos locales tienen más valor como complemento que como “sustituto”

3 comentarios

 
ahwjdekf 2025-12-23

Por eso MacPpa es el problema.

 
skageektp 2025-12-24

Qué problema tan lejano

 
GN⁺ 2025-12-22
Opiniones de Hacker News
  • Vi este artículo desde la perspectiva de un desarrollador aficionado. O sea, gente que hace proyectos personales, no entornos de producción
    Últimamente hay mucha gente pagando suscripciones de $100~$200 por herramientas de programación para uso personal, pero en realidad la mayoría no lo necesita
    Con solo el plan de $20/mes de OpenAI o Anthropic se puede llegar bastante lejos. En especial OpenAI tiene precios de Codex mucho más baratos, así que rinde bien por lo que cuesta
    El momento de gastar más de $100 llega cuando ya agotaste el límite del plan de $20 y te empieza a frustrar. Ahí simplemente evalúas por tu cuenta si te conviene subir de plan

    • Yo uso modelos locales y los modelos gratuitos de OpenRouter. Mi gasto mensual en modelos de IA no llega ni a $1
      No es por tacaño, sino porque creo que la caída en el costo de inferencia va a terminar llevando todo hacia eso
      Antes buscaba documentación manualmente, pero lo automaticé con un comando como $ what-man "pregunta". Hice una base de datos local de embeddings de manpages y el LLM busca la documentación y la resume
      Como no le pido al modelo que ‘piense’, sino solo que haga procesamiento de texto, funciona de forma muy estable
      Los autores de documentación tienden a esconder flags importantes muy adentro, y este método resuelve ese problema
    • El plan de $20/mes se agota en 10~20 minutos cuando estás explorando una base de código grande
      Pero yo casi siempre lo uso solo para buscar código o hacer refactors, así que me alcanza
      En cambio, si haces que el LLM escriba código directamente, los tokens se evaporan enseguida. Si desarrollas al estilo “vibecoding”, el desperdicio de tokens es serio
      Para algo del nivel de una app simple de React está bien, pero cuando te mueves a áreas que no están en sus datos de entrenamiento, se nota que el modelo empieza a perderse continuamente
    • Yo también uso este tipo de herramientas en proyectos personales. El límite de Claude Code se me acaba en una hora, pero aun así vale la pena
      No quiero darle dinero a OpenAI
    • Yo también uso Claude Max para programar por mi cuenta. El plan de $20 se me acababa rapidísimo, así que subí de plan
      Mi proyecto todavía no genera ingresos, pero lo veo como una inversión en aprendizaje
    • OpenAI Codex en mi entorno solo desperdicia tokens. Incluso tareas simples como cambiar de versión de Node se quedan atrapadas en un loop
      En cambio Claude es muy productivo
      Y creo que la mayoría de la gente tiene suficiente criterio para subir de plan solo cuando realmente lo necesita. No hace falta empezar de entrada con el plan caro
      Además, el tema de este artículo son los modelos locales, así que los consejos sobre planes de suscripción se sienten un poco fuera de lugar
  • Tenía curiosidad por el cálculo detrás de pensar que una laptop de $5,000 podría competir con modelos SOTA durante los próximos 5 años
    En la práctica, yo diría que esa ilusión se rompió en dos días. A mí también me ha pasado dejarme deslumbrar por hardware brillante y hacer algo parecido
    Al final, los modelos locales son para hobby o obsesión con la privacidad. Si de verdad necesitas privacidad, creo que es mejor rentar un servidor

    • Aun así, respeto a quien quiera probarlo por su cuenta. Me recuerda a la cultura hacker de los 80 y 90
    • Incluso con mi MacBook Pro 2023 (M2 Max) puedo correr localmente modelos que eran nivel SOTA hace 1.5 años
      No es una comparación perfecta, pero viendo la velocidad a la que avanzan los modelos locales, sigue siendo algo bastante significativo
    • El hardware sigue igual, pero los modelos se vuelven cada vez más eficientes, así que creo que pagar suscripciones a modelos online durante 5 años y comprar una laptop termina siendo parecido
      Igual necesitas la laptop de todos modos, así que me parece mejor comprar una con especificaciones suficientes para modelos locales
    • ¿De verdad? Según un análisis reciente de Epoch.ai, las GPU de consumo se acercan al rendimiento de la Frontier AI en un año. Creo que no hay que subestimar los modelos de pesos abiertos
    • Yo también estoy de acuerdo. Incluso para programar, cuesta tolerar un modelo que vaya un escalón por debajo de SOTA
  • Me pareció interesante que el autor reconociera por su cuenta que estaba partiendo de una suposición equivocada
    Pero la idea de “usar una Mac durante 5 años” no es realista. Los modelos avanzan demasiado rápido
    En un entorno empresarial quizá sí haga falta equipo de gama alta como una Mac Studio con 512GB de RAM
    También hubo discusión sobre esto en un hilo anterior

  • En el artículo solo mencionan MLX y Ollama, y me dio pena que quedara fuera LM Studio
    LM Studio soporta tanto modelos MLX como GGUF y ofrece una GUI de macOS más completa que Ollama
    Su catálogo de modelos también se mantiene activamente en la página oficial

    • Creo que LM Studio es mucho mejor que Ollama. Hasta resulta raro que no sea más popular
    • Da un poco de sensación de post patrocinado
    • Habría que mencionar que LM Studio no es open source. Si la razón para usar modelos locales es la confianza, entonces una app cerrada le quita parte del sentido
    • También valdría la pena mencionar ramalama.ai
    • LM Studio usa llama.cpp internamente
  • En el artículo dicen “correr un modelo de 80B con 128GB de RAM”, pero luego sugieren que si tienes 8GB de RAM pruebes con un modelo de 4B. Se sintió raro
    No hay ninguna discusión sobre la pérdida de calidad

    • Es como si un artículo sobre “cómo ser autosuficiente con una granja de 4 acres” dijera que una maceta puede reemplazarla. Es ridículo
  • Yo corrí 260 millones de tokens con el plan Cursor de $20/mes. Fue mi primera suscripción paga y no entiendo el enfoque de este artículo
    Sinceramente siento que falta algo, y todavía me quedan muchas dudas

  • Creo que la depreciación de una Mac supera por sí sola el costo de una suscripción mensual, así que el argumento de ahorro no me convence
    Puede haber otras razones para usar modelos locales, pero en eficiencia de costos salen mal parados
    Además, el hardware corre el riesgo de quedarse corto muy rápido. Al final, si usas modelos pequeños en herramientas online, aplica la misma lógica

  • Los modelos más nuevos (Opus 4.5, GPT 5.2) apenas están empezando a seguir los problemas que yo les lanzo
    Creo que todavía faltan 1~2 años para que los modelos locales lleguen a un nivel en el que no hagan perder tiempo al desarrollador

    • Los modelos están entrenados con datos existentes, así que mientras más te alejas de esos datos, más se desploma el rendimiento
      En esos casos tienes que escribir prompts más específicos, pero eso mismo termina haciéndote ir más lento
  • Una MacBook Pro al máximo de configuración es demasiado cara para la potencia de cómputo que ofrece. Apple en particular pone precios excesivos a la RAM
    Puedes armar un desktop Linux con especificaciones parecidas por la mitad del precio
    Si la portabilidad importa, también hay laptops no Apple más baratas como alternativa

    • Pero si necesitas memoria unificada (unified RAM), las opciones son limitadas
      En Linux existen cosas como Nvidia Spark o la serie AMD Ryzen AI, pero los modelos con 128GB de RAM son raros
      También son difíciles de actualizar y siguen siendo caros
    • ¿Existe algún sistema x86 que soporte 512GB de memoria unificada?
      En realidad esa es una de las grandes ventajas de la Mac. Ahora incluso con Exo se puede pasar de 512GB
  • Yo no corro modelos locales en mi PC de desarrollo. Creo que es mejor hacerlo en una máquina separada
    Hay menos ruido de ventiladores y tampoco afecta el rendimiento de la PC en la que trabajas
    A un LLM no le molestan unos cientos de ms de latencia. Salvo que estés trabajando offline durante un viaje, no veo mucha razón para hacerlo

    • Hoy en día equipos como Mac Studio o Nvidia DGX son silenciosos y mucho más accesibles, así que esa preocupación ha disminuido