1 puntos por GN⁺ 3 시간 전 | 1 comentarios | Compartir por WhatsApp
  • El costo de inferencia local está más determinado por el precio del equipo que por la electricidad, y el modelo M5 Max MacBook Pro 64GB se calcula en $4,299
  • Una laptop con Apple Silicon bajo carga consume 50~100W, y con una tarifa de $0.20 por kWh la electricidad cuesta apenas unos $0.48 al día
  • Gemma4:31b se observó en el M5 Max a 10~40 tokens por segundo, lo que deja un costo de aproximadamente $0.40~$4.79 por millón de tokens
  • Gemma4 31b en OpenRouter cuesta alrededor de $0.38~$0.50 por millón de tokens, así que solo en condiciones muy optimistas se acerca al costo de una MacBook Pro Max
  • La inferencia local por lo general es más cara y más lenta que OpenRouter, y desde una perspectiva contable es razonable estimar el costo del Pro Max en alrededor de 3 veces por millón de tokens

Cálculo del costo de inferencia local

  • La tarifa eléctrica es de $0.18 por kWh según una factura reciente del norte de Virginia, aunque en los cálculos se usa una cifra más alta de $0.20 por kWh
  • El promedio residencial de electricidad en EE. UU. de la EIA para 2025 es de $0.1730 por kWh
  • Si una laptop con Apple Silicon consume 50~100W bajo carga, el costo eléctrico es de $0.009~$0.018 por hora, y puede redondearse a unos $0.02 por hora
  • Incluso ejecutando inferencia al 100% de forma continua, el costo eléctrico ronda los $0.48 al día
  • El modelo de 14 pulgadas M5 Max MacBook Pro con 64GB cuesta $4,299 según el sitio web de Apple, y 64GB se considera suficiente para ejecutar modelos como Gemma 4 31b
  • Si la vida útil del hardware se divide en 3, 5 y 10 años, el costo anual sería de $1,433, $860 y $430 respectivamente
  • El costo horario del hardware se calcula en $0.16358 para 3 años, $0.09815 para 5 años y $0.04908 para 10 años
  • En uso general, 5 años es una estimación razonable de vida útil; 7 o 10 años también son posibles, pero bajo carga máxima de inferencia incluso 3 años puede ser una estimación razonable

Costo por token y comparación con OpenRouter

  • La variable clave del costo de un modelo local es la cantidad de tokens que puede generar por hora, y en pruebas con el M5 Max modelos como Gemma4:31b estuvieron en un rango de 10~40 tokens por segundo
  • A 10 tokens por segundo son 36,000 tokens por hora, y con una vida útil de 3~10 años y una tarifa de $0.18 por kWh el costo por millón de tokens se calcula en $1.61~$4.79
  • A 40 tokens por segundo son 144,000 tokens por hora, y el costo por millón de tokens baja hasta $0.40~$1.20
  • En Apple Silicon, el costo del hardware pesa más en el costo total que la electricidad
  • El precio de Gemma4 31b en OpenRouter es de alrededor de $0.38~$0.50 por millón de tokens
  • En condiciones optimistas de 50W, 40 tokens por segundo y 10 años de uso, la MacBook Pro Max baja a un costo similar al de OpenRouter
  • En condiciones pesimistas de 100W, 10 tokens por segundo y 3 años de uso, la MacBook Pro Max resulta 10 veces más cara que OpenRouter
  • Desde una perspectiva contable, es razonable estimar que el costo de inferencia local en Pro Max es de alrededor de 3 veces el de OpenRouter por millón de tokens
  • En la mayoría de los casos, la velocidad de inferencia es una variable más importante que el costo, y la inferencia local es más lenta que la inferencia en la nube
  • Algunos proveedores de Gemma 4 en OpenRouter alcanzan 60~70 tokens por segundo, lo que es 3~7 veces más rápido que los 10~20 tokens por segundo observados en Pro Max
  • El costo salarial de un empleado que usa una laptop de trabajo es alrededor de 1000 veces mayor que el costo de los tokens que pueden generarse localmente, por lo que en ese contexto tiene más sentido pagarle a Anthropic
  • Sigue siendo sorprendente que un dispositivo de consumo pueda ejecutar un modelo con un rendimiento cercano al de Anthropic Sonnet

1 comentarios

 
GN⁺ 3 시간 전
Comentarios de Hacker News
  • Este análisis no es muy bueno, porque sigue redondeando todos los valores hacia arriba. Sube la tarifa eléctrica un 10%, luego en el rango de consumo eléctrico toma el límite superior, que es el doble del valor bajo, y después le multiplica esa tarifa inflada
    Encima parte de la premisa de que vas a poner a un Mac recién comprado a hacer inferencia 24 horas al día a carga máxima. ¿Por qué habría que hacer eso? Apple Silicon es rápido, pero como señala el propio autor, con unos 10~40 tokens por segundo; no está mal, pero tampoco fue diseñado para eso en primer lugar
    Los centros de datos no pagan tarifas eléctricas residenciales, usan chips con buena eficiencia energética y usan chips que no fueron diseñados para ser Macs. Apple Silicon está bastante bien si no va a estar quemando tokens 24/7/365 y si no estás comprando hardware nuevo solo para ese propósito. Puedes usar un Mac Studio unas cuantas veces por semana para lo que necesites y correr ollama “casi gratis” a través de tu tailnet. Tiene sentido económicamente cuando no intentas usar tu Mac Studio como si fuera un clúster H100 con refrigeración líquida, y es obvio que casi siempre gana la opción con hardware multi-tenant, electricidad barata y más tokens por watt

    • Incluso bajando todo al escenario más optimista, dio $0.40 por millón de tokens, y en OpenRouter el mismo modelo cuesta $0.38/millón de tokens
    • El post en sí no tiene sentido. No puedes usar OpenRouter como una computadora de propósito general, así que ¿por qué comparar una computadora completa con un SaaS de propósito único?
    • No sé de dónde salió esa cifra de 40 tokens por segundo. En una M5 Max de 128GB, corriendo Gemma 4 31B, he visto 95~100 tokens por segundo. Incluso hice pruebas donde fue más rápido que Claude Opus 4.5 con el mismo prompt
    • En realidad, calcularlo como si generara tokens las 24 horas ya es el mejor caso. Si lo calculas con 8 horas de uso real al día, el costo fijo del hardware sigue siendo la parte más grande del presupuesto, pero los tokens generados bajan a 1/3, así que el costo por token se triplica
  • Si no estoy entendiendo mal, este cálculo está metiendo el precio completo de la laptop en el costo de generar tokens. Parece que se le escapó que al pagar no solo obtienes salida del LLM, también obtienes una laptop
    Si piensas dejar esa máquina en un rincón oscuro y usarla únicamente como servidor devorador de tokens, entonces una laptop es una pésima elección tecnológica para ese fin. Pero si piensas usar la laptop como laptop, tener una laptop es una gran ventaja frente a no tenerla
    Además obtienes privacidad, libertad frente a la censura y control sobre el modelo que usas. Puedes evitar que tres meses después de construir tu flujo de trabajo alrededor de un modelo específico, ese modelo desaparezca de repente

    • Una mejor métrica podría ser la diferencia de precio entre la laptop que necesitas para correr modelos locales y la laptop que de todas formas ibas a comprar
    • Obtienes control sobre el modelo, pero no tienes acceso a los modelos de mejor rendimiento; solo puedes correr modelos pequeños
    • No solo obtuviste salida del LLM y una laptop, sino que además, si es una Mac, probablemente todavía conserve un buen valor de reventa cuando la cambies
    • Con OpenRouter no puedes correr Cyberpunk 2077 en 5K HDR con todo al máximo
    • El post original, comparado con la gente obsesionada con acaparar Macs, en realidad muestra el mejor caso absoluto
      Una cantidad ridículamente grande de esas personas ha gastado más de $10,000 en Mac Studio, pero aun así siguen teniendo cuellos de botella de cómputo y tampoco hay muchas opciones más eficientes que Gemma 4
  • Las empresas frontier de IA están vendiendo con pérdidas
    Incluso dejando de lado lo que dijo u/bastawhiz[0], Claude, OpenAI, Gemini y demás están quemando literalmente cientos de miles de millones de dólares, revendiendo cosas de $1 por unos centavos con la esperanza de ser los últimos en quedar en pie
    Si yo gasto $10 en cultivar naranjas y las vendo a $1, obviamente parecerá que cultivarlas tú mismo sale más caro. Estos modelos inevitablemente van a encarecerse con el tiempo; solo están intentando dominar el mercado antes de dejar de vender con pérdidas gigantescas
    [0]: https://news.ycombinator.com/item?id=48168433

    • No parece muy probable. En OpenRouter hay muchos proveedores que ofrecen modelos abiertos, y cuesta creer que todos estén perdiendo dinero por cada token que venden
      Además, hay razones técnicas por las que la inferencia se vuelve mucho más eficiente a escala
    • El blog está comparando el costo de correr Gemma4 31B, pero en OpenRouter ese modelo no lo ofrecen empresas frontier de IA, sino pequeños proveedores de inferencia poco conocidos. Parece una comparación bastante justa
    • Aun así, las eficiencias de escala son mucho mayores. Con mi carga de trabajo actual no puedo mantener un modelo local al 98% de utilización las 24 horas, pero una gran nube sí puede. Tampoco puedo alimentar mi servidor con corriente directa, y además está la ineficiencia de convertir corriente alterna en directa. Y así siguen acumulándose factores
    • Eso no es cierto. Los tokens de API no se venden con pérdidas, y el hardware se vuelve más eficiente con el tiempo, así que el costo de ofrecer inferencia para un mismo modelo baja
      LLAMA 3.1 405B costaba $6/$12 por millón de tokens en 2024, pero en 2026 ese mismo modelo cuesta $3/$3. Los modelos más inteligentes de cada momento son mucho más grandes que antes, por eso el costo por token de GPT5.5 es mayor que el de 5.4. Pero dentro de dos años, probablemente costará menos ofrecer un modelo del tamaño de GPT5.5 que lo que cuesta GPT5.5 hoy. Como las técnicas de destilación sirven para reducir la cantidad de parámetros necesarios para alcanzar los mismos resultados en benchmarks, dentro de dos años probablemente también se podrá conseguir el mismo nivel de inteligencia a menor costo
    • ¿Hay pruebas de eso? El CEO de Anthropic dijo que la empresa es rentable, y OpenAI dijo lo mismo
  • Si quieres un buen modelo denso, es mejor usar qwen3.6 27B. Es más rápido y, si no me crees cuando digo que también es más inteligente, entonces deja que hable el precio de OpenRouter comparado con Gemma, que es más grande, más lento y menos eficiente en memoria
    Si quieres un modelo más rápido, usa qwen3.6 35B. Si Gemma se adapta mejor a tu trabajo, también puedes usar gemma 4 26B. Hay una razón por la que tanta gente, incluyéndome, ha seguido hablando de estos dos, especialmente del 27B. Es lo bastante pequeño para correr a buena velocidad, especialmente ahora que llama.cpp por fin soporta oficialmente MTP integrado, y en muchas cargas de trabajo y en todos los benchmarks que le he lanzado iguala o supera a modelos contra los que en teoría no debería ganar
    Hace unos días amanecí sin internet, levanté el 27B en una pi, le di la contraseña del router y le pedí que diagnosticara el problema. Fui por café, regresé, y ya tenía un informe completo con sugerencias de qué hacer. Me gusta OpenRouter y lo uso para muchas cosas, pero no sale más barato
    Claro, todo esto mezcla experiencia personal subjetiva de haber usado todos estos modelos. Puede haber casos en los que 31B Gemma salga ganando, pero yo no los he encontrado, y he corrido los 4 modelos mencionados en múltiples tareas desde pocas horas después de que se publicara cada uno. Incluso en mi hermes, cambiar de gemma 4 26B a qwen3.5 9B mejoró los resultados, y ni siquiera era la serie 3.6, que mejoró bastante. Hacer este tipo de análisis sin usar los modelos que hoy se consideran el estado del arte en hardware de consumo se siente anticuado o como cherry-picking

    • Sí. Qwen 3.6 45b(6 parameter) corre en una RTX 5090 común, y si te gustan los juegos, es muy probable que ya tengas una. Sirve bastante bien para la mayoría de las tareas de generación de código
      Del mismo modo, DeepSeek V4 Flash también es bastante accesible como modelo local, y si usas DwarfStar 4 puedes correrlo fácilmente en una MacBook de 96GB
      Pagar por inferencia en sí no es el problema, pero los modelos locales abren posibilidades bastante sorprendentes, como uso totalmente offline, procesamiento de datos con información personal identificable o protegidos por privilegio legal, y trabajos donde no tienes que preocuparte en absoluto por pasarte del presupuesto
      Otra ventaja es que puedes construir un servicio y tener la certeza de que seguirá funcionando al 100%, sin preocuparte por caídas o cierres del proveedor. Ese problema existe hoy con los modelos frontier. Mi configuración local con Qwen es totalmente predecible y puede seguir corriendo mientras pueda conseguir el hardware para ejecutarla
      La estrategia razonable es usar ambos. Tener herramientas de inferencia local y usar tanto modelos de nube baratos como caros. GPT-5.5 y Opus-4.7 para lo que hacen bien, como tareas de razonamiento difíciles; el segundo además puede salir más barato si lo rodeas con una suscripción a Claude; DeepSeek V4 Pro para tareas algo menos exigentes; V4 Flash para la mayor parte de la generación de código; y modelos locales para lo que requiera modelos locales
    • Estoy de acuerdo con la afirmación, pero no sé si esa forma de leer el precio de qwen3.6 27B sea correcta
      Esos proveedores parecen estar siguiendo el precio base de Alibaba para 27B Dense, y en lo personal me parece algo caro. Tal vez sea porque los modelos Qwen tienen peor eficiencia de inferencia que los modelos frontier o que Gemma, y porque ofrecer secuencias largas cuesta caro
    • Me da curiosidad cómo comparan entre sí los modelos cuantizados. Todavía no encuentro un benchmark que realmente me guste
      El ejemplo de depuración con 27B está bueno. Después de comprar una Mac con 4 veces más memoria, vi éxitos similares, y Qwen 35B A3B de pronto empezó a dar muy buenos resultados. Del 9B en laptop no podría decir que fuera bueno
  • Aquí hay muchos comentarios sobre los problemas del análisis original, pero en cuanto a la conclusión más amplia, muchos la ven como una “distinción sin diferencia”. Dejando de lado la privacidad, si solo miras costo y rendimiento, para un desarrollador individual conviene más usar servicios alojados que autohospedarse
    En el trabajo, el empleador paga los tokens, y fuera del trabajo, la mayoría de los desarrolladores siente que les basta con la suscripción mensual de $20/$100/$200 de su proveedor preferido. No hay tantos desarrolladores para quienes correr modelos locales realmente entre en las condiciones correctas desde el punto de vista puro de costo-beneficio
    Más importante aún, montar modelos locales en la práctica parece estar más cerca del hobby, del aprendizaje o del control de privacidad que del ahorro de costos o del aumento de productividad

    • La computación estilo mainframe con la que sueñan los creadores de modelos no va a volver, sin importar lo que quieran OpenAI, Google, Anthropic o Microsoft. Hay demasiados bárbaros tecnológicos inteligentes queriendo entrar por la puerta, y ellos no se van a conformar con volver a la era de las terminales
      Las computadoras personales acabaron con la era anterior de terminales, la mayoría de esas empresas desaparecieron, e IBM y unas pocas supervivientes siguen ahí, pero solo como sombras de lo que fueron
  • El autor solo comparó el costo de los tokens de salida, pero en una carga de trabajo típica de agentes, los tokens de entrada representan una parte importante del costo. En inferencia local, en principio los tokens de entrada son gratis
    Solo aparecen costos implícitos como mayor latencia hasta el primer token, más consumo eléctrico y menor velocidad de tokens de salida

    • Sí, ese punto destruye por completo el argumento del autor
      Vi algunas sesiones aleatorias de agentes en mi actividad de OpenRouter y el costo de entrada era 10 veces el costo de salida. El prompt caching de OpenRouter es complejo y poco confiable, pero en llama-cpp sobre hardware local suele ser casi gratis
    • Incluso ignorando el mejor caching en configuración local, el hardware Mac muchas veces procesa tokens de entrada aproximadamente 10 veces más rápido que los de salida. En OpenRouter, con el mismo modelo, la diferencia parece ser de unas 2 veces
  • Si lo haces con cabeza, no es así. Una MacBook M5 Max de 128GB es una laptop premium de $6,000, pero puede hacer muchas cosas y ser una excelente máquina principal para usar todo el día
    Además de eso, puede correr DeepSeek V4 Flash y procesar localmente tareas no triviales, sin censura ni restricciones, sin conexión a internet y con datos personales muy sensibles. Es una buena compra. Si te compras un par de Mac Studio de 512GB por $25,000 para intentar dejar atrás a OpenAI y compañía, te vas a decepcionar tanto en rendimiento como en costo

    • La decisión inteligente es comprar una MacBook de ~48GB para uso diario y presupuestar unos $800 al año para suscripciones o tokens de IA. Al final quedas más o menos en el mismo rango de precio
      Como autor del blog, estoy escribiendo esto desde una MacBook M5 Max de 128GB
    • Mi M4 Max de 128GB terminó siendo una elección bastante razonable. Hago edición de video, entrenamiento de modelos de machine learning, ejecución de grandes modelos abiertos de IA, modelado 3D, renderizado y trabajo de CAD
      No hago todas esas cosas el 100% del tiempo. Dejo entrenamientos de machine learning corriendo toda la noche y reviso los resultados en la mañana; durante el trabajo la dejo funcionando como servidor para correr modelos locales; y en mi tiempo personal hago edición de video y modelado 3D. Es una máquina increíblemente versátil, y todo eso ocurre manteniendo los datos dentro del dispositivo y con control total del flujo de trabajo
    • Es un secreto para la gente de HN, pero algunos de estos modelos también corren en una rpi5 de $200 o en una mini PC AMD de $500
      Otro secreto a voces es que algunas empresas regalan decenas de miles de tokens con modelos bastante decentes como Gemini 3.1 o GLM 4.6
  • El post original compara Gemma por todos lados, pero termina concluyendo que lo mejor es pagar Anthropic. Anthropic cobra $15 por millón de tokens de salida, lo que según OpenRouter es 30~35 veces más caro
    Es como comparar una bicicleta eléctrica de tu casa con alquilar una bici eléctrica, y luego concluir que deberías rentar un Toyota porque puede ir a una velocidad parecida. Cansa ver que un mal post reciba tanta atención

  • El post comete un gran error al final, así que está seriamente equivocado. No puedes mirar solo los tokens generados y decir que ese es el costo. En coding agentic, hay muchos turnos, así que no solo pagas tokens de salida, sino también todos los tokens de entrada que envías cada vez. Aunque el caché los abarate unas 10 veces, sigue siendo así. Por eso este cálculo no representa en absoluto el costo real de una API
    En segundo lugar, si usas un equipo de agentes, puedes aumentar mucho la generación local de tokens. Una sola conversación está limitada por el ancho de banda de memoria y no usa por completo los recursos de cómputo. Si puedes procesar en lote los tokens de varios agentes, puedes multiplicar fácilmente por 5 la cantidad de tokens generados

  • Yo no podría volver a la IA en la nube. Para mí, la privacidad y el control total importan más que la velocidad o los modelos de punta

    • También están la previsibilidad, la resiliencia y la soberanía. No tienes que preocuparte por caídas ajenas, por demanda inesperada que te afecte en el peor momento, por alguien degradando tu modelo, por cambios impredecibles en costos ni por una factura enorme causada por un error inesperado
      Para mí está en la misma categoría que los paneles solares en el techo. Si eres el tipo de persona que obtiene tranquilidad al controlar su infraestructura y reducir dependencias, no hace falta que la ecuación económica sea estrictamente perfecta