Apple Silicon cuesta más que OpenRouter
(williamangel.net)- El costo de inferencia local está más determinado por el precio del equipo que por la electricidad, y el modelo M5 Max MacBook Pro 64GB se calcula en $4,299
- Una laptop con Apple Silicon bajo carga consume 50~100W, y con una tarifa de $0.20 por kWh la electricidad cuesta apenas unos $0.48 al día
- Gemma4:31b se observó en el M5 Max a 10~40 tokens por segundo, lo que deja un costo de aproximadamente $0.40~$4.79 por millón de tokens
- Gemma4 31b en OpenRouter cuesta alrededor de $0.38~$0.50 por millón de tokens, así que solo en condiciones muy optimistas se acerca al costo de una MacBook Pro Max
- La inferencia local por lo general es más cara y más lenta que OpenRouter, y desde una perspectiva contable es razonable estimar el costo del Pro Max en alrededor de 3 veces por millón de tokens
Cálculo del costo de inferencia local
- La tarifa eléctrica es de $0.18 por kWh según una factura reciente del norte de Virginia, aunque en los cálculos se usa una cifra más alta de $0.20 por kWh
- El promedio residencial de electricidad en EE. UU. de la EIA para 2025 es de $0.1730 por kWh
- Si una laptop con Apple Silicon consume 50~100W bajo carga, el costo eléctrico es de $0.009~$0.018 por hora, y puede redondearse a unos $0.02 por hora
- Incluso ejecutando inferencia al 100% de forma continua, el costo eléctrico ronda los $0.48 al día
- El modelo de 14 pulgadas M5 Max MacBook Pro con 64GB cuesta $4,299 según el sitio web de Apple, y 64GB se considera suficiente para ejecutar modelos como Gemma 4 31b
- Si la vida útil del hardware se divide en 3, 5 y 10 años, el costo anual sería de $1,433, $860 y $430 respectivamente
- El costo horario del hardware se calcula en $0.16358 para 3 años, $0.09815 para 5 años y $0.04908 para 10 años
- En uso general, 5 años es una estimación razonable de vida útil; 7 o 10 años también son posibles, pero bajo carga máxima de inferencia incluso 3 años puede ser una estimación razonable
Costo por token y comparación con OpenRouter
- La variable clave del costo de un modelo local es la cantidad de tokens que puede generar por hora, y en pruebas con el M5 Max modelos como Gemma4:31b estuvieron en un rango de 10~40 tokens por segundo
- A 10 tokens por segundo son 36,000 tokens por hora, y con una vida útil de 3~10 años y una tarifa de $0.18 por kWh el costo por millón de tokens se calcula en $1.61~$4.79
- A 40 tokens por segundo son 144,000 tokens por hora, y el costo por millón de tokens baja hasta $0.40~$1.20
- En Apple Silicon, el costo del hardware pesa más en el costo total que la electricidad
- El precio de Gemma4 31b en OpenRouter es de alrededor de $0.38~$0.50 por millón de tokens
- En condiciones optimistas de 50W, 40 tokens por segundo y 10 años de uso, la MacBook Pro Max baja a un costo similar al de OpenRouter
- En condiciones pesimistas de 100W, 10 tokens por segundo y 3 años de uso, la MacBook Pro Max resulta 10 veces más cara que OpenRouter
- Desde una perspectiva contable, es razonable estimar que el costo de inferencia local en Pro Max es de alrededor de 3 veces el de OpenRouter por millón de tokens
- En la mayoría de los casos, la velocidad de inferencia es una variable más importante que el costo, y la inferencia local es más lenta que la inferencia en la nube
- Algunos proveedores de Gemma 4 en OpenRouter alcanzan 60~70 tokens por segundo, lo que es 3~7 veces más rápido que los 10~20 tokens por segundo observados en Pro Max
- El costo salarial de un empleado que usa una laptop de trabajo es alrededor de 1000 veces mayor que el costo de los tokens que pueden generarse localmente, por lo que en ese contexto tiene más sentido pagarle a Anthropic
- Sigue siendo sorprendente que un dispositivo de consumo pueda ejecutar un modelo con un rendimiento cercano al de Anthropic Sonnet
1 comentarios
Comentarios de Hacker News
Este análisis no es muy bueno, porque sigue redondeando todos los valores hacia arriba. Sube la tarifa eléctrica un 10%, luego en el rango de consumo eléctrico toma el límite superior, que es el doble del valor bajo, y después le multiplica esa tarifa inflada
Encima parte de la premisa de que vas a poner a un Mac recién comprado a hacer inferencia 24 horas al día a carga máxima. ¿Por qué habría que hacer eso? Apple Silicon es rápido, pero como señala el propio autor, con unos 10~40 tokens por segundo; no está mal, pero tampoco fue diseñado para eso en primer lugar
Los centros de datos no pagan tarifas eléctricas residenciales, usan chips con buena eficiencia energética y usan chips que no fueron diseñados para ser Macs. Apple Silicon está bastante bien si no va a estar quemando tokens 24/7/365 y si no estás comprando hardware nuevo solo para ese propósito. Puedes usar un Mac Studio unas cuantas veces por semana para lo que necesites y correr ollama “casi gratis” a través de tu tailnet. Tiene sentido económicamente cuando no intentas usar tu Mac Studio como si fuera un clúster H100 con refrigeración líquida, y es obvio que casi siempre gana la opción con hardware multi-tenant, electricidad barata y más tokens por watt
Si no estoy entendiendo mal, este cálculo está metiendo el precio completo de la laptop en el costo de generar tokens. Parece que se le escapó que al pagar no solo obtienes salida del LLM, también obtienes una laptop
Si piensas dejar esa máquina en un rincón oscuro y usarla únicamente como servidor devorador de tokens, entonces una laptop es una pésima elección tecnológica para ese fin. Pero si piensas usar la laptop como laptop, tener una laptop es una gran ventaja frente a no tenerla
Además obtienes privacidad, libertad frente a la censura y control sobre el modelo que usas. Puedes evitar que tres meses después de construir tu flujo de trabajo alrededor de un modelo específico, ese modelo desaparezca de repente
Una cantidad ridículamente grande de esas personas ha gastado más de $10,000 en Mac Studio, pero aun así siguen teniendo cuellos de botella de cómputo y tampoco hay muchas opciones más eficientes que Gemma 4
Las empresas frontier de IA están vendiendo con pérdidas
Incluso dejando de lado lo que dijo u/bastawhiz[0], Claude, OpenAI, Gemini y demás están quemando literalmente cientos de miles de millones de dólares, revendiendo cosas de $1 por unos centavos con la esperanza de ser los últimos en quedar en pie
Si yo gasto $10 en cultivar naranjas y las vendo a $1, obviamente parecerá que cultivarlas tú mismo sale más caro. Estos modelos inevitablemente van a encarecerse con el tiempo; solo están intentando dominar el mercado antes de dejar de vender con pérdidas gigantescas
[0]: https://news.ycombinator.com/item?id=48168433
Además, hay razones técnicas por las que la inferencia se vuelve mucho más eficiente a escala
LLAMA 3.1 405B costaba $6/$12 por millón de tokens en 2024, pero en 2026 ese mismo modelo cuesta $3/$3. Los modelos más inteligentes de cada momento son mucho más grandes que antes, por eso el costo por token de GPT5.5 es mayor que el de 5.4. Pero dentro de dos años, probablemente costará menos ofrecer un modelo del tamaño de GPT5.5 que lo que cuesta GPT5.5 hoy. Como las técnicas de destilación sirven para reducir la cantidad de parámetros necesarios para alcanzar los mismos resultados en benchmarks, dentro de dos años probablemente también se podrá conseguir el mismo nivel de inteligencia a menor costo
Si quieres un buen modelo denso, es mejor usar qwen3.6 27B. Es más rápido y, si no me crees cuando digo que también es más inteligente, entonces deja que hable el precio de OpenRouter comparado con Gemma, que es más grande, más lento y menos eficiente en memoria
Si quieres un modelo más rápido, usa qwen3.6 35B. Si Gemma se adapta mejor a tu trabajo, también puedes usar gemma 4 26B. Hay una razón por la que tanta gente, incluyéndome, ha seguido hablando de estos dos, especialmente del 27B. Es lo bastante pequeño para correr a buena velocidad, especialmente ahora que llama.cpp por fin soporta oficialmente MTP integrado, y en muchas cargas de trabajo y en todos los benchmarks que le he lanzado iguala o supera a modelos contra los que en teoría no debería ganar
Hace unos días amanecí sin internet, levanté el 27B en una pi, le di la contraseña del router y le pedí que diagnosticara el problema. Fui por café, regresé, y ya tenía un informe completo con sugerencias de qué hacer. Me gusta OpenRouter y lo uso para muchas cosas, pero no sale más barato
Claro, todo esto mezcla experiencia personal subjetiva de haber usado todos estos modelos. Puede haber casos en los que 31B Gemma salga ganando, pero yo no los he encontrado, y he corrido los 4 modelos mencionados en múltiples tareas desde pocas horas después de que se publicara cada uno. Incluso en mi hermes, cambiar de gemma 4 26B a qwen3.5 9B mejoró los resultados, y ni siquiera era la serie 3.6, que mejoró bastante. Hacer este tipo de análisis sin usar los modelos que hoy se consideran el estado del arte en hardware de consumo se siente anticuado o como cherry-picking
Del mismo modo, DeepSeek V4 Flash también es bastante accesible como modelo local, y si usas DwarfStar 4 puedes correrlo fácilmente en una MacBook de 96GB
Pagar por inferencia en sí no es el problema, pero los modelos locales abren posibilidades bastante sorprendentes, como uso totalmente offline, procesamiento de datos con información personal identificable o protegidos por privilegio legal, y trabajos donde no tienes que preocuparte en absoluto por pasarte del presupuesto
Otra ventaja es que puedes construir un servicio y tener la certeza de que seguirá funcionando al 100%, sin preocuparte por caídas o cierres del proveedor. Ese problema existe hoy con los modelos frontier. Mi configuración local con Qwen es totalmente predecible y puede seguir corriendo mientras pueda conseguir el hardware para ejecutarla
La estrategia razonable es usar ambos. Tener herramientas de inferencia local y usar tanto modelos de nube baratos como caros. GPT-5.5 y Opus-4.7 para lo que hacen bien, como tareas de razonamiento difíciles; el segundo además puede salir más barato si lo rodeas con una suscripción a Claude; DeepSeek V4 Pro para tareas algo menos exigentes; V4 Flash para la mayor parte de la generación de código; y modelos locales para lo que requiera modelos locales
Esos proveedores parecen estar siguiendo el precio base de Alibaba para 27B Dense, y en lo personal me parece algo caro. Tal vez sea porque los modelos Qwen tienen peor eficiencia de inferencia que los modelos frontier o que Gemma, y porque ofrecer secuencias largas cuesta caro
El ejemplo de depuración con 27B está bueno. Después de comprar una Mac con 4 veces más memoria, vi éxitos similares, y Qwen 35B A3B de pronto empezó a dar muy buenos resultados. Del 9B en laptop no podría decir que fuera bueno
Aquí hay muchos comentarios sobre los problemas del análisis original, pero en cuanto a la conclusión más amplia, muchos la ven como una “distinción sin diferencia”. Dejando de lado la privacidad, si solo miras costo y rendimiento, para un desarrollador individual conviene más usar servicios alojados que autohospedarse
En el trabajo, el empleador paga los tokens, y fuera del trabajo, la mayoría de los desarrolladores siente que les basta con la suscripción mensual de $20/$100/$200 de su proveedor preferido. No hay tantos desarrolladores para quienes correr modelos locales realmente entre en las condiciones correctas desde el punto de vista puro de costo-beneficio
Más importante aún, montar modelos locales en la práctica parece estar más cerca del hobby, del aprendizaje o del control de privacidad que del ahorro de costos o del aumento de productividad
Las computadoras personales acabaron con la era anterior de terminales, la mayoría de esas empresas desaparecieron, e IBM y unas pocas supervivientes siguen ahí, pero solo como sombras de lo que fueron
El autor solo comparó el costo de los tokens de salida, pero en una carga de trabajo típica de agentes, los tokens de entrada representan una parte importante del costo. En inferencia local, en principio los tokens de entrada son gratis
Solo aparecen costos implícitos como mayor latencia hasta el primer token, más consumo eléctrico y menor velocidad de tokens de salida
Vi algunas sesiones aleatorias de agentes en mi actividad de OpenRouter y el costo de entrada era 10 veces el costo de salida. El prompt caching de OpenRouter es complejo y poco confiable, pero en llama-cpp sobre hardware local suele ser casi gratis
Si lo haces con cabeza, no es así. Una MacBook M5 Max de 128GB es una laptop premium de $6,000, pero puede hacer muchas cosas y ser una excelente máquina principal para usar todo el día
Además de eso, puede correr DeepSeek V4 Flash y procesar localmente tareas no triviales, sin censura ni restricciones, sin conexión a internet y con datos personales muy sensibles. Es una buena compra. Si te compras un par de Mac Studio de 512GB por $25,000 para intentar dejar atrás a OpenAI y compañía, te vas a decepcionar tanto en rendimiento como en costo
Como autor del blog, estoy escribiendo esto desde una MacBook M5 Max de 128GB
No hago todas esas cosas el 100% del tiempo. Dejo entrenamientos de machine learning corriendo toda la noche y reviso los resultados en la mañana; durante el trabajo la dejo funcionando como servidor para correr modelos locales; y en mi tiempo personal hago edición de video y modelado 3D. Es una máquina increíblemente versátil, y todo eso ocurre manteniendo los datos dentro del dispositivo y con control total del flujo de trabajo
Otro secreto a voces es que algunas empresas regalan decenas de miles de tokens con modelos bastante decentes como Gemini 3.1 o GLM 4.6
El post original compara Gemma por todos lados, pero termina concluyendo que lo mejor es pagar Anthropic. Anthropic cobra $15 por millón de tokens de salida, lo que según OpenRouter es 30~35 veces más caro
Es como comparar una bicicleta eléctrica de tu casa con alquilar una bici eléctrica, y luego concluir que deberías rentar un Toyota porque puede ir a una velocidad parecida. Cansa ver que un mal post reciba tanta atención
El post comete un gran error al final, así que está seriamente equivocado. No puedes mirar solo los tokens generados y decir que ese es el costo. En coding agentic, hay muchos turnos, así que no solo pagas tokens de salida, sino también todos los tokens de entrada que envías cada vez. Aunque el caché los abarate unas 10 veces, sigue siendo así. Por eso este cálculo no representa en absoluto el costo real de una API
En segundo lugar, si usas un equipo de agentes, puedes aumentar mucho la generación local de tokens. Una sola conversación está limitada por el ancho de banda de memoria y no usa por completo los recursos de cómputo. Si puedes procesar en lote los tokens de varios agentes, puedes multiplicar fácilmente por 5 la cantidad de tokens generados
Yo no podría volver a la IA en la nube. Para mí, la privacidad y el control total importan más que la velocidad o los modelos de punta
Para mí está en la misma categoría que los paneles solares en el techo. Si eres el tipo de persona que obtiene tranquilidad al controlar su infraestructura y reducir dependencias, no hace falta que la ecuación económica sea estrictamente perfecta