- El cálculo de 5 mil dólares del plan Claude Code Max citado por Forbes se basa en el precio minorista de la API, no en el costo real de cómputo
- Al comparar los precios de los modelos Qwen 3.5 397B y Kimi K2.5 en OpenRouter, se observa que modelos de escala similar operan por aproximadamente una décima parte de la tarifa de la API de Anthropic
- Con ese criterio, el costo real estimado de Anthropic sería de unos 500 dólares, es decir, solo una pérdida de alrededor de 300 dólares al mes en algunos usuarios de alto consumo
- La mayoría de los usuarios no alcanza el límite de tokens y, según el uso promedio, el modelo es de punto de equilibrio o rentable
- La idea de que el costo de inferencia de IA es excesivo es un malentendido, y se está utilizando para justificar los altos márgenes de la API de las grandes empresas de IA
Verificación de la afirmación de Forbes sobre los 5 mil dólares
- Forbes citó en un artículo sobre Cursor que el plan de 200 dólares de Anthropic permite un uso de cómputo equivalente a 5 mil dólares
- La cita se presenta como una declaración de “alguien que vio un análisis de los patrones de uso de cómputo de la empresa”
- Esa cifra está calculada con base en el precio minorista de la API, por lo que no equivale al costo real de cómputo
- La tarifa de la API de Opus 4.6 de Anthropic está fijada en 5 dólares por cada millón de tokens de entrada y 25 dólares por cada millón de tokens de salida
- Con esas tarifas, un usuario intensivo puede llegar a un uso mensual equivalente a 5 mil dólares en API
Estimación del costo real de cómputo
- En OpenRouter, el modelo Qwen 3.5 397B-A17B de escala similar cuesta alrededor de 0.39 dólares por cada millón de tokens de entrada y 2.34 dólares por salida
- El modelo Kimi K2.5 es aún más barato, con 0.45 dólares de entrada y 2.25 dólares de salida
- Esto representa un nivel aproximadamente 10 veces más barato que las tarifas de la API de Anthropic
- El costo de tokens en caché también muestra una diferencia similar
- Ejemplo: el costo de lectura de caché de Kimi K2.5 en DeepInfra es de 0.07 dólares/MTok, mientras que Anthropic cobra 0.50 dólares/MTok
- Por lo tanto, se puede estimar que el costo real de cómputo es alrededor del 10% del precio de la API
Costo real de los usuarios de Claude Code Max
- Un usuario que consume el equivalente a 5 mil dólares en tokens según el precio de API tendría un costo real de aproximadamente 500 dólares
- En ese caso, Anthropic perdería alrededor de 300 dólares al mes
- Sin embargo, Anthropic afirma que menos del 5% de los usuarios llega al límite de tokens
- Los usuarios comunes, en promedio, usan menos del 50% del cupo de tokens
- Según los datos de
/cost de Anthropic, el usuario promedio registra unos 6 dólares diarios en uso de API, y el 90% se mantiene por debajo de 12 dólares
- En costo real, eso equivale a unos 18 dólares al mes, lo que permite rentabilidad frente a suscripciones de 20 a 200 dólares
Diferencia de costos con Cursor
- La cifra de 5 mil dólares proviene del análisis interno de Cursor
- Cursor tiene que usar Opus 4.6 con la tarifa minorista de la API de Anthropic
- Por eso, desde la perspectiva de Cursor, sí puede haber un costo mensual de 5 mil dólares por usuario intensivo
- En cambio, el costo real de Anthropic sería de alrededor de 500 dólares
- Cursor está teniendo dificultades porque los desarrolladores prefieren los modelos de Anthropic
La estructura de ingresos de Anthropic y el malentendido
- Anthropic sigue operando en pérdidas en términos generales debido a costos de entrenamiento, personal e inversión masiva en cómputo
- Sin embargo, es muy probable que el costo de inferencia por token sea rentable
- La percepción de que “la inferencia de IA es un negocio con pérdidas” sirve para justificar márgenes excesivos en los precios de API y desalienta la competencia
- Para entender la economía real de la inferencia, resulta más realista consultar los precios de modelos abiertos en OpenRouter
- Estos representan solo una fracción del costo real frente a las tarifas de API de las grandes empresas de IA
1 comentarios
Opiniones de Hacker News
Comparar Qwen 3.5 397B-A17B con los modelos de Anthropic es una comparación absurda
Se dice que modelos chinos como Qwen o DeepSeek son más de 10 veces más eficientes que Anthropic
Esa también es la razón por la que no hay una gran diferencia entre los precios de OpenRouter y los oficiales. Además, no está claro qué técnicas de cuantización (quantization) usan los proveedores de OpenRouter. Incluso podría ser que en realidad lograran 100 veces más eficiencia
Claro, no todos los usuarios exprimen el plan al máximo, así que no se pierden 5,000 dólares por usuario
Si se ven las cifras de t/s de Opus 4.5 en Amazon Bedrock y de los modelos chinos, están en niveles parecidos, así que la cantidad de parámetros activos real también es similar
En OpenRouter incluso puedes elegir directamente proveedores con BF16 o Q8
Las empresas chinas tienen escasez de GPU, pero han logrado mucha innovación en optimización de inferencia. Liang, el CEO de DeepSeek, también figura entre los autores de artículos sobre el tema
Anthropic nunca ha revelado la arquitectura del modelo ni la cantidad de parámetros
La mayoría de los modelos open source usan destilación de otros modelos o MoE para reducir el costo de cómputo
Es difícil confiar en la publicación del blog que usa a Qwen como referencia de comparación
Según el artículo original, Cursor estimó el año pasado que la suscripción de Claude Code de 200 dólares al mes usaba hasta 2,000 dólares en cómputo
Ahora ese subsidio es aún mayor, y se dice que el mismo plan puede consumir alrededor de 5,000 dólares en cómputo
Mucha gente cree que OpenAI y Anthropic venden tokens con pérdida, pero en realidad casi no hay pruebas
Ese meme se difundió por un artículo inexacto de Forbes. Ese artículo ni siquiera entiende la diferencia entre el costo de la API y el costo de cómputo
Viendo que Anthropic bloquea el uso fuera de CC y que el límite de gasto de la API es de 5,000 dólares, también es posible que la rentabilidad sea baja
Los costos de investigación, entrenamiento, infraestructura y personal también deberían incluirse en el costo de generar tokens
El bajo precio de los modelos open-weight se debe al dumping para ganar cuota de mercado, y el costo real sería más alto
Al final, esa estructura no podrá sostenerse por mucho tiempo
Si el modelo no se sigue entrenando continuamente, el valor del token cae
Si nuestro equipo usara Claude Code por API, costaría 200,000 dólares al mes, pero en la práctica solo pagamos 1,400 dólares mensuales con suscripciones Max
Eso da un nivel de 50,000 dólares por usuario, pero al ver la cantidad de tokens JSON, parece que la mayoría son solicitudes en caché, así que el costo real probablemente sea mucho menor
El costo real probablemente esté más cerca de 25,000 a 30,000 dólares. La estimación de 5,000 dólares de Forbes es exagerada
npx ccusagepuedes revisar los logs locales y calcular el costo según APISi el cómputo de Anthropic está completamente saturado, los power users de Claude Code podrían generar un costo de oportunidad de 5,000 dólares por usuario
Pero esta comparación es tan inapropiada como comparar la cantidad de engranes entre un Rolex y un reloj sin marca
A Anthropic le puede pasar lo mismo: es muy probable que los usuarios cuestionen una calidad incierta o cambien a cobro basado en API
El costo de inferencia y el margen de ganancia varían mucho entre los modelos open-weight y los grandes proveedores de nube
Es parecido a la diferencia entre el costo de I+D en la industria farmacéutica y el costo de producir genéricos
Se estima que el margen de inferencia de OpenAI es de alrededor del 70%, y el de Anthropic de 40% a 90%
Artículos relacionados: Phemex, SaaStr, The Information, Investing.com
Según criterios contables, es posible que los ingresos por modelo ya hayan compensado el costo de entrenamiento
Pero en términos de flujo de caja, todavía no es cashflow positive
Si no se entiende esa diferencia, se termina subestimando toda la industria de la IA
No está claro qué tan grande es el tamaño del modelo de Opus 4.6
Se supone que es mucho mayor que Qwen397B
Puede que Anthropic sí esté ganando dinero con la API, pero probablemente no con un margen del 90%
La caché es casi prácticamente gratis, pero en realidad no lo es por completo
Si se resta el costo de los tokens en caché, el uso real de cómputo de la suscripción de $200 baja a unos $800
Es muy probable que la mayor parte del cómputo esté ociosa
Si la caché no acierta, eso genera un costo de oportunidad
Cursor tiene que usar Opus 4.6 con el precio minorista de API de Anthropic, así que podría costar 5,000 dólares al mes por power user
En cambio, el costo real de Anthropic probablemente ronde los 500 dólares
Hace poco escuché la estrategia de agentes en la nube de Cursor en el podcast de Swix, y las barreras de entrada están bajando
La suscripción de Claude se parece más al concepto de spot instances
La API es un servicio on-demand, y la prioridad la tiene la API
El cómputo sobrante se asigna a los usuarios suscritos, y si falta capacidad se enruta a modelos baratos cuantizados
Este tipo de suscripción aprovecha recursos ociosos y también ayuda a mejorar la calidad del entrenamiento del modelo mediante flujos de trabajo predecibles
He usado Qwen Code, Codex y Claude; Codex fue 2 veces mejor que Qwen y Claude fue 2 veces mejor que Codex
Por eso esperaría que Claude Opus fuera entre 4 y 5 veces más caro que Qwen Code