1 puntos por GN⁺ 2026-03-11 | 1 comentarios | Compartir por WhatsApp
  • El cálculo de 5 mil dólares del plan Claude Code Max citado por Forbes se basa en el precio minorista de la API, no en el costo real de cómputo
  • Al comparar los precios de los modelos Qwen 3.5 397B y Kimi K2.5 en OpenRouter, se observa que modelos de escala similar operan por aproximadamente una décima parte de la tarifa de la API de Anthropic
  • Con ese criterio, el costo real estimado de Anthropic sería de unos 500 dólares, es decir, solo una pérdida de alrededor de 300 dólares al mes en algunos usuarios de alto consumo
  • La mayoría de los usuarios no alcanza el límite de tokens y, según el uso promedio, el modelo es de punto de equilibrio o rentable
  • La idea de que el costo de inferencia de IA es excesivo es un malentendido, y se está utilizando para justificar los altos márgenes de la API de las grandes empresas de IA

Verificación de la afirmación de Forbes sobre los 5 mil dólares

  • Forbes citó en un artículo sobre Cursor que el plan de 200 dólares de Anthropic permite un uso de cómputo equivalente a 5 mil dólares
    • La cita se presenta como una declaración de “alguien que vio un análisis de los patrones de uso de cómputo de la empresa”
  • Esa cifra está calculada con base en el precio minorista de la API, por lo que no equivale al costo real de cómputo
  • La tarifa de la API de Opus 4.6 de Anthropic está fijada en 5 dólares por cada millón de tokens de entrada y 25 dólares por cada millón de tokens de salida
    • Con esas tarifas, un usuario intensivo puede llegar a un uso mensual equivalente a 5 mil dólares en API

Estimación del costo real de cómputo

  • En OpenRouter, el modelo Qwen 3.5 397B-A17B de escala similar cuesta alrededor de 0.39 dólares por cada millón de tokens de entrada y 2.34 dólares por salida
    • El modelo Kimi K2.5 es aún más barato, con 0.45 dólares de entrada y 2.25 dólares de salida
  • Esto representa un nivel aproximadamente 10 veces más barato que las tarifas de la API de Anthropic
  • El costo de tokens en caché también muestra una diferencia similar
    • Ejemplo: el costo de lectura de caché de Kimi K2.5 en DeepInfra es de 0.07 dólares/MTok, mientras que Anthropic cobra 0.50 dólares/MTok
  • Por lo tanto, se puede estimar que el costo real de cómputo es alrededor del 10% del precio de la API

Costo real de los usuarios de Claude Code Max

  • Un usuario que consume el equivalente a 5 mil dólares en tokens según el precio de API tendría un costo real de aproximadamente 500 dólares
    • En ese caso, Anthropic perdería alrededor de 300 dólares al mes
  • Sin embargo, Anthropic afirma que menos del 5% de los usuarios llega al límite de tokens
    • Los usuarios comunes, en promedio, usan menos del 50% del cupo de tokens
  • Según los datos de /cost de Anthropic, el usuario promedio registra unos 6 dólares diarios en uso de API, y el 90% se mantiene por debajo de 12 dólares
    • En costo real, eso equivale a unos 18 dólares al mes, lo que permite rentabilidad frente a suscripciones de 20 a 200 dólares

Diferencia de costos con Cursor

  • La cifra de 5 mil dólares proviene del análisis interno de Cursor
    • Cursor tiene que usar Opus 4.6 con la tarifa minorista de la API de Anthropic
  • Por eso, desde la perspectiva de Cursor, sí puede haber un costo mensual de 5 mil dólares por usuario intensivo
    • En cambio, el costo real de Anthropic sería de alrededor de 500 dólares
  • Cursor está teniendo dificultades porque los desarrolladores prefieren los modelos de Anthropic

La estructura de ingresos de Anthropic y el malentendido

  • Anthropic sigue operando en pérdidas en términos generales debido a costos de entrenamiento, personal e inversión masiva en cómputo
  • Sin embargo, es muy probable que el costo de inferencia por token sea rentable
  • La percepción de que “la inferencia de IA es un negocio con pérdidas” sirve para justificar márgenes excesivos en los precios de API y desalienta la competencia
  • Para entender la economía real de la inferencia, resulta más realista consultar los precios de modelos abiertos en OpenRouter
    • Estos representan solo una fracción del costo real frente a las tarifas de API de las grandes empresas de IA

1 comentarios

 
GN⁺ 2026-03-11
Opiniones de Hacker News
  • Comparar Qwen 3.5 397B-A17B con los modelos de Anthropic es una comparación absurda
    Se dice que modelos chinos como Qwen o DeepSeek son más de 10 veces más eficientes que Anthropic
    Esa también es la razón por la que no hay una gran diferencia entre los precios de OpenRouter y los oficiales. Además, no está claro qué técnicas de cuantización (quantization) usan los proveedores de OpenRouter. Incluso podría ser que en realidad lograran 100 veces más eficiencia
    Claro, no todos los usuarios exprimen el plan al máximo, así que no se pierden 5,000 dólares por usuario

    • Eso es una lógica circular. La razón para creer que los modelos chinos son 10 veces más eficientes es solo que cuestan 10 veces menos
      Si se ven las cifras de t/s de Opus 4.5 en Amazon Bedrock y de los modelos chinos, están en niveles parecidos, así que la cantidad de parámetros activos real también es similar
      En OpenRouter incluso puedes elegir directamente proveedores con BF16 o Q8
    • Estoy de acuerdo, pero es muy probable que Opus 4.6 sea un modelo 10 veces más grande. GPT-4 ya es un modelo de 1.6T y Llama 4 también es mucho más grande
      Las empresas chinas tienen escasez de GPU, pero han logrado mucha innovación en optimización de inferencia. Liang, el CEO de DeepSeek, también figura entre los autores de artículos sobre el tema
    • No tiene sentido comparar un modelo open source como Qwen con Anthropic
      Anthropic nunca ha revelado la arquitectura del modelo ni la cantidad de parámetros
      La mayoría de los modelos open source usan destilación de otros modelos o MoE para reducir el costo de cómputo
      Es difícil confiar en la publicación del blog que usa a Qwen como referencia de comparación
    • Opus podría haber logrado costos más bajos aprovechando TPU
    • En la sección de proveedores de OpenRouter aparece la información de cuantización
  • Según el artículo original, Cursor estimó el año pasado que la suscripción de Claude Code de 200 dólares al mes usaba hasta 2,000 dólares en cómputo
    Ahora ese subsidio es aún mayor, y se dice que el mismo plan puede consumir alrededor de 5,000 dólares en cómputo

    • Hubo una reacción de “esta es información que lo cambia todo”
  • Mucha gente cree que OpenAI y Anthropic venden tokens con pérdida, pero en realidad casi no hay pruebas
    Ese meme se difundió por un artículo inexacto de Forbes. Ese artículo ni siquiera entiende la diferencia entre el costo de la API y el costo de cómputo

    • Pero tampoco es fácil afirmar con certeza que no haya evidencia de ventas con pérdida
      Viendo que Anthropic bloquea el uso fuera de CC y que el límite de gasto de la API es de 5,000 dólares, también es posible que la rentabilidad sea baja
    • También está la postura de que “una empresa que solo vende tokens no puede no perder dinero”
      Los costos de investigación, entrenamiento, infraestructura y personal también deberían incluirse en el costo de generar tokens
      El bajo precio de los modelos open-weight se debe al dumping para ganar cuota de mercado, y el costo real sería más alto
      Al final, esa estructura no podrá sostenerse por mucho tiempo
    • Más que si Anthropic pierde dinero por token, lo importante es cuánto cuestan los costos de entrenamiento
      Si el modelo no se sigue entrenando continuamente, el valor del token cae
    • Como referencia, la documentación relacionada está aquí
  • Si nuestro equipo usara Claude Code por API, costaría 200,000 dólares al mes, pero en la práctica solo pagamos 1,400 dólares mensuales con suscripciones Max
    Eso da un nivel de 50,000 dólares por usuario, pero al ver la cantidad de tokens JSON, parece que la mayoría son solicitudes en caché, así que el costo real probablemente sea mucho menor

    • Me da curiosidad qué tipo de trabajo distribuyen de forma tan eficiente. Yo también uso mucho Claude, pero llego al límite rápido
    • Gemini CLI muestra la tasa de ahorro por caché por sesión, y normalmente ronda el 90%
    • Yo también corro varios agentes de Claude, y el 85% de los tokens de entrada son lecturas de caché
      El costo real probablemente esté más cerca de 25,000 a 30,000 dólares. La estimación de 5,000 dólares de Forbes es exagerada
    • Con npx ccusage puedes revisar los logs locales y calcular el costo según API
    • Pero me pregunto si usar el plan Max para fines de empresa no será una violación de los términos de servicio
  • Si el cómputo de Anthropic está completamente saturado, los power users de Claude Code podrían generar un costo de oportunidad de 5,000 dólares por usuario
    Pero esta comparación es tan inapropiada como comparar la cantidad de engranes entre un Rolex y un reloj sin marca

    • El costo de oportunidad no es el costo real. La clave es si Anthropic está tan saturada que ya no puede vender suscripciones
    • Cuanto más se aprovecha por completo una granja de GPU, más baja el costo unitario gracias al efecto de batching
    • La industria del entretenimiento también usa mucho la expresión “costo de oportunidad”, pero en la práctica lo que ocurre es que baja el consumo
      A Anthropic le puede pasar lo mismo: es muy probable que los usuarios cuestionen una calidad incierta o cambien a cobro basado en API
    • También salió la broma de “ojalá se mantenga mi situación de poder usar Opus ampliamente con una suscripción de 100 dólares”
  • El costo de inferencia y el margen de ganancia varían mucho entre los modelos open-weight y los grandes proveedores de nube
    Es parecido a la diferencia entre el costo de I+D en la industria farmacéutica y el costo de producir genéricos
    Se estima que el margen de inferencia de OpenAI es de alrededor del 70%, y el de Anthropic de 40% a 90%
    Artículos relacionados: Phemex, SaaStr, The Information, Investing.com

    • Hubo una opinión de que no hay que usar tan a la ligera la palabra ganancia (profit)
      Según criterios contables, es posible que los ingresos por modelo ya hayan compensado el costo de entrenamiento
      Pero en términos de flujo de caja, todavía no es cashflow positive
      Si no se entiende esa diferencia, se termina subestimando toda la industria de la IA
  • No está claro qué tan grande es el tamaño del modelo de Opus 4.6
    Se supone que es mucho mayor que Qwen397B

    • Si Musk dijo que Grok tiene billones de parámetros, es posible que Opus también esté en ese nivel
      Puede que Anthropic sí esté ganando dinero con la API, pero probablemente no con un margen del 90%
    • En OpenRouter, DeepSeek v3.2 (685B/37B active) está a $0.26/0.40 y Kimi K2.5 (1T/32B active) a $0.45/2.25
    • Si se consulta a expertos, estimarían que Opus tiene entre 1 y 2 billones de parámetros
  • La caché es casi prácticamente gratis, pero en realidad no lo es por completo
    Si se resta el costo de los tokens en caché, el uso real de cómputo de la suscripción de $200 baja a unos $800
    Es muy probable que la mayor parte del cómputo esté ociosa

    • Pero la caché sigue ocupando RAM, así que no es totalmente gratis
      Si la caché no acierta, eso genera un costo de oportunidad
    • Gracias a la caché se puede vender inferencia a más usuarios a precios premium, así que en realidad es una herramienta para maximizar ingresos
    • Si no es cómputo ocioso, esos recursos podrían usarse para entrenamiento del modelo o experimentos de investigación
  • Cursor tiene que usar Opus 4.6 con el precio minorista de API de Anthropic, así que podría costar 5,000 dólares al mes por power user
    En cambio, el costo real de Anthropic probablemente ronde los 500 dólares
    Hace poco escuché la estrategia de agentes en la nube de Cursor en el podcast de Swix, y las barreras de entrada están bajando

  • La suscripción de Claude se parece más al concepto de spot instances
    La API es un servicio on-demand, y la prioridad la tiene la API
    El cómputo sobrante se asigna a los usuarios suscritos, y si falta capacidad se enruta a modelos baratos cuantizados
    Este tipo de suscripción aprovecha recursos ociosos y también ayuda a mejorar la calidad del entrenamiento del modelo mediante flujos de trabajo predecibles
    He usado Qwen Code, Codex y Claude; Codex fue 2 veces mejor que Qwen y Claude fue 2 veces mejor que Codex
    Por eso esperaría que Claude Opus fuera entre 4 y 5 veces más caro que Qwen Code

    • Que “Claude es 2 veces mejor que Codex” ya no es cierto
    • La parte de que “si falta capacidad se enruta a un modelo barato” nunca se ha anunciado oficialmente