¿OpenAI y Anthropic realmente están perdiendo dinero con la inferencia?

(martinalderson.com)

4 puntos por GN⁺ 2025-08-29 | Aún no hay comentarios. | Compartir por WhatsApp

Contrario a lo que suele afirmarse en la industria, el costo de inferencia de IA es más bajo de lo que parece e incluso puede garantizar una alta rentabilidad
Según el análisis, el costo de los tokens de entrada es prácticamente despreciable (aprox. $0.005 por millón de tokens), mientras que el costo de los tokens de salida supera los $3 por millón, lo que genera una diferencia de 1000 veces
Los planes de suscripción para consumidores (ej.: ChatGPT Pro $20/mes) son 5 a 6 veces más altos que el costo real de inferencia, y los planes para desarrolladores (Claude Code) llegan a ser 10 a 20 veces más altos, con una rentabilidad muy elevada
Los planes de precios de API dejan márgenes de 80% a 95% o más frente al costo real, formando una estructura de ganancias similar a la del software
En última instancia, la inferencia no es un “agujero negro de dinero”, sino un negocio muy rentable cuando se aprovecha bien la estructura desequilibrada entre entrada y salida

Introducción

Se suele afirmar que la IA, en particular la inferencia (inference), genera costos enormes, pero aquí se plantea una visión escéptica y la necesidad de analizar su viabilidad económica
- El autor no tiene experiencia operando modelos frontier a gran escala, pero basa su análisis en su comprensión del alto rendimiento de los servicios en la nube y de la estructura de costos de bare metal frente a los hyperscalers
El análisis es del nivel de cálculos rápidos (napkin math) y se enfoca en el costo puro de cómputo
- Se asume un costo de $2 por hora para una sola GPU H100; las grandes empresas de IA probablemente pueden conseguirlas a un precio aún menor

El análisis se centra solo en el costo puro de cómputo y prueba si el negocio sería insostenible incluso sin mejorar el modelo, usando la utilidad actual de los modelos
- Se usa la arquitectura DeepSeek R1 (671B parámetros totales, 37B activos), asumiendo un rendimiento similar al de Claude Sonnet 4 y GPT-5

Configuración de producción: clúster de 72 GPU H100, con un costo de $144 por hora
- Tamaño de lote 32, con paralelismo tensorial sobre 8 GPU para ejecutar al mismo tiempo 9 instancias del modelo
Etapa de prefill (procesamiento de entrada): con base en el ancho de banda HBM de 3.35TB/s de la H100, se procesan 45 forward passes por segundo
- Con 32 secuencias por lote (promedio de 1,000 tokens), se procesan 1.44 millones de tokens de entrada por segundo y 46.8 mil millones de tokens de entrada por hora
- En modelos MoE, el ruteo de expertos puede reducir el rendimiento entre 30% y 50%, pero el impacto se minimiza con paralelización eficiente
Etapa de decode (generación de salida): generación secuencial de tokens, 1,440 tokens de salida por segundo y 46.7 millones de tokens de salida por hora
Cálculo del costo puro por token
- Tokens de entrada: $144 ÷ 46.8 mil millones = aprox. $0.003 por millón de tokens
- Tokens de salida: $144 ÷ 46.7 millones = aprox. $3.08 por millón de tokens
  - Asimetría: la diferencia de costo entre procesar entrada y generar salida es de aprox. 1000 veces

En general, el cuello de botella es el ancho de banda de memoria, pero en secuencias largas de contexto de 128k+ el cuello de botella pasa a ser el cómputo de attention, elevando el costo entre 2 y 10 veces
- Claude Code mantiene un límite de 200k tokens para conservar un régimen barato centrado en memoria y evitar escenarios de alto costo dominados por cómputo
- Cobrar extra por ventanas de contexto largas refleja ese cambio económico

Plan para consumidores ($20/mes ChatGPT Pro): 100 mil tokens diarios (70% entrada, 30% salida), costo real de aprox. $3/mes
- Margen de OpenAI: de 5 a 6 veces
Uso de desarrolladores (Claude Code Max 5, $100/mes): 2 millones de tokens de entrada diarios y 30 mil de salida, costo real de aprox. $4.92/mes, margen de 20.3 veces
- Max 10 ($200/mes): 10 millones de entrada diarios y 100 mil de salida, costo real de aprox. $16.89/mes, margen de 11.8 veces
- Los agentes de coding maximizan la rentabilidad porque su patrón de uso está centrado en entrada (barata)
Margen de ingresos de API: frente al precio actual ($3/15 por millón de tokens) y el costo real ($0.01/3), el margen es de 80% a 95%

El análisis se basa en varios supuestos y puede tener errores, pero incluso asumiendo una diferencia de 3 veces, la rentabilidad seguiría siendo alta
- Procesar entrada cuesta aprox. $0.005 por millón de tokens, mientras que generar salida cuesta $3+, una diferencia de mil veces
La clave está en la estructura asimétrica entre el costo de los tokens de entrada y de salida, y los servicios que la aprovechan bien pueden lograr una alta rentabilidad
- Workloads con alto peso de entrada (asistentes de coding, análisis documental, investigación, etc.) → estructura de costos casi gratuita, con rentabilidad muy alta
- Workloads con alto peso de salida (ej.: generación de video) → poca entrada y millones de tokens de salida, con una estructura de costos desfavorable que vuelve inevitables los precios altos
La idea de que “la inferencia de IA es tan cara que resulta insostenible” no coincide con la estructura real de costos. Esto podría ser una estrategia de los incumbentes para frenar la competencia. La estructura de márgenes real ya es muy sólida
Así como en el pasado la exageración de los costos del cloud computing sirvió para justificar ganancias extraordinarias de las big tech, en el debate sobre costos de inferencia también existe el riesgo de un marketing del miedo basado en costos excesivo
- Hace falta abordar la estructura de costos con base en hechos