¿OpenAI y Anthropic realmente están perdiendo dinero con la inferencia?
(martinalderson.com)- Contrario a lo que suele afirmarse en la industria, el costo de inferencia de IA es más bajo de lo que parece e incluso puede garantizar una alta rentabilidad
- Según el análisis, el costo de los tokens de entrada es prácticamente despreciable (aprox. $0.005 por millón de tokens), mientras que el costo de los tokens de salida supera los $3 por millón, lo que genera una diferencia de 1000 veces
- Los planes de suscripción para consumidores (ej.: ChatGPT Pro $20/mes) son 5 a 6 veces más altos que el costo real de inferencia, y los planes para desarrolladores (Claude Code) llegan a ser 10 a 20 veces más altos, con una rentabilidad muy elevada
- Los planes de precios de API dejan márgenes de 80% a 95% o más frente al costo real, formando una estructura de ganancias similar a la del software
- En última instancia, la inferencia no es un “agujero negro de dinero”, sino un negocio muy rentable cuando se aprovecha bien la estructura desequilibrada entre entrada y salida
Introducción
- Se suele afirmar que la IA, en particular la inferencia (inference), genera costos enormes, pero aquí se plantea una visión escéptica y la necesidad de analizar su viabilidad económica
- El autor no tiene experiencia operando modelos frontier a gran escala, pero basa su análisis en su comprensión del alto rendimiento de los servicios en la nube y de la estructura de costos de bare metal frente a los hyperscalers
- El análisis es del nivel de cálculos rápidos (napkin math) y se enfoca en el costo puro de cómputo
- Se asume un costo de $2 por hora para una sola GPU H100; las grandes empresas de IA probablemente pueden conseguirlas a un precio aún menor
Supuestos
- El análisis se centra solo en el costo puro de cómputo y prueba si el negocio sería insostenible incluso sin mejorar el modelo, usando la utilidad actual de los modelos
- Se usa la arquitectura DeepSeek R1 (671B parámetros totales, 37B activos), asumiendo un rendimiento similar al de Claude Sonnet 4 y GPT-5
Entorno de producción con H100
- Configuración de producción: clúster de 72 GPU H100, con un costo de $144 por hora
- Tamaño de lote 32, con paralelismo tensorial sobre 8 GPU para ejecutar al mismo tiempo 9 instancias del modelo
- Etapa de prefill (procesamiento de entrada): con base en el ancho de banda HBM de 3.35TB/s de la H100, se procesan 45 forward passes por segundo
- Con 32 secuencias por lote (promedio de 1,000 tokens), se procesan 1.44 millones de tokens de entrada por segundo y 46.8 mil millones de tokens de entrada por hora
- En modelos MoE, el ruteo de expertos puede reducir el rendimiento entre 30% y 50%, pero el impacto se minimiza con paralelización eficiente
- Etapa de decode (generación de salida): generación secuencial de tokens, 1,440 tokens de salida por segundo y 46.7 millones de tokens de salida por hora
- Cálculo del costo puro por token
- Tokens de entrada: $144 ÷ 46.8 mil millones = aprox. $0.003 por millón de tokens
- Tokens de salida: $144 ÷ 46.7 millones = aprox. $3.08 por millón de tokens
- Asimetría: la diferencia de costo entre procesar entrada y generar salida es de aprox. 1000 veces
Cuellos de botella de cómputo
- En general, el cuello de botella es el ancho de banda de memoria, pero en secuencias largas de contexto de 128k+ el cuello de botella pasa a ser el cómputo de attention, elevando el costo entre 2 y 10 veces
- Claude Code mantiene un límite de 200k tokens para conservar un régimen barato centrado en memoria y evitar escenarios de alto costo dominados por cómputo
- Cobrar extra por ventanas de contexto largas refleja ese cambio económico
Economía real por usuario
- Plan para consumidores ($20/mes ChatGPT Pro): 100 mil tokens diarios (70% entrada, 30% salida), costo real de aprox. $3/mes
- Margen de OpenAI: de 5 a 6 veces
- Uso de desarrolladores (Claude Code Max 5, $100/mes): 2 millones de tokens de entrada diarios y 30 mil de salida, costo real de aprox. $4.92/mes, margen de 20.3 veces
- Max 10 ($200/mes): 10 millones de entrada diarios y 100 mil de salida, costo real de aprox. $16.89/mes, margen de 11.8 veces
- Los agentes de coding maximizan la rentabilidad porque su patrón de uso está centrado en entrada (barata)
- Margen de ingresos de API: frente al precio actual ($3/15 por millón de tokens) y el costo real ($0.01/3), el margen es de 80% a 95%
Conclusión
- El análisis se basa en varios supuestos y puede tener errores, pero incluso asumiendo una diferencia de 3 veces, la rentabilidad seguiría siendo alta
- Procesar entrada cuesta aprox. $0.005 por millón de tokens, mientras que generar salida cuesta $3+, una diferencia de mil veces
- La clave está en la estructura asimétrica entre el costo de los tokens de entrada y de salida, y los servicios que la aprovechan bien pueden lograr una alta rentabilidad
- Workloads con alto peso de entrada (asistentes de coding, análisis documental, investigación, etc.) → estructura de costos casi gratuita, con rentabilidad muy alta
- Workloads con alto peso de salida (ej.: generación de video) → poca entrada y millones de tokens de salida, con una estructura de costos desfavorable que vuelve inevitables los precios altos
- La idea de que “la inferencia de IA es tan cara que resulta insostenible” no coincide con la estructura real de costos. Esto podría ser una estrategia de los incumbentes para frenar la competencia. La estructura de márgenes real ya es muy sólida
- Así como en el pasado la exageración de los costos del cloud computing sirvió para justificar ganancias extraordinarias de las big tech, en el debate sobre costos de inferencia también existe el riesgo de un marketing del miedo basado en costos excesivo
- Hace falta abordar la estructura de costos con base en hechos
1 comentarios
Opiniones en Hacker News
Los cálculos matemáticos de este texto están mal en varios aspectos
En particular, es incorrecta la suposición de que la etapa de prefill está limitada por el ancho de banda
Si se desglosa el MFU calculado por el autor, da 13 PFLOPS/s, lo que equivale a 7 veces el rendimiento máximo del hardware real, así que es una cifra imposible
También son premisas erróneas asumir 32 solicitudes concurrentes, un límite de 8 GPU y que solo la operación de attention es el cuello de botella
Es una lástima que quienes critican este texto en HN solo señalen detalles menores en vez de los errores fundamentales
Si este texto está mal, entonces también queda poco sustentada la afirmación de que OpenAI o Anthropic están perdiendo dinero en inferencia
La parte del costo por token de salida también está muy equivocada
Se agradece que señalen que las matemáticas están mal, pero entonces también sería útil que presentaran cifras correctas para poder ajustar mejor las expectativas
He hecho modelos varias veces y, dependiendo de la depreciación de las GPU y de la optimización del uso de recursos, creo que la inferencia puede dejar márgenes de más del 50%
Aun así, el resultado cambia mucho según si se incluye o no el costo de entrenamiento del modelo
Si no se capitaliza el costo de entrenamiento, el margen se ve bien; pero si se deprecia e incluye, la rentabilidad empeora drásticamente
Queda la duda de por qué se excluiría el entrenamiento
Un gran laboratorio de IA puede lograr márgenes altos, pero una empresa común no
Incluso depreciando las GPU a 5 años, una caída en la utilización por pérdida de cuota de mercado puede ser devastadora
Incluso bajo IFRS/GAAP, el costo de entrenamiento termina siendo un costo directamente atribuible a los ingresos, por lo que inevitablemente forma parte del costo de ventas
Sam Altman dijo: "estamos obteniendo ganancias en inferencia; si se excluye el costo de entrenamiento, es muy rentable"
Amodei dijo algo parecido: si se ve un modelo como si fuera una empresa, con 100 millones de dólares de costo de entrenamiento y 200 millones de ingresos, la unidad modelo da ganancias
Pero al mismo tiempo la empresa completa queda en pérdidas porque está entrenando una siguiente generación de modelos aún más cara
Aun así, decir que "si se excluye el costo de entrenamiento hay ganancias" es básicamente una frase trillada que podría aplicarse a casi cualquier empresa, así que no significa mucho
En la práctica, OpenAI invierte en startups y les da créditos, creando una estructura donde el dinero circula, por lo que es difícil entender la rentabilidad real
Según un pódcast del NYT, Sam dijo que "si miras solo la inferencia, somos rentables", pero la COO al lado tuvo una reacción ambigua
Si la inferencia fuera tan barata como afirma el texto, surge la duda de por qué no hay tantos proveedores de API ultra baratos
En la práctica, la mayoría de los proveedores baratos solo ejecutan modelos pequeños
Entonces queda la pregunta de por qué no se pueden usar barato modelos grandes como DeepSeek-R1
De hecho, ya existen varios proveedores de API, y algunos incluso ofrecen DeepSeek-R1 gratis
También están opciones como DeepInfra, y el precio real es incluso más bajo de lo que estima el texto
Pero hay enormes costos fijos como entrenamiento del modelo, construcción de infraestructura y personal, así que la rentabilidad no se puede explicar solo con el costo unitario de inferencia
Para ejecutar directamente un modelo de 600B hacen falta GPU por decenas de miles de dólares, y la mayor parte del tiempo quedan ociosas, así que es ineficiente
Desde la perspectiva de alguien con experiencia en arquitectura de GPU, aunque en contextos largos la operación de attention crece teóricamente como O(n²),
Este texto hizo los cálculos tomando como base DeepSeek R1, pero DeepSeek es anormalmente eficiente, así que no sirve bien para estimar los costos de OpenAI/Anthropic
La eficiencia de DeepSeek se debe a MoE y MLA attention
La razón por la que DeepSeek sacudió el mercado no fue tanto la eficiencia de inferencia, sino la afirmación de un costo de entrenamiento de 5 millones de dólares
En realidad, es difícil pensar que GPT-5 o Claude 4 sean menos eficientes que DeepSeek
Amodei también dijo que DeepSeek simplemente forma parte de la curva esperada de reducción de costos
La cifra diaria de tokens que presenta el texto es demasiado baja
También se menciona mal el precio de ChatGPT Pro
En realidad es de 200 dólares al mes, y Sam Altman llegó a decir directamente que "estamos perdiendo dinero con la suscripción Pro"
Porque la gente lo usa muchísimo más de lo esperado
Pero recientemente dijo que "somos rentables en inferencia"
Personalmente, no confío en lo que dice Sam
En la práctica, es muy probable que el 10% superior de usuarios concentre la mayor parte del uso en una distribución de tipo potencia
Según reportes recientes, Anthropic tiene un margen del 60% y OpenAI, incluyendo usuarios gratuitos, anda en torno al 50% de margen
speculative decoding, el caching y otras técnicas reducen aún más los costos
Además, los 37 mil millones de parámetros asumidos en el texto no coinciden con el tamaño real del modelo
Aun así, el margen por sí solo no permite ver el panorama completo
Sam Altman ha repetido en varias entrevistas que "si se excluye el costo de entrenamiento, hay ganancias"