- Contrario a lo que suele afirmarse en la industria, el costo de inferencia de IA es más bajo de lo que parece e incluso puede garantizar una alta rentabilidad
- Según el análisis, el costo de los tokens de entrada es prácticamente despreciable (aprox. $0.005 por millón de tokens), mientras que el costo de los tokens de salida supera los $3 por millón, lo que genera una diferencia de 1000 veces
- Los planes de suscripción para consumidores (ej.: ChatGPT Pro $20/mes) son 5 a 6 veces más altos que el costo real de inferencia, y los planes para desarrolladores (Claude Code) llegan a ser 10 a 20 veces más altos, con una rentabilidad muy elevada
- Los planes de precios de API dejan márgenes de 80% a 95% o más frente al costo real, formando una estructura de ganancias similar a la del software
- En última instancia, la inferencia no es un “agujero negro de dinero”, sino un negocio muy rentable cuando se aprovecha bien la estructura desequilibrada entre entrada y salida
Introducción
- Se suele afirmar que la IA, en particular la inferencia (inference), genera costos enormes, pero aquí se plantea una visión escéptica y la necesidad de analizar su viabilidad económica
- El autor no tiene experiencia operando modelos frontier a gran escala, pero basa su análisis en su comprensión del alto rendimiento de los servicios en la nube y de la estructura de costos de bare metal frente a los hyperscalers
- El análisis es del nivel de cálculos rápidos (napkin math) y se enfoca en el costo puro de cómputo
- Se asume un costo de $2 por hora para una sola GPU H100; las grandes empresas de IA probablemente pueden conseguirlas a un precio aún menor
Supuestos
- El análisis se centra solo en el costo puro de cómputo y prueba si el negocio sería insostenible incluso sin mejorar el modelo, usando la utilidad actual de los modelos
- Se usa la arquitectura DeepSeek R1 (671B parámetros totales, 37B activos), asumiendo un rendimiento similar al de Claude Sonnet 4 y GPT-5
Entorno de producción con H100
- Configuración de producción: clúster de 72 GPU H100, con un costo de $144 por hora
- Tamaño de lote 32, con paralelismo tensorial sobre 8 GPU para ejecutar al mismo tiempo 9 instancias del modelo
- Etapa de prefill (procesamiento de entrada): con base en el ancho de banda HBM de 3.35TB/s de la H100, se procesan 45 forward passes por segundo
- Con 32 secuencias por lote (promedio de 1,000 tokens), se procesan 1.44 millones de tokens de entrada por segundo y 46.8 mil millones de tokens de entrada por hora
- En modelos MoE, el ruteo de expertos puede reducir el rendimiento entre 30% y 50%, pero el impacto se minimiza con paralelización eficiente
- Etapa de decode (generación de salida): generación secuencial de tokens, 1,440 tokens de salida por segundo y 46.7 millones de tokens de salida por hora
- Cálculo del costo puro por token
- Tokens de entrada: $144 ÷ 46.8 mil millones = aprox. $0.003 por millón de tokens
- Tokens de salida: $144 ÷ 46.7 millones = aprox. $3.08 por millón de tokens
- Asimetría: la diferencia de costo entre procesar entrada y generar salida es de aprox. 1000 veces
Cuellos de botella de cómputo
- En general, el cuello de botella es el ancho de banda de memoria, pero en secuencias largas de contexto de 128k+ el cuello de botella pasa a ser el cómputo de attention, elevando el costo entre 2 y 10 veces
- Claude Code mantiene un límite de 200k tokens para conservar un régimen barato centrado en memoria y evitar escenarios de alto costo dominados por cómputo
- Cobrar extra por ventanas de contexto largas refleja ese cambio económico
Economía real por usuario
- Plan para consumidores ($20/mes ChatGPT Pro): 100 mil tokens diarios (70% entrada, 30% salida), costo real de aprox. $3/mes
- Margen de OpenAI: de 5 a 6 veces
- Uso de desarrolladores (Claude Code Max 5, $100/mes): 2 millones de tokens de entrada diarios y 30 mil de salida, costo real de aprox. $4.92/mes, margen de 20.3 veces
- Max 10 ($200/mes): 10 millones de entrada diarios y 100 mil de salida, costo real de aprox. $16.89/mes, margen de 11.8 veces
- Los agentes de coding maximizan la rentabilidad porque su patrón de uso está centrado en entrada (barata)
- Margen de ingresos de API: frente al precio actual ($3/15 por millón de tokens) y el costo real ($0.01/3), el margen es de 80% a 95%
Conclusión
- El análisis se basa en varios supuestos y puede tener errores, pero incluso asumiendo una diferencia de 3 veces, la rentabilidad seguiría siendo alta
- Procesar entrada cuesta aprox. $0.005 por millón de tokens, mientras que generar salida cuesta $3+, una diferencia de mil veces
- La clave está en la estructura asimétrica entre el costo de los tokens de entrada y de salida, y los servicios que la aprovechan bien pueden lograr una alta rentabilidad
- Workloads con alto peso de entrada (asistentes de coding, análisis documental, investigación, etc.) → estructura de costos casi gratuita, con rentabilidad muy alta
- Workloads con alto peso de salida (ej.: generación de video) → poca entrada y millones de tokens de salida, con una estructura de costos desfavorable que vuelve inevitables los precios altos
- La idea de que “la inferencia de IA es tan cara que resulta insostenible” no coincide con la estructura real de costos. Esto podría ser una estrategia de los incumbentes para frenar la competencia. La estructura de márgenes real ya es muy sólida
- Así como en el pasado la exageración de los costos del cloud computing sirvió para justificar ganancias extraordinarias de las big tech, en el debate sobre costos de inferencia también existe el riesgo de un marketing del miedo basado en costos excesivo
- Hace falta abordar la estructura de costos con base en hechos
Aún no hay comentarios.