4 puntos por GN⁺ 2025-08-29 | 1 comentarios | Compartir por WhatsApp
  • Contrario a lo que suele afirmarse en la industria, el costo de inferencia de IA es más bajo de lo que parece e incluso puede garantizar una alta rentabilidad
  • Según el análisis, el costo de los tokens de entrada es prácticamente despreciable (aprox. $0.005 por millón de tokens), mientras que el costo de los tokens de salida supera los $3 por millón, lo que genera una diferencia de 1000 veces
  • Los planes de suscripción para consumidores (ej.: ChatGPT Pro $20/mes) son 5 a 6 veces más altos que el costo real de inferencia, y los planes para desarrolladores (Claude Code) llegan a ser 10 a 20 veces más altos, con una rentabilidad muy elevada
  • Los planes de precios de API dejan márgenes de 80% a 95% o más frente al costo real, formando una estructura de ganancias similar a la del software
  • En última instancia, la inferencia no es un “agujero negro de dinero”, sino un negocio muy rentable cuando se aprovecha bien la estructura desequilibrada entre entrada y salida

Introducción

  • Se suele afirmar que la IA, en particular la inferencia (inference), genera costos enormes, pero aquí se plantea una visión escéptica y la necesidad de analizar su viabilidad económica
    • El autor no tiene experiencia operando modelos frontier a gran escala, pero basa su análisis en su comprensión del alto rendimiento de los servicios en la nube y de la estructura de costos de bare metal frente a los hyperscalers
  • El análisis es del nivel de cálculos rápidos (napkin math) y se enfoca en el costo puro de cómputo
    • Se asume un costo de $2 por hora para una sola GPU H100; las grandes empresas de IA probablemente pueden conseguirlas a un precio aún menor

Supuestos

  • El análisis se centra solo en el costo puro de cómputo y prueba si el negocio sería insostenible incluso sin mejorar el modelo, usando la utilidad actual de los modelos
    • Se usa la arquitectura DeepSeek R1 (671B parámetros totales, 37B activos), asumiendo un rendimiento similar al de Claude Sonnet 4 y GPT-5

Entorno de producción con H100

  • Configuración de producción: clúster de 72 GPU H100, con un costo de $144 por hora
    • Tamaño de lote 32, con paralelismo tensorial sobre 8 GPU para ejecutar al mismo tiempo 9 instancias del modelo
  • Etapa de prefill (procesamiento de entrada): con base en el ancho de banda HBM de 3.35TB/s de la H100, se procesan 45 forward passes por segundo
    • Con 32 secuencias por lote (promedio de 1,000 tokens), se procesan 1.44 millones de tokens de entrada por segundo y 46.8 mil millones de tokens de entrada por hora
    • En modelos MoE, el ruteo de expertos puede reducir el rendimiento entre 30% y 50%, pero el impacto se minimiza con paralelización eficiente
  • Etapa de decode (generación de salida): generación secuencial de tokens, 1,440 tokens de salida por segundo y 46.7 millones de tokens de salida por hora
  • Cálculo del costo puro por token
    • Tokens de entrada: $144 ÷ 46.8 mil millones = aprox. $0.003 por millón de tokens
    • Tokens de salida: $144 ÷ 46.7 millones = aprox. $3.08 por millón de tokens
      • Asimetría: la diferencia de costo entre procesar entrada y generar salida es de aprox. 1000 veces

Cuellos de botella de cómputo

  • En general, el cuello de botella es el ancho de banda de memoria, pero en secuencias largas de contexto de 128k+ el cuello de botella pasa a ser el cómputo de attention, elevando el costo entre 2 y 10 veces
    • Claude Code mantiene un límite de 200k tokens para conservar un régimen barato centrado en memoria y evitar escenarios de alto costo dominados por cómputo
    • Cobrar extra por ventanas de contexto largas refleja ese cambio económico

Economía real por usuario

  • Plan para consumidores ($20/mes ChatGPT Pro): 100 mil tokens diarios (70% entrada, 30% salida), costo real de aprox. $3/mes
    • Margen de OpenAI: de 5 a 6 veces
  • Uso de desarrolladores (Claude Code Max 5, $100/mes): 2 millones de tokens de entrada diarios y 30 mil de salida, costo real de aprox. $4.92/mes, margen de 20.3 veces
    • Max 10 ($200/mes): 10 millones de entrada diarios y 100 mil de salida, costo real de aprox. $16.89/mes, margen de 11.8 veces
    • Los agentes de coding maximizan la rentabilidad porque su patrón de uso está centrado en entrada (barata)
  • Margen de ingresos de API: frente al precio actual ($3/15 por millón de tokens) y el costo real ($0.01/3), el margen es de 80% a 95%

Conclusión

  • El análisis se basa en varios supuestos y puede tener errores, pero incluso asumiendo una diferencia de 3 veces, la rentabilidad seguiría siendo alta
    • Procesar entrada cuesta aprox. $0.005 por millón de tokens, mientras que generar salida cuesta $3+, una diferencia de mil veces
  • La clave está en la estructura asimétrica entre el costo de los tokens de entrada y de salida, y los servicios que la aprovechan bien pueden lograr una alta rentabilidad
    • Workloads con alto peso de entrada (asistentes de coding, análisis documental, investigación, etc.) → estructura de costos casi gratuita, con rentabilidad muy alta
    • Workloads con alto peso de salida (ej.: generación de video) → poca entrada y millones de tokens de salida, con una estructura de costos desfavorable que vuelve inevitables los precios altos
  • La idea de que “la inferencia de IA es tan cara que resulta insostenible” no coincide con la estructura real de costos. Esto podría ser una estrategia de los incumbentes para frenar la competencia. La estructura de márgenes real ya es muy sólida
  • Así como en el pasado la exageración de los costos del cloud computing sirvió para justificar ganancias extraordinarias de las big tech, en el debate sobre costos de inferencia también existe el riesgo de un marketing del miedo basado en costos excesivo
    • Hace falta abordar la estructura de costos con base en hechos

1 comentarios

 
GN⁺ 2025-08-29
Opiniones en Hacker News
  • Los cálculos matemáticos de este texto están mal en varios aspectos

    • En particular, es incorrecta la suposición de que la etapa de prefill está limitada por el ancho de banda

    • Si se desglosa el MFU calculado por el autor, da 13 PFLOPS/s, lo que equivale a 7 veces el rendimiento máximo del hardware real, así que es una cifra imposible

    • También son premisas erróneas asumir 32 solicitudes concurrentes, un límite de 8 GPU y que solo la operación de attention es el cuello de botella

    • Es una lástima que quienes critican este texto en HN solo señalen detalles menores en vez de los errores fundamentales

    • Si este texto está mal, entonces también queda poco sustentada la afirmación de que OpenAI o Anthropic están perdiendo dinero en inferencia

    • La parte del costo por token de salida también está muy equivocada

      • En la práctica, con solo contar con un clúster potente de GPU, se puede decodificar un modelo grande a bajo costo
      • Como ejemplo, hace 4 meses estaba en torno a 0.2 dólares por 1 millón de tokens de salida, y desde entonces se ha abaratado aún más con las GPU B200 y la optimización de código
    • Se agradece que señalen que las matemáticas están mal, pero entonces también sería útil que presentaran cifras correctas para poder ajustar mejor las expectativas

  • He hecho modelos varias veces y, dependiendo de la depreciación de las GPU y de la optimización del uso de recursos, creo que la inferencia puede dejar márgenes de más del 50%

    • Aun así, el resultado cambia mucho según si se incluye o no el costo de entrenamiento del modelo

    • Si no se capitaliza el costo de entrenamiento, el margen se ve bien; pero si se deprecia e incluye, la rentabilidad empeora drásticamente

    • Queda la duda de por qué se excluiría el entrenamiento

      • Un modelo no se usa durante años: hay que volver a entrenarlo cada pocos meses para mantener la competitividad
    • Un gran laboratorio de IA puede lograr márgenes altos, pero una empresa común no

      • Por ejemplo, si se revisa la información pública del equipo de DeepSeek, con 8x H200 SXM en vLLM obtienen alrededor de 12K tok/s
      • Pero para procesar 100K~200K tok/s hacen falta muchísimas GPU, y la mayoría queda ociosa
      • Por lo tanto, no son realistas supuestos como 100% de utilización, procesamiento de entrada gratis y ausencia de cuellos de botella de red
    • Incluso depreciando las GPU a 5 años, una caída en la utilización por pérdida de cuota de mercado puede ser devastadora

    • Incluso bajo IFRS/GAAP, el costo de entrenamiento termina siendo un costo directamente atribuible a los ingresos, por lo que inevitablemente forma parte del costo de ventas

  • Sam Altman dijo: "estamos obteniendo ganancias en inferencia; si se excluye el costo de entrenamiento, es muy rentable"

    • Amodei dijo algo parecido: si se ve un modelo como si fuera una empresa, con 100 millones de dólares de costo de entrenamiento y 200 millones de ingresos, la unidad modelo da ganancias

    • Pero al mismo tiempo la empresa completa queda en pérdidas porque está entrenando una siguiente generación de modelos aún más cara

    • Aun así, decir que "si se excluye el costo de entrenamiento hay ganancias" es básicamente una frase trillada que podría aplicarse a casi cualquier empresa, así que no significa mucho

    • En la práctica, OpenAI invierte en startups y les da créditos, creando una estructura donde el dinero circula, por lo que es difícil entender la rentabilidad real

    • Según un pódcast del NYT, Sam dijo que "si miras solo la inferencia, somos rentables", pero la COO al lado tuvo una reacción ambigua

      • Es decir, en la práctica quizá todavía ni siquiera la inferencia por sí sola sea completamente rentable
  • Si la inferencia fuera tan barata como afirma el texto, surge la duda de por qué no hay tantos proveedores de API ultra baratos

    • En la práctica, la mayoría de los proveedores baratos solo ejecutan modelos pequeños

    • Entonces queda la pregunta de por qué no se pueden usar barato modelos grandes como DeepSeek-R1

    • De hecho, ya existen varios proveedores de API, y algunos incluso ofrecen DeepSeek-R1 gratis

    • También están opciones como DeepInfra, y el precio real es incluso más bajo de lo que estima el texto

    • Pero hay enormes costos fijos como entrenamiento del modelo, construcción de infraestructura y personal, así que la rentabilidad no se puede explicar solo con el costo unitario de inferencia

    • Para ejecutar directamente un modelo de 600B hacen falta GPU por decenas de miles de dólares, y la mayor parte del tiempo quedan ociosas, así que es ineficiente

      • Por eso tiene sentido que un proveedor de modelos agrupe las GPU y las ofrezca como infraestructura compartida
  • Desde la perspectiva de alguien con experiencia en arquitectura de GPU, aunque en contextos largos la operación de attention crece teóricamente como O(n²),

    • el cuello de botella real es la velocidad de transferencia de memoria
    • Por ejemplo, incluso con HBM de más de 2 TB/s es difícil alcanzar el ancho de banda requerido por núcleo, y si además se consideran colisiones, el cuello de botella se vuelve miles de veces más grave
  • Este texto hizo los cálculos tomando como base DeepSeek R1, pero DeepSeek es anormalmente eficiente, así que no sirve bien para estimar los costos de OpenAI/Anthropic

    • La eficiencia de DeepSeek se debe a MoE y MLA attention

      • Pero es muy probable que OpenAI o Google ya lleven mucho tiempo aplicando optimizaciones parecidas
      • GPT OSS llega a usar fp4, mientras que DeepSeek todavía no
    • La razón por la que DeepSeek sacudió el mercado no fue tanto la eficiencia de inferencia, sino la afirmación de un costo de entrenamiento de 5 millones de dólares

    • En realidad, es difícil pensar que GPT-5 o Claude 4 sean menos eficientes que DeepSeek

    • Amodei también dijo que DeepSeek simplemente forma parte de la curva esperada de reducción de costos

      • Es decir, más que un avance revolucionario, lo especial fue que una empresa china lo mostró primero
  • La cifra diaria de tokens que presenta el texto es demasiado baja

    • Yo uso en promedio 300 a 800 millones de tokens por día, y mis colegas andan en unos 150 a 600 millones
    • Además, no se tuvo en cuenta el prompt caching, que reduce el volumen de inferencia en 85~95%
    • También habría que especificar qué método de cuantización se usa para el modelo y la caché KV para poder hacer un cálculo preciso
  • También se menciona mal el precio de ChatGPT Pro

    • En realidad es de 200 dólares al mes, y Sam Altman llegó a decir directamente que "estamos perdiendo dinero con la suscripción Pro"

    • Porque la gente lo usa muchísimo más de lo esperado

    • Pero recientemente dijo que "somos rentables en inferencia"

      • Aun así, como es una empresa privada, es difícil saber cuál de esas afirmaciones está más cerca de la verdad
    • Personalmente, no confío en lo que dice Sam

      • Me suena más a una declaración de marketing del tipo "nuestro producto tiene mucho valor"
    • En la práctica, es muy probable que el 10% superior de usuarios concentre la mayor parte del uso en una distribución de tipo potencia

      • Por eso la suscripción Pro puede tener una estructura en la que se pierda dinero
  • Según reportes recientes, Anthropic tiene un margen del 60% y OpenAI, incluyendo usuarios gratuitos, anda en torno al 50% de margen

    • speculative decoding, el caching y otras técnicas reducen aún más los costos

    • Además, los 37 mil millones de parámetros asumidos en el texto no coinciden con el tamaño real del modelo

    • Aun así, el margen por sí solo no permite ver el panorama completo

      • Es muy probable que Azure o AWS estén ofreciendo grandes descuentos
  • Sam Altman ha repetido en varias entrevistas que "si se excluye el costo de entrenamiento, hay ganancias"

    • Algunos toman eso como prueba de que la afirmación de que "OpenAI pierde dinero con cada solicitud" es falsa
    • Pero si el entrenamiento fuera gratis, cualquiera podría hacerlo, así que es una suposición sin mucho sentido
    • Dario Amodei también explicó que, visto por modelo, al final sí hay ganancias
    • Aun así, las declaraciones de Sam podrían ser para convencer a los inversionistas, y la rentabilidad real sigue siendo poco clara