El precio de los tokens está subiendo cada vez más

(ethanding.substack.com)

13 puntos por GN⁺ 2025-08-04 | Aún no hay comentarios. | Compartir por WhatsApp

A diferencia de la expectativa de que el costo de los tokens de los LLM caería 10 veces cada año, los servicios de suscripción de IA están viendo cómo su rentabilidad empeora cada vez más
La demanda por los modelos LLM más recientes siempre se concentra en los modelos SOTA (State-of-the-art), por lo que la baja de precio de los modelos “antiguos” no se traduce en una reducción real de costos
A medida que mejora el rendimiento de los modelos, la cantidad de tokens usados aumenta de forma exponencial, compensando la caída del precio unitario y haciendo que el costo total se dispare
Incluso los experimentos con planes de suscripción ilimitada (por ejemplo, Claude Code a $200/mes) son insostenibles por la explosión de tokens de los usuarios intensivos
A largo plazo no existe un modelo sostenible fuera del cobro por uso, pero su adopción real es difícil por la competencia entre startups y la resistencia de los consumidores
Si no se hace una transición hacia un modelo de ingresos sostenible, la mayoría de las startups terminarán enfrentando riesgo de quiebra

Negocios de suscripción de IA: por qué aumentan las pérdidas aunque baje el precio por token

Los fundadores confiaron en el playbook de los VC: “como el precio por token caerá 10 veces, solo hay que resistir un poco y luego el negocio pasará a tener márgenes altos”, por lo que al inicio operaron sus productos de suscripción a costo o incluso con pérdidas
En la práctica, el precio por token de modelos antiguos como GPT-3.5 sí cayó más de 10 veces, pero la demanda de los usuarios y del mercado siempre se concentra en los modelos más nuevos y de mejor desempeño (SOTA)
En la realidad, después de 18 meses los márgenes no mejoran, sino que incluso empeoran
La baja de precio de los modelos antiguos solo se siente en modelos que ya quedaron fuera del interés del mercado, como “el periódico de ayer”

Los modelos más recientes, como GPT-4 o Claude 3 Opus, siempre se lanzan a precios altos similares, y por más que bajen los modelos viejos, su uso real es mínimo
Los usuarios solo quieren “el mejor rendimiento”, y los “modelos viejos baratos” no son más que autos usados antiguos en el mercado automotriz
Como lo que realmente se busca al usar IA son los mejores resultados, son pocos los casos en que alguien usa voluntariamente un modelo viejo para ahorrar costos
Al final, para ser competitivo en el mercado, siempre hay que ofrecer el modelo más reciente y más caro, lo que mantiene el costo base sin cambios
- Es como cuando bajan los precios de autos usados de los 90, pero los consumidores siguen comprando autos nuevos

A medida que mejora el rendimiento de los modelos, aparece el fenómeno de que la cantidad de tokens que consume una sola tarea aumenta exponencialmente
Una tarea que antes terminaba con 1,000 tokens ahora puede consumir 100,000 tokens
Antes bastaban una pregunta y una respuesta de una sola frase, pero hoy se ejecutan procesos complejos de investigación, loops y orquestación durante 10 a 20 minutos seguidos, con un uso masivo de tokens
Al pedirle a la IA análisis e investigación más profundos, surgen patrones como “20 minutos por ejecución, 24 horas al día corriendo sin parar”, lo que hace que el uso promedio diario por usuario se dispare
- Por ejemplo, si alguien usa una sola vez al día un “deep research” equivalente a $1, una suscripción de $20 ya no da los números
La caída del precio unitario queda compensada por el aumento del consumo total de tokens, al punto de que un plan de $20/mes ya no puede sostener ni una tarea diaria de $1

Servicios como Claude Code de Anthropic probaron distintas medidas de ahorro, como planes ilimitados de $200/mes, optimización automática de tokens y uso de la PC del usuario
Pero algunos usuarios avanzados llegaron a rozar los 10 mil millones de tokens por mes (el equivalente a 12,500 ejemplares de War and Peace), porque aprovecharon automatizaciones, tareas repetitivas y loops para disparar el consumo
- El “uso de IA se separa del tiempo humano y la API corre 24 horas, provocando una avalancha de tokens”
A pesar de las innovaciones de ingeniería, al final tuvieron que revertir el plan
Conclusión: el modelo de suscripción ilimitada ya no es posible, la ecuación simplemente no cierra

Si se insiste en el esquema de suscripción, crece el riesgo de deterioro de rentabilidad y colapso
Todas las empresas de IA saben que la única respuesta es el cobro por uso (usage-based pricing), pero si aparece un competidor basado en suscripción, el riesgo de fuga de usuarios es alto
Por esta estructura de “dilema del prisionero”, todos terminan empujados a una competencia de subsidios para usuarios intensivos
Empresas como Cursor y Replit también apuestan por “crecimiento primero, rentabilidad después”, pero tarde o temprano será inevitable una reestructuración por el problema de rentabilidad

1. Cobro por uso
- Si se adopta desde el principio un modelo económico honesto, se puede diseñar una estructura de ingresos que no quede por debajo del costo. A largo plazo, es el único modelo sostenible
- Sin embargo, los consumidores rechazan fuertemente la facturación medida, lo que dificulta su éxito masivo
2. Apuntar al mercado empresarial con altos costos de cambio
- Mediante ventas B2B a clientes enterprise con altos costos de cambio (por ejemplo, grandes corporativos e instituciones financieras), una vez que se entra al mercado es casi imposible que cancelen y los márgenes son altos
- Los sectores de system of record (SOR, CRM/ERP/EHR, etc.) son casos representativos de éxito (por ejemplo, implementación para 40,000 ingenieros de Goldman Sachs)
3. Crear valor agregado mediante integración vertical (Vertical Integration)
- Como Replit, se puede ofrecer la inferencia del LLM como un “producto gancho” que pierde dinero, y generar ingresos con servicios montados encima como hosting, base de datos, despliegue y monitoreo
- Así se construye una estructura en la que el mayor uso de IA termina llevando demanda hacia el mercado de infraestructura
El precio por token seguirá bajando, pero también se espera que las expectativas de los usuarios y el uso crezcan exponencialmente
Las empresas que sigan aferradas únicamente a la estrategia de crecimiento vía suscripción corren un alto riesgo de terminar en un “funeral costoso”

El optimismo de que “el próximo año los tokens serán 10 veces más baratos” no basta para sostener un negocio
- Los usuarios siempre exigirán expectativas más altas y mayor uso
Ya se está cumpliendo la fórmula avance del modelo = explosión del uso = aumento de costos, y al final un negocio de IA sostenible debe cambiar hacia una nueva estructura basada en cobro por uso, contratos empresariales grandes e integración vertical
- Si se quiere sostener el negocio, hace falta un nuevo enfoque estructural como la estrategia de la “neo-cloud”