El precio de los tokens está subiendo cada vez más
(ethanding.substack.com)- A diferencia de la expectativa de que el costo de los tokens de los LLM caería 10 veces cada año, los servicios de suscripción de IA están viendo cómo su rentabilidad empeora cada vez más
- La demanda por los modelos LLM más recientes siempre se concentra en los modelos SOTA (State-of-the-art), por lo que la baja de precio de los modelos “antiguos” no se traduce en una reducción real de costos
- A medida que mejora el rendimiento de los modelos, la cantidad de tokens usados aumenta de forma exponencial, compensando la caída del precio unitario y haciendo que el costo total se dispare
- Incluso los experimentos con planes de suscripción ilimitada (por ejemplo, Claude Code a $200/mes) son insostenibles por la explosión de tokens de los usuarios intensivos
- A largo plazo no existe un modelo sostenible fuera del cobro por uso, pero su adopción real es difícil por la competencia entre startups y la resistencia de los consumidores
- Si no se hace una transición hacia un modelo de ingresos sostenible, la mayoría de las startups terminarán enfrentando riesgo de quiebra
Negocios de suscripción de IA: por qué aumentan las pérdidas aunque baje el precio por token
La ilusión de la caída de precios en los LLM
- Los fundadores confiaron en el playbook de los VC: “como el precio por token caerá 10 veces, solo hay que resistir un poco y luego el negocio pasará a tener márgenes altos”, por lo que al inicio operaron sus productos de suscripción a costo o incluso con pérdidas
- En la práctica, el precio por token de modelos antiguos como GPT-3.5 sí cayó más de 10 veces, pero la demanda de los usuarios y del mercado siempre se concentra en los modelos más nuevos y de mejor desempeño (SOTA)
- En la realidad, después de 18 meses los márgenes no mejoran, sino que incluso empeoran
- La baja de precio de los modelos antiguos solo se siente en modelos que ya quedaron fuera del interés del mercado, como “el periódico de ayer”
La estructura de precios y demanda de los modelos más recientes
- Los modelos más recientes, como GPT-4 o Claude 3 Opus, siempre se lanzan a precios altos similares, y por más que bajen los modelos viejos, su uso real es mínimo
- Los usuarios solo quieren “el mejor rendimiento”, y los “modelos viejos baratos” no son más que autos usados antiguos en el mercado automotriz
- Como lo que realmente se busca al usar IA son los mejores resultados, son pocos los casos en que alguien usa voluntariamente un modelo viejo para ahorrar costos
- Al final, para ser competitivo en el mercado, siempre hay que ofrecer el modelo más reciente y más caro, lo que mantiene el costo base sin cambios
- Es como cuando bajan los precios de autos usados de los 90, pero los consumidores siguen comprando autos nuevos
El crecimiento explosivo del uso de tokens
- A medida que mejora el rendimiento de los modelos, aparece el fenómeno de que la cantidad de tokens que consume una sola tarea aumenta exponencialmente
- Una tarea que antes terminaba con 1,000 tokens ahora puede consumir 100,000 tokens
- Antes bastaban una pregunta y una respuesta de una sola frase, pero hoy se ejecutan procesos complejos de investigación, loops y orquestación durante 10 a 20 minutos seguidos, con un uso masivo de tokens
- Al pedirle a la IA análisis e investigación más profundos, surgen patrones como “20 minutos por ejecución, 24 horas al día corriendo sin parar”, lo que hace que el uso promedio diario por usuario se dispare
- Por ejemplo, si alguien usa una sola vez al día un “deep research” equivalente a $1, una suscripción de $20 ya no da los números
- La caída del precio unitario queda compensada por el aumento del consumo total de tokens, al punto de que un plan de $20/mes ya no puede sostener ni una tarea diaria de $1
El fracaso de los planes ilimitados
- Servicios como Claude Code de Anthropic probaron distintas medidas de ahorro, como planes ilimitados de $200/mes, optimización automática de tokens y uso de la PC del usuario
- Pero algunos usuarios avanzados llegaron a rozar los 10 mil millones de tokens por mes (el equivalente a 12,500 ejemplares de War and Peace), porque aprovecharon automatizaciones, tareas repetitivas y loops para disparar el consumo
- El “uso de IA se separa del tiempo humano y la API corre 24 horas, provocando una avalancha de tokens”
- A pesar de las innovaciones de ingeniería, al final tuvieron que revertir el plan
- Conclusión: el modelo de suscripción ilimitada ya no es posible, la ecuación simplemente no cierra
El dilema que enfrenta toda la industria
- Si se insiste en el esquema de suscripción, crece el riesgo de deterioro de rentabilidad y colapso
- Todas las empresas de IA saben que la única respuesta es el cobro por uso (usage-based pricing), pero si aparece un competidor basado en suscripción, el riesgo de fuga de usuarios es alto
- Por esta estructura de “dilema del prisionero”, todos terminan empujados a una competencia de subsidios para usuarios intensivos
- Empresas como Cursor y Replit también apuestan por “crecimiento primero, rentabilidad después”, pero tarde o temprano será inevitable una reestructuración por el problema de rentabilidad
3 soluciones realistas
- 1. Cobro por uso
- Si se adopta desde el principio un modelo económico honesto, se puede diseñar una estructura de ingresos que no quede por debajo del costo. A largo plazo, es el único modelo sostenible
- Sin embargo, los consumidores rechazan fuertemente la facturación medida, lo que dificulta su éxito masivo
- 2. Apuntar al mercado empresarial con altos costos de cambio
- Mediante ventas B2B a clientes enterprise con altos costos de cambio (por ejemplo, grandes corporativos e instituciones financieras), una vez que se entra al mercado es casi imposible que cancelen y los márgenes son altos
- Los sectores de system of record (SOR, CRM/ERP/EHR, etc.) son casos representativos de éxito (por ejemplo, implementación para 40,000 ingenieros de Goldman Sachs)
- 3. Crear valor agregado mediante integración vertical (Vertical Integration)
- Como Replit, se puede ofrecer la inferencia del LLM como un “producto gancho” que pierde dinero, y generar ingresos con servicios montados encima como hosting, base de datos, despliegue y monitoreo
- Así se construye una estructura en la que el mayor uso de IA termina llevando demanda hacia el mercado de infraestructura
- El precio por token seguirá bajando, pero también se espera que las expectativas de los usuarios y el uso crezcan exponencialmente
- Las empresas que sigan aferradas únicamente a la estrategia de crecimiento vía suscripción corren un alto riesgo de terminar en un “funeral costoso”
Resumen
- El optimismo de que “el próximo año los tokens serán 10 veces más baratos” no basta para sostener un negocio
- Los usuarios siempre exigirán expectativas más altas y mayor uso
- Ya se está cumpliendo la fórmula avance del modelo = explosión del uso = aumento de costos, y al final un negocio de IA sostenible debe cambiar hacia una nueva estructura basada en cobro por uso, contratos empresariales grandes e integración vertical
- Si se quiere sostener el negocio, hace falta un nuevo enfoque estructural como la estrategia de la “neo-cloud”
4 comentarios
La dificultad del caché + la automatización usando MCP hacen que el uso ilimitado de verdad pueda avanzar hacia un uso literalmente ilimitado. ...Como las operadoras que no tienen planes de datos ilimitados, algo así como ~300 veces al día, ~2000 veces al día, etc. Parece que podría terminar yendo hacia un esquema de cobro como el de los mensajes de texto de antes.
Parece que sería bueno ir por una modalidad como la de internet: aunque la cantidad en sí sea ilimitada (aunque a veces haya cobro por uso), poner límites en la velocidad. En cuanto a la implementación, así como ahora existen métodos de procesamiento por lotes, también es posible separar los recursos de cómputo de los recursos que llegan al usuario. Al final, si desde la perspectiva del proveedor también se puede asegurar previsibilidad, y el usuario puede tener garantizados un precio razonable y una velocidad adecuada, ¿no sería un ganar-ganar? En el caso de algunos usuarios con consumo excesivo, habría que avanzar con algo como asignar recursos dedicados mediante un contrato aparte.
Opinión de Hacker News
Por lo citado en el artículo, se dice que a los consumidores no les gusta el cobro por uso y prefieren pagar de más por un plan ilimitado antes que recibir una factura sorprendentemente alta, pero en realidad hay varios matices. En Amazon, muchas veces justo cuando crees que ya pudiste predecir el costo, de repente llega una factura enorme. La razón es que no hay forma de configurar algo como “apágalo automáticamente si pasa de X dólares al mes”. Este tipo de estructura de “sorpresa net 30” siempre parece un costo predecible, pero al final te devuelve cargos extra inesperados. Aun así, el cobro por uso podría ser un buen modelo si el usuario pudiera ver claramente cuánto está consumiendo y definir un tope máximo para evitar pasarse del presupuesto. Desde la perspectiva de las empresas de IA, bastaría con dar herramientas para que el usuario administre su presupuesto, como una barra de “tokens usados / tokens totales”, uso de tokens por respuesta y cantidad estimada de respuestas antes de excederse. Lo importante es nunca hacer cargos sorpresivos. Sin embargo, las empresas prefieren ocultar esta información de tokens y dólares, parecido a como los sitios de apuestas no conectan directamente sus “corporate bucks” con USD
Creo que el cobro por uso sí encaja para servicios B2B de infraestructura como AWS. A medida que una empresa crece, el uso de infraestructura y la factura aumentan de forma proporcional, así que es predecible; además, una vez que la infraestructura queda montada, casi no requiere atención. Pero cuando se trata de IA usada como tarea o herramienta de trabajo, el cobro por uso se vuelve un gran obstáculo. En ese contexto, termina desincentivando el uso del producto, y genera el cansancio de tener que analizar la relación costo-beneficio cada vez que se usa. Si se usa en el trabajo, incluso podría requerir aprobación del gerente una y otra vez. Una herramienta que busca mejorar la productividad no debería crear esa clase de barreras. Casi nadie se va a preguntar 250 veces “¿esta acción vale 3 dólares?”. Si es por uso, simplemente dejarán de usarla
Me molesta que las empresas intenten ocultar la conversión de tokens a dólares. Estoy probando el trial del agente Copilot de GitHub y la tarifa es realmente opaca. Solo aparece una y otra vez el término “solicitudes premium”, y en mi dashboard no puedo ver ni el uso en tiempo real ni los límites. Si haces clic en esa parte de la UI sobre solicitudes premium, te lleva a la documentación, pero no te indica con claridad ni el límite real ni un dashboard de cobros
En Amazon (AWS) el problema es todavía más grave. A diferencia de la tentación de AWS de “ser más barato”, en la práctica cambiar solo tiene sentido si realmente termina siendo más barato que la alternativa. Pero muchas empresas no van a invertir tiempo de desarrollador en cambiar su infraestructura. El costo de oportunidad es alto y hay riesgos —ingresos, tiempo de desarrollo, competencia, etc.—, así que, si el retorno no es muy grande, se considera una pérdida de tiempo de ingeniería. Si al final la infraestructura resulta más cara que la alternativa, ya invertiste tiempo de desarrollador y no te queda más que absorber esa pérdida. En las tarifas basadas en tokens todavía no se siente tanto esa carga de cambio/costo de oportunidad, porque es fácil volver al método anterior. Pero espero que esa estructura cambie en el futuro
La estructura de precios de Amazon se siente muy ambigua y compleja. Por ejemplo, a veces no hay manera de saber por qué el costo de la base de datos sigue subiendo y bajando
Para procesos definidos, el cobro por uso sí es realmente útil. Lo que me gusta de AWS es que permite alinear el costo con el negocio real. Antes eso era difícil y también generaba muchos problemas de política interna. Había casos en los que un vendedor iba directo con los ejecutivos para justificar la necesidad de equipo, y uno terminaba cargando con hardware de red que ni siquiera quería. Pero desde la perspectiva del usuario, este nivel de control fino de costos no es bueno, porque hace que evalúen constantemente al usuario con métricas que no están directamente relacionadas con la productividad. Cuando fui practicante en los 90, para aprobar una sola llamada de larga distancia había que pasar por pura burocracia. El aprobador evaluaba una por una si una llamada de 20 minutos había sido apropiada, y si me pasaba del límite, yo pagaba el costo. Nada divertido. Para IA orientada al usuario, la tarifa fija es la respuesta correcta. Si mi productividad aumenta 20% y uso ChatGPT Pro por $200 al mes, eso vale $16k al año. Es una inversión baratísima
Los argumentos del artículo no me resultan lógicos. Me cuesta estar de acuerdo con eso de que “cuando sale el modelo más reciente, 99% de la demanda se mueve de inmediato”. Más bien, Sonnet 4 se usa más que Opus 4, y en la práctica muchos usuarios usan modelos baratos y normales, no el modelo de mayor rendimiento. Por razones de usabilidad, velocidad, familiaridad y otras, se usan varios modelos que no son SOTA. Referencia de rankings de modelos: https://openrouter.ai/rankings. Y eso de explicar el cambio de Opus a Sonnet, o a Haiku cuando hay carga pesada, como si fuera autoscaling, me parece dudoso; no creo que ese comportamiento esté integrado en los pesos del modelo. En general, el problema de precios en el texto parece repetir lo que ya vimos en la era del cloud hosting: muchos usuarios prefieren una suscripción mensual y aceptan menor rendimiento a cambio de conveniencia, mientras que algunos usuarios de API (heavy users/empresas) usan cobro por uso, y esa estructura ya ha demostrado ser suficientemente rentable. La mayoría de las startups de IA son B2B, no B2C
Eso de que “Claude Code originalmente ofrecía $200/mes ilimitados y luego se echó para atrás” no es cierto. El nombre del plan ya era el plan 20x, y desde el principio había límites claros, como la restricción de sesiones de 5 horas y un límite mensual de 50 sesiones (aunque no siempre se hiciera cumplir). Yo mismo casi nunca sentí que me faltara. De hecho, todavía me parece que el límite es alto. Así que decir la verdad no perjudica en nada el argumento
El gran problema real es que ahora mismo estamos usando modelos sin discriminar —tirando el mejor modelo generalista a todo—, como matar mosquitos a cañonazos. No todos los problemas necesitan un modelo SOTA. En adelante, a medida que los servicios avancen hacia “bundles” de varios modelos, vamos a ver patrones de uso mucho más eficientes
Todavía ningún modelo está al nivel de poder confiarle por completo tareas importantes. Incluso los modelos de mejor rendimiento a veces se comportan de manera extraña. Mi cerebro siempre puede procesar el trabajo por su cuenta sin tener que pensar en delegarlo. Así que solo lo delego a una IA si hay una “ganancia segura”. Yo priorizo lo que sé hacer bien; las empresas de IA promocionan el mejor desempeño, pero para el usuario la métrica importante es el “peor momento” de la IA. Por eso siempre hay demanda de SOTA. A la IA se la evalúa por sus “peores momentos”: por muy bien que lo haga, un solo error puede ser fatal, igual que a una persona pueden despedirla por su peor error. No importa tanto el rendimiento en el caso perfecto (entorno de laboratorio), sino qué pasa cuando falla en uso real. El texto refleja bien esta parte
Hasta ahora, las tareas más difíciles siguen sin resolverse, y no hay tantas tareas donde se pueda aceptar una respuesta de baja precisión. Puede servir para algunos trabajos de pipeline de texto, pero casi todos los usos orientados a usuarios requieren alta calidad
Mucha gente pasa por alto esto. Incluso los modelos de 7b y 32b en GPU funcionan suficientemente bien para muchas tareas. Y además corren en hardware viejo. Por ahora seguimos en la etapa de hype en la que todo el rendimiento de los LLM sigue subiendo; con el tiempo, la mejora de los modelos gigantes se va a estancar y empezarán las elecciones más realistas
Vale la pena probar distintos modelos. Hace poco el sistema simple de chatbot que construí usa 5 modelos distintos según la situación. Cambiar y mezclar modelos hace una diferencia enorme en costo, experiencia de usuario y calidad
Si existiera una opción donde Claude Opus guiara a Sonnet, la usaría en casi todas las conversaciones. Hacerlo manualmente es incómodo y rompe el flujo, así que al final sigo usando solo Opus. Gracias al procesamiento en paralelo, creo que el costo de entrada es bajo, así que incluso con prompts grandes no me parece una gran carga
Ojalá alguna empresa de IA construya un sistema donde las tareas simples puedan delegarse a un modelo más “torpe”. Las tareas complejas requieren un modelo al nivel de Opus, pero dentro de ellas en realidad hay montones de subtareas que Sonnet 3.5 podría resolver perfectamente. Opus podría distinguir entre las partes difíciles y las simples, y distribuir lo fácil entre varias instancias de Sonnet 3.5. Parece una idea tan obvia que asumo que ya todos la están construyendo
Claude Code de hecho usa automáticamente dos modelos, Sonnet y Haiku. Al finalizar la sesión muestra varias estadísticas como tokens, costo y demás. Supongo que también debe haber alguna forma de ver esa información durante la sesión
Por ejemplo, estaría bien que en el prompt se le pidiera escupir un “nivel de modelo recomendado” del 1 al 10 para cada subtarea
En los últimos 1–2 años he pagado directamente la API y he usado distintos modelos a través de frontends open source (como LibreChat). Para uso ocasional me funcionó muy bien: con cargar unos $10 cada varios meses bastaba. Como consumo muchísimos menos tokens que los que incluyen la mayoría de los planes empaquetados, concluí que este método era mucho más barato para mí. Pero al empezar a probar varias herramientas como Claude Code, los tokens comenzaron a gastarse visiblemente más rápido. Ayer gasté $5 en tokens en solo 15 minutos. Sé que las herramientas de código funcionan de forma muy distinta a hacerle una pregunta simple a un LLM, pero no esperaba que la diferencia fuera tanta. Sorprende más porque gran parte del uso de tokens no se ve fácilmente: queda escondido en el contexto que crece o en la orquestación de herramientas
Esto pasa porque Claude Code usa un contexto mucho más amplio y mucho más procesamiento iterativo que lo normal
Con $20 de la API de Deepseek me alcanzó para casi un año entero (no me importa que sea una empresa china). Es lenta, pero entre los modelos Deepseek con hosting independiente, siento que incluso da mejor calidad (en mi experiencia). No uso cosas tipo agente
También discrepo con la afirmación de que “99% de la demanda siempre se concentra en los modelos de frontera”. La verdadera frontera no es solo la ‘capacidad’, sino la ‘capacidad por precio’. El modelo tope no se queda con 99% de la cuota; de hecho pasa lo contrario. Según las estadísticas de OpenRouter, Claude Opus 4 tiene alrededor de 1% de participación, y el más popular es Sonnet 4, que lo usa 18% de los suscriptores. Además de eso, también se usan mucho Gemini Flash 2.0 y 2.5, que son más baratos incluso que Sonnet 4
En San Francisco, ¿por qué no usan mayúsculas ni puntuación? Y tampoco entiendo por qué la gente de Silicon Valley está tan obsesionada con el falso crecimiento exponencial. Más bien parece claro que el avance de la IA no está ocurriendo de forma realmente exponencial, sino que simplemente se le están metiendo muchísimos más recursos que hace unos años
Me pregunto si ese estilo tan peculiar busca mostrar que el texto no fue escrito por un LLM
¿Ya no puedo con los cambios naturales del lenguaje?/broma. Tal vez me toque vivir a la antigua
Si vas al Tenderloin de San Francisco o a Mission Street, ¿de verdad te pueden disparar por no usar mayúsculas ni puntuación? (broma)
El texto se está perdiendo el juego de las “sillas musicales” en el proceso de acaparamiento de mercado. Como en el caso de Uber, si usas capital de riesgo para capturar participación y te bancas años de pérdidas, una vez que quedas instalado en la mente del cliente después ya no te mueven fácil aunque aparezca un competidor más nuevo y más barato. El negocio queda bien posicionado y, aun después de salir a bolsa, mantiene una acción razonablemente sólida (aunque no necesariamente extraordinaria)
El texto pinta la situación como si nadie pagara precios por uso, pero en realidad los clientes de API —o sea, casi todos los clientes empresariales— ya pagan todos bajo ese esquema
"Tengo curiosidad por saber por qué en San Francisco no usan mayúsculas ni signos de puntuación"
Entré al texto y de verdad es así. Lo curioso es que en algunas oraciones usan punto y en otras no, todo mezclado; ¿habrá alguna razón? ¿Alguien lo sabe? Tengo curiosidad 🤔