El límite mensual de IA de 1,500 dólares de Uber es una señal útil para fijar precios de herramientas de IA
(simonwillison.net)- Uber limitó a 1,500 dólares al mes el gasto en tokens por cada herramienta de codificación con IA para todos los empleados, como respuesta al aumento en los costos de las herramientas de codificación agénticas
- El límite solo aplica a software de codificación agéntica como Cursor o Claude Code, y el gasto en una herramienta no afecta el presupuesto de otra
- Uber definió en 2025 su presupuesto de IA para 2026, pero después los agentes de codificación que consumen muchos tokens se volvieron populares más rápido de lo esperado y agotaron el presupuesto de 2026 en solo cuatro meses
- Suponiendo un uso activo de 2 herramientas, el límite anual por ingeniero sería de 36,000 dólares, cerca del 11% de la compensación media de 330,000 dólares para ingenieros de software de Uber en EE. UU. según Levels.fyi
- El precio de las herramientas de IA se ha separado mucho entre los planes subsidiados para suscriptores individuales y los precios de API que realmente pagan las grandes empresas, y el límite de Uber muestra una referencia de costo que las empresas pueden absorber
Límite de gasto de Uber en herramientas de codificación con IA
- Uber limitó a 1,500 dólares mensuales el gasto en tokens por cada herramienta de codificación con IA para todos los empleados
- Este límite se introdujo en los últimos meses y solo aplica a software de codificación agéntica como Cursor o Claude Code de Anthropic
- Como el límite es por herramienta, lo gastado en una no reduce el presupuesto de otra
- El límite de 1,500 dólares al mes se considera una forma razonable de responder al gasto excesivo, y se evalúa como un enfoque más sensato que un leaderboard de tokenmaxxing que incentive a los empleados a competir por su uso de IA
Señal de precios y cálculo de costos
- El hecho de que Uber agotara en cuatro meses su presupuesto de IA para 2026 se relaciona con que, al definir ese presupuesto en 2025, era difícil prever la popularidad de los agentes de codificación que consumen muchos tokens
- Si se asume que un ingeniero usa activamente 2 herramientas, el tope sería de 3,000 dólares al mes y 36,000 al año
- El paquete anual de compensación media para ingenieros de software de Uber en EE. UU. según Levels.fyi es de 330,000 dólares, y el límite anual de 36,000 dólares equivale a cerca del 11%
- Incluso si, a nivel de uso personal, se consumieran 1,000 dólares al mes en tokens tanto de Anthropic como de OpenAI, el costo actual sería de alrededor de 100 dólares por proveedor gracias a los planes subsidiados para suscriptores individuales
- Esos planes personales subsidiados ya no se ofrecen a grandes empresas como Uber y, con los patrones actuales de uso, incluso dentro del límite de Uber todavía quedarían 500 dólares al mes por cada herramienta
1 comentarios
Comentarios de Hacker News
Me pregunto si las empresas de IA mantendrán el precio por token actual o si al final lo bajarán por la competencia proveniente de China
Las personas con presupuestos limitados ya se están cambiando a modelos chinos de pesos abiertos como DeepSeek
También queda la duda de si China realmente está subsidiando a estas empresas, o si en realidad el costo de inferencia es mucho más bajo y Anthropic/OpenAI solo están cobrando lo máximo posible de cara a una futura IPO
Los laboratorios líderes probablemente tendrán que bajar sus altos precios por token, al menos en los modelos baratos y de gama media. Eso se debe a que modelos chinos como Qwen, DeepSeek, Kimi y GLM ya están “lo suficientemente cerca” como para ser alternativas rentables si se les pone un entorno de ejecución adecuado
Aun así, hay modelos que requieren más trabajo para resolver el mismo problema, así que quizá todavía no necesiten cerrar por completo la brecha
De todos modos, parece probable que los precios bajen de una u otra forma, y al mismo tiempo también es muy posible que las suscripciones a modelos chinos baratos sí estén subsidiadas, así que con el tiempo probablemente serán menos generosas
El precio por token baja con el tiempo por la presión competitiva o porque los clientes se ven incentivados a usar modelos antiguos y baratos, pero los centros de datos se financian con deuda bajo el supuesto de que los ingresos crecerán con el tiempo
Tomando prestada su expresión, “[las empresas de IA] están pagando costos fijos con un producto cuyo valor se deprecia”
Por un lado bajan los ingresos por tokens, por otro sube el costo de entrenar el siguiente modelo frontier, y al mismo tiempo hay que pagar deuda a 10 años
0: https://youtu.be/wGZboZcSGDY?is=64GuKyqBh_4aSjTE
“Lo que agrava aún más el problema es que los laboratorios chinos suelen publicar modelos de doble uso potencial como pesos abiertos. Una vez que un modelo es de pesos abiertos, también pueden eliminarse las protecciones existentes, lo que permite que actores estatales y no estatales con fines maliciosos lo utilicen, incluido para abusos cibernéticos y CBRN que esas protecciones buscaban impedir”
https://www.anthropic.com/research/2028-ai-leadership
Me pregunto cuándo las grandes empresas se darán cuenta de que los modelos flash también funcionan lo bastante bien si se cumplen estas condiciones
Incluso los modelos grandes siguen siendo malos para cambios grandes, crean arquitecturas cuestionables y, si el proyecto es serio, de todos modos hay que revisar el código
Con cualquier modelo, si no se pone suficiente atención, la base de código se vuelve un desastre muy rápido
Cuando se trabaja de forma iterativa dando instrucciones, los modelos flash cuestan 10 veces menos y son mucho más rápidos, así que no veo por qué usar un modelo grande. Los modelos grandes se pueden usar para auditorías de seguridad y bugs, y en cambios de menos de 300 líneas, si les indicas la forma de código que quieres, los modelos flash se comportan casi igual
Si ese número sube mucho, creo que las empresas, como propones, empezarán a considerar más los modelos flash
Pero eso hace que se pierda la otra parte más importante aquí: el entorno de ejecución (harness). Se opera un pipeline autónomo con un orquestador propio que hace planificación/diseño/código/build/pruebas, y usa agentes en varias etapas
En cada etapa hay un modelo que encaja mejor, y se usan LLM para evaluar los resultados entre etapas. No todo requiere Opus 4.8
El entorno de ejecución ofrece la base para ajustar qué se le mete y qué se le saca al modelo, y también permite definir qué modelo hará qué tarea
Lo que produce calidad con un presupuesto dado de tokens no es el modelo, sino el pipeline
O quizá un modelo grande podría aprender la diferencia entre preguntas fáciles y difíciles y cobrar en consecuencia. Si pudiera medir la complejidad, incluso podría dar una cotización
Los modelos pequeños son suficientes para tareas pequeñas de programación, pero no entiendo bien por qué los modelos grandes tampoco podrían descomponer la mayoría de las tareas en partes pequeñas
Eso ya se volvió un problema de ingeniería, y se termina empujando a los ingenieros para que lo resuelvan
Todavía no entiendo por qué hay tanta gente que cree que la programación con IA va a terminar siendo una moda
No han pasado ni dos años desde que empezó y las empresas ya están pagando miles de dólares por asiento, e incluso conozco lugares que pagan 5 mil dólares al mes
Cuesta pensar en otra herramienta que haya sido adoptada tan rápido partiendo de cero
Los pull requests de AI LLM que se ven ahora solo le crean más trabajo a los demás, y los supuestos “builders” solo se ven bien con dashboards nuevos y funciones para demo
Pero no puedes hablar sobre el flujo del código ni preguntar el proceso mental de por qué algo quedó así
No está construido desde abajo con la experiencia acumulada de varias personas, sino que aparece como si se hubiera materializado de la nada, sin separaciones básicas y casi sin abstracciones
Nadie quiere tocar eso. Los pull requests son demasiado grandes, y esos “autores” ni siquiera hacen guardias on-call con nosotros
Se llevan toda la gloria, pero no hacen el trabajo real
Es parecido a diseñar una casa y mandársela al arquitecto y al ingeniero diciendo “haz que esto funcione”
Hay explicaciones mucho más razonables para que las empresas actúen así que “porque la programación con IA no es una moda”
Los pull requests son demasiado grandes, nadie puede revisar ese desastre, y si lo despliegas más vale que te prepares para estar on-call
Puede mejorar o puede que no, pero todavía no lo sabemos
Es demasiado grande y demasiado rápido como para sentirse estable. Puede mantenerse en este nivel, crecer más o bajar a niveles de uso y presupuesto más normales
Uso una suscripción de 100 dólares al mes, pero en los últimos 30 días mis costos de API han sido de unos 1700 dólares mensuales
Varía muchísimo según cómo lo uses. Si haces un diseño detallado con prompts, lo divides en una lista de tareas y luego lo metes en varios agentes, quemar miles de dólares es facilísimo
Si se usa con más cuidado, corriendo solo unos cuantos agentes a la vez de forma interactiva, y para revisión de pull requests, resolución de issues, limpieza automática y optimización de rendimiento, puede quedar en unos 1500 dólares
Si solo haces preguntas puntuales como si fuera un Stack Overflow mejorado, estás muy por debajo de 100 dólares
Últimamente estoy obsesionado con
/goal; si encuentras un objetivo verificable y lo dejas corriendo toda la noche, ver al día siguiente por la mañana hasta dónde llegó se siente como Navidad1500 dólares al mes son 18 mil dólares al año por asiento
Tal vez Microsoft y Nvidia estén viendo algo
Hasta una máquina de 128GB capaz de correr un LLM local por 5 mil a 8 mil dólares parece barata. Los tokens por segundo todavía no son suficientes, pero podría servir
El verdadero cuello de botella no es el código, sino qué demonios construyó Uber gastando tanto dinero y qué impacto positivo y significativo tuvo eso en los ingresos
Personalmente, menos de 50 tok/s me parece totalmente inutilizable
De todos modos también es comparar peras con manzanas. La inferencia de modelos con pesos abiertos es bastante barata, y Claude y OpenAI quizá solo estén cobrando márgenes muy altos frente a DeepSeek o a varios proveedores en OpenRouter. Los modelos abiertos son un commodity
Una laptop es un activo que se deprecia, no hay economías de escala, las especificaciones quedan fijas y terminas creando una flota fragmentada de equipos cuyos modelos además hay que mantener actualizados
Si además consideras consumo eléctrico y enfriamiento, de verdad no entiendo por qué las empresas querrían irse por ese camino
El hardware local se vuelve caro cuando corre una pila de software compleja que puede romperse de mil maneras
Los servidores de IA locales del futuro probablemente solo se comunicarán mediante algún protocolo para IA y estarán arrumbados en una esquina, sin que a nadie le importe
Aun así quizá se necesiten permisos de acceso a varios sistemas, así que no sé, pero al final alguien va a ofrecer una “IA en una caja” con algo como el modelo abierto más reciente adentro
Eso equivale a generar al menos 20 tok/s, 24/7 todo el año, y en la práctica probablemente sea bastante más
Como los modelos con pesos abiertos son mucho más baratos que los modelos propietarios incluso a través de proveedores occidentales reputados, para llegar al mismo gasto podrías necesitar más de 100 tok/s, y eso ya entra en territorio de hardware de centro de datos
En una plataforma prosumer quizá puedas llegar a la primera cifra, pero solo con cargas de trabajo muy especiales. Con cargas de trabajo de tipo agente, donde es común pasar mucho tiempo en el prefill, el panorama es peor. En la IA on-premises eso se vuelve una limitación grande
Si los ingenieros usan bien las herramientas de IA, pueden aumentar muchísimo su productividad, y puedes usar un LLM como si fuera un ingeniero junior o associate
1500 dólares al mes es muchísimo más barato comparado con ese nivel de productividad, y contratar a un ingeniero humano habría costado mucho más
Me preocupa cada vez más el lock-in y los costos de cambio
Llevo como un año usando Claude y ya he acumulado bastante “conocimiento” ahí dentro
Me preocuparía si en el futuro la relación precio-rendimiento de Claude se vuelve desfavorable
He empezado a pensar en soluciones descentralizadas que separen el almacenamiento de la inferencia, pero por ahora Claude sigue siendo la opción. Me pregunto si alguien más tiene una preocupación parecida
¿Dónde se almacena ese conocimiento?
Mi conocimiento normalmente se guarda en documentos de planificación fuera del agente
Y además, igual archivo cada ventana del agente periódicamente
Si un empleado no usa su presupuesto de AI/LLM, ¿puede recibir ese monto como aumento de sueldo?
No entiendo por qué no es más común en grandes empresas hacer self-hosting para correr modelos de pesos abiertos, o aunque no sea necesariamente on-premise, alquilar servidores GPU o alojarlos en lugares como Together AI
He usado modelos de pesos abiertos y modelos premium como Opus y Gemini Pro; estos últimos son un poco mejores, pero para nada lo suficiente como para justificar la diferencia de precio
En los casos de uso que yo probé, la diferencia en general no era importante, y creo que muchos otros usuarios tienen usos parecidos
Darle a desarrolladores/hackers excelentes un servidor GPU potente y dejar que corran libremente los modelos que quieran no tiene nada que ver con mantener una plataforma así para toda la empresa
Hay que cubrir personal que entienda y mantenga esos modelos, backend, disponibilidad, etc., y ese personal probablemente cueste mucho más que el salario típico de un desarrollador de software
Por toda esa complejidad extra, termina siendo más fácil pagarle a un laboratorio externo de primer nivel y ponerles a todos un límite de gasto razonable
La utilización de un rack gigante así no va a ser 24/7, y normalmente tampoco es una organización tan centrada en GPU como para entrenar modelos con el cómputo sobrante
Si cuesta entre 100 mil y 200 mil dólares o más, y su vida útil es de unos 2 años, es difícil justificarlo financieramente
Incluso haciendo self-hosting y amortizándolo entre varios desarrolladores, fácilmente puede salir en unos 1000 dólares al mes, y en horas pico aparecen límites de velocidad bastante duros
¿Los 500 dólares que quedan al restarle 1000 a 1500 justifican una caída de 10% en la “productividad de IA”? En la mayoría de los casos, yo diría que no
A corto plazo, salvo que haya una razón realmente muy buena para hacer self-hosting de modelos de asistencia para programación, diría que los 2 o 3 principales proveedores de asistentes de código son una mejor opción
A nadie lo han despedido por comprar licencias de Claude Code
Solo con agrupar GPUs para varios usuarios y conectarlas a documentos y data lakes, manteniendo además los controles de seguridad, ya es bastante complicado
Al final igual vas a terminar pagándole a un equipo para administrarlo
Hace falta hardware dedicado en un datacenter y especialistas que lo operen
La empresa tiene que resolver, además de su negocio principal, cómo manejar compras, activos, costos y otras mil cosas
¿Y quién ya resolvió todo eso? AWS/Azure/OpenAI, etc.
Mantener hardware y contratar expertos para operar servicios cuesta dinero
Para algo tan común como los modelos LLM, salvo que sea una empresa extremadamente sensible a enviar bytes a AWS, no hay ninguna razón para ofrecer modelos sobre hardware propio
Más que el número de un límite de 1500 dólares al mes, lo interesante es el hecho de que llegaron a definir algún límite
La mayoría de los equipos de ingeniería con los que he hablado no saben cuánto gastan en IA por desarrollador, porque todo queda enterrado en la factura consolidada de la nube
Un hard cap fuerza dos conversaciones útiles: qué flujos de trabajo justifican llamadas por API y cuáles pueden resolverse con inferencia local, y si los resultados realmente se están comparando con métricas reales de productividad
Sin ese ciclo de retroalimentación, solo se convierte en una carrera para ver quién quema tokens más rápido
Anthropic: https://support.claude.com/en/articles/12883420-view-usage-a...
OpenAI: https://help.openai.com/en/articles/10875114-workspace-analy...
La secuencia entre “un límite de 1500 dólares al mes por herramienta parece una respuesta de política razonable frente al gasto excesivo” y “mi uso de tokens es de unos 1000 dólares al mes tanto en Anthropic como en OpenAI, pero actualmente solo pago 100 dólares por proveedor gracias a planes de subsidio generosos para suscriptores individuales” se siente como un negocio de marketing multinivel
Se parece a esa estructura donde los ‘diamantes’ ganan dinero promocionando el MLM en seminarios y les dicen a los aspirantes de abajo que “comprar suscripciones de IA ahora es la oportunidad única en la vida para convertirse en ganadores”
Capaz que hay algo en MLM vs LLM que genera FOMO