2 puntos por GN⁺ 3 시간 전 | 1 comentarios | Compartir por WhatsApp
  • Uber limitó a 1,500 dólares al mes el gasto en tokens por cada herramienta de codificación con IA para todos los empleados, como respuesta al aumento en los costos de las herramientas de codificación agénticas
  • El límite solo aplica a software de codificación agéntica como Cursor o Claude Code, y el gasto en una herramienta no afecta el presupuesto de otra
  • Uber definió en 2025 su presupuesto de IA para 2026, pero después los agentes de codificación que consumen muchos tokens se volvieron populares más rápido de lo esperado y agotaron el presupuesto de 2026 en solo cuatro meses
  • Suponiendo un uso activo de 2 herramientas, el límite anual por ingeniero sería de 36,000 dólares, cerca del 11% de la compensación media de 330,000 dólares para ingenieros de software de Uber en EE. UU. según Levels.fyi
  • El precio de las herramientas de IA se ha separado mucho entre los planes subsidiados para suscriptores individuales y los precios de API que realmente pagan las grandes empresas, y el límite de Uber muestra una referencia de costo que las empresas pueden absorber

Límite de gasto de Uber en herramientas de codificación con IA

  • Uber limitó a 1,500 dólares mensuales el gasto en tokens por cada herramienta de codificación con IA para todos los empleados
  • Este límite se introdujo en los últimos meses y solo aplica a software de codificación agéntica como Cursor o Claude Code de Anthropic
  • Como el límite es por herramienta, lo gastado en una no reduce el presupuesto de otra
  • El límite de 1,500 dólares al mes se considera una forma razonable de responder al gasto excesivo, y se evalúa como un enfoque más sensato que un leaderboard de tokenmaxxing que incentive a los empleados a competir por su uso de IA

Señal de precios y cálculo de costos

  • El hecho de que Uber agotara en cuatro meses su presupuesto de IA para 2026 se relaciona con que, al definir ese presupuesto en 2025, era difícil prever la popularidad de los agentes de codificación que consumen muchos tokens
  • Si se asume que un ingeniero usa activamente 2 herramientas, el tope sería de 3,000 dólares al mes y 36,000 al año
  • El paquete anual de compensación media para ingenieros de software de Uber en EE. UU. según Levels.fyi es de 330,000 dólares, y el límite anual de 36,000 dólares equivale a cerca del 11%
  • Incluso si, a nivel de uso personal, se consumieran 1,000 dólares al mes en tokens tanto de Anthropic como de OpenAI, el costo actual sería de alrededor de 100 dólares por proveedor gracias a los planes subsidiados para suscriptores individuales
  • Esos planes personales subsidiados ya no se ofrecen a grandes empresas como Uber y, con los patrones actuales de uso, incluso dentro del límite de Uber todavía quedarían 500 dólares al mes por cada herramienta

1 comentarios

 
GN⁺ 3 시간 전
Comentarios de Hacker News
  • Me pregunto si las empresas de IA mantendrán el precio por token actual o si al final lo bajarán por la competencia proveniente de China
    Las personas con presupuestos limitados ya se están cambiando a modelos chinos de pesos abiertos como DeepSeek
    También queda la duda de si China realmente está subsidiando a estas empresas, o si en realidad el costo de inferencia es mucho más bajo y Anthropic/OpenAI solo están cobrando lo máximo posible de cara a una futura IPO

    • Como varios modelos son de pesos abiertos y también los ofrecen terceros que no tendrían motivo para subsidiarlos, sí sabemos hasta cierto punto que sus costos de inferencia son lo bastante bajos como para acercarse bastante al costo real
      Los laboratorios líderes probablemente tendrán que bajar sus altos precios por token, al menos en los modelos baratos y de gama media. Eso se debe a que modelos chinos como Qwen, DeepSeek, Kimi y GLM ya están “lo suficientemente cerca” como para ser alternativas rentables si se les pone un entorno de ejecución adecuado
      Aun así, hay modelos que requieren más trabajo para resolver el mismo problema, así que quizá todavía no necesiten cerrar por completo la brecha
      De todos modos, parece probable que los precios bajen de una u otra forma, y al mismo tiempo también es muy posible que las suscripciones a modelos chinos baratos sí estén subsidiadas, así que con el tiempo probablemente serán menos generosas
    • Un aspecto es la desalineación de plazos (duration mismatch) de la que habló recientemente Paul Kedrosky
      El precio por token baja con el tiempo por la presión competitiva o porque los clientes se ven incentivados a usar modelos antiguos y baratos, pero los centros de datos se financian con deuda bajo el supuesto de que los ingresos crecerán con el tiempo
      Tomando prestada su expresión, “[las empresas de IA] están pagando costos fijos con un producto cuyo valor se deprecia”
      Por un lado bajan los ingresos por tokens, por otro sube el costo de entrenar el siguiente modelo frontier, y al mismo tiempo hay que pagar deuda a 10 años
      0: https://youtu.be/wGZboZcSGDY?is=64GuKyqBh_4aSjTE
    • No hay de qué preocuparse: pueden hacer lobby para prohibir los modelos chinos y así proteger los ingresos por tokens
      “Lo que agrava aún más el problema es que los laboratorios chinos suelen publicar modelos de doble uso potencial como pesos abiertos. Una vez que un modelo es de pesos abiertos, también pueden eliminarse las protecciones existentes, lo que permite que actores estatales y no estatales con fines maliciosos lo utilicen, incluido para abusos cibernéticos y CBRN que esas protecciones buscaban impedir”
      https://www.anthropic.com/research/2028-ai-leadership
    • De hecho, es más probable que suban. NVidia dijo que el precio del hardware GPU no va a bajar al menos hasta 2030, y a nivel mundial hay escasez de capacidad de fabricación de fabs
    • La mayoría de las empresas estadounidenses normales va a bloquear el uso en la nube de empresas chinas de IA. Eso es porque todo el código, los datos y la información personal se envían hacia allá
  • Me pregunto cuándo las grandes empresas se darán cuenta de que los modelos flash también funcionan lo bastante bien si se cumplen estas condiciones

    1. no pedirle cambios grandes al LLM
    2. revisar todos los resultados y marcar la dirección correcta
      Incluso los modelos grandes siguen siendo malos para cambios grandes, crean arquitecturas cuestionables y, si el proyecto es serio, de todos modos hay que revisar el código
      Con cualquier modelo, si no se pone suficiente atención, la base de código se vuelve un desastre muy rápido
      Cuando se trabaja de forma iterativa dando instrucciones, los modelos flash cuestan 10 veces menos y son mucho más rápidos, así que no veo por qué usar un modelo grande. Los modelos grandes se pueden usar para auditorías de seguridad y bugs, y en cambios de menos de 300 líneas, si les indicas la forma de código que quieres, los modelos flash se comportan casi igual
    • Es bastante simple. Las organizaciones están dispuestas a asumir un gasto de 1,500 dólares al mes por ingeniero, y esa cifra parece coincidir más o menos con el uso “normal” de la mayoría de los ingenieros de tiempo completo
      Si ese número sube mucho, creo que las empresas, como propones, empezarán a considerar más los modelos flash
    • Usar el modelo más reciente más grande que se puedan permitir es una decisión fácil
      Pero eso hace que se pierda la otra parte más importante aquí: el entorno de ejecución (harness). Se opera un pipeline autónomo con un orquestador propio que hace planificación/diseño/código/build/pruebas, y usa agentes en varias etapas
      En cada etapa hay un modelo que encaja mejor, y se usan LLM para evaluar los resultados entre etapas. No todo requiere Opus 4.8
      El entorno de ejecución ofrece la base para ajustar qué se le mete y qué se le saca al modelo, y también permite definir qué modelo hará qué tarea
      Lo que produce calidad con un presupuesto dado de tokens no es el modelo, sino el pipeline
    • Me pregunto hasta qué punto el propio modelo debería decidir a qué otro modelo reenviar una consulta
      O quizá un modelo grande podría aprender la diferencia entre preguntas fáciles y difíciles y cobrar en consecuencia. Si pudiera medir la complejidad, incluso podría dar una cotización
      Los modelos pequeños son suficientes para tareas pequeñas de programación, pero no entiendo bien por qué los modelos grandes tampoco podrían descomponer la mayoría de las tareas en partes pequeñas
    • Totalmente de acuerdo. Los modelos más grandes también tienen la costumbre de complicar demasiado las cosas
    • “No pedirle cambios grandes al LLM” y “revisar todo y marcar la dirección” no les importa a los directivos
      Eso ya se volvió un problema de ingeniería, y se termina empujando a los ingenieros para que lo resuelvan
  • Todavía no entiendo por qué hay tanta gente que cree que la programación con IA va a terminar siendo una moda
    No han pasado ni dos años desde que empezó y las empresas ya están pagando miles de dólares por asiento, e incluso conozco lugares que pagan 5 mil dólares al mes
    Cuesta pensar en otra herramienta que haya sido adoptada tan rápido partiendo de cero

    • Porque las empresas están apostando a que este gasto les permitirá despedir gente y reducir costos
      Los pull requests de AI LLM que se ven ahora solo le crean más trabajo a los demás, y los supuestos “builders” solo se ven bien con dashboards nuevos y funciones para demo
      Pero no puedes hablar sobre el flujo del código ni preguntar el proceso mental de por qué algo quedó así
      No está construido desde abajo con la experiencia acumulada de varias personas, sino que aparece como si se hubiera materializado de la nada, sin separaciones básicas y casi sin abstracciones
      Nadie quiere tocar eso. Los pull requests son demasiado grandes, y esos “autores” ni siquiera hacen guardias on-call con nosotros
      Se llevan toda la gloria, pero no hacen el trabajo real
      Es parecido a diseñar una casa y mandársela al arquitecto y al ingeniero diciendo “haz que esto funcione”
    • Eso no se sostiene como conclusión. El hecho de que “las empresas ya pagan miles de dólares por asiento” tiene correlación cero con si algo es una moda o no
      Hay explicaciones mucho más razonables para que las empresas actúen así que “porque la programación con IA no es una moda”
    • Los resultados del vibe coding a veces son excelentes, pero otras veces rompen algo y hasta vuelven a descomponer cosas que ya se habían arreglado varias veces
      Los pull requests son demasiado grandes, nadie puede revisar ese desastre, y si lo despliegas más vale que te prepares para estar on-call
      Puede mejorar o puede que no, pero todavía no lo sabemos
    • Estos hechos más bien parecen una señal de que las cosas podrían no ser como se ven
      Es demasiado grande y demasiado rápido como para sentirse estable. Puede mantenerse en este nivel, crecer más o bajar a niveles de uso y presupuesto más normales
    • Entre “la programación con IA es una moda” y “darle tokens ilimitados a todos los empleados sin preocuparse siquiera por si tiene un efecto financiero neto positivo” hay un espectro amplísimo
  • Uso una suscripción de 100 dólares al mes, pero en los últimos 30 días mis costos de API han sido de unos 1700 dólares mensuales
    Varía muchísimo según cómo lo uses. Si haces un diseño detallado con prompts, lo divides en una lista de tareas y luego lo metes en varios agentes, quemar miles de dólares es facilísimo
    Si se usa con más cuidado, corriendo solo unos cuantos agentes a la vez de forma interactiva, y para revisión de pull requests, resolución de issues, limpieza automática y optimización de rendimiento, puede quedar en unos 1500 dólares
    Si solo haces preguntas puntuales como si fuera un Stack Overflow mejorado, estás muy por debajo de 100 dólares
    Últimamente estoy obsesionado con /goal; si encuentras un objetivo verificable y lo dejas corriendo toda la noche, ver al día siguiente por la mañana hasta dónde llegó se siente como Navidad

  • 1500 dólares al mes son 18 mil dólares al año por asiento
    Tal vez Microsoft y Nvidia estén viendo algo
    Hasta una máquina de 128GB capaz de correr un LLM local por 5 mil a 8 mil dólares parece barata. Los tokens por segundo todavía no son suficientes, pero podría servir
    El verdadero cuello de botella no es el código, sino qué demonios construyó Uber gastando tanto dinero y qué impacto positivo y significativo tuvo eso en los ingresos

    • No estoy tan seguro de que los tokens por segundo no sean el cuello de botella. La mayoría probablemente siga usando agentes de IA de forma interactiva en vez de dejarlos trabajar solos toda la noche
      Personalmente, menos de 50 tok/s me parece totalmente inutilizable
      De todos modos también es comparar peras con manzanas. La inferencia de modelos con pesos abiertos es bastante barata, y Claude y OpenAI quizá solo estén cobrando márgenes muy altos frente a DeepSeek o a varios proveedores en OpenRouter. Los modelos abiertos son un commodity
    • Es mucho mejor correr un modelo propio on-premises
      Una laptop es un activo que se deprecia, no hay economías de escala, las especificaciones quedan fijas y terminas creando una flota fragmentada de equipos cuyos modelos además hay que mantener actualizados
      Si además consideras consumo eléctrico y enfriamiento, de verdad no entiendo por qué las empresas querrían irse por ese camino
    • Creo que las empresas van a terminar comprando servidores de IA locales
      El hardware local se vuelve caro cuando corre una pila de software compleja que puede romperse de mil maneras
      Los servidores de IA locales del futuro probablemente solo se comunicarán mediante algún protocolo para IA y estarán arrumbados en una esquina, sin que a nadie le importe
      Aun así quizá se necesiten permisos de acceso a varios sistemas, así que no sé, pero al final alguien va a ofrecer una “IA en una caja” con algo como el modelo abierto más reciente adentro
    • Estoy de acuerdo con la idea general, pero correr IA local de última generación equivalente a 1500 dólares al mes ya no es poca cosa, y es importante que eso es por un solo asiento
      Eso equivale a generar al menos 20 tok/s, 24/7 todo el año, y en la práctica probablemente sea bastante más
      Como los modelos con pesos abiertos son mucho más baratos que los modelos propietarios incluso a través de proveedores occidentales reputados, para llegar al mismo gasto podrías necesitar más de 100 tok/s, y eso ya entra en territorio de hardware de centro de datos
      En una plataforma prosumer quizá puedas llegar a la primera cifra, pero solo con cargas de trabajo muy especiales. Con cargas de trabajo de tipo agente, donde es común pasar mucho tiempo en el prefill, el panorama es peor. En la IA on-premises eso se vuelve una limitación grande
    • Creo que lo importante no es necesariamente qué construyó Uber, sino el aumento de productividad
      Si los ingenieros usan bien las herramientas de IA, pueden aumentar muchísimo su productividad, y puedes usar un LLM como si fuera un ingeniero junior o associate
      1500 dólares al mes es muchísimo más barato comparado con ese nivel de productividad, y contratar a un ingeniero humano habría costado mucho más
  • Me preocupa cada vez más el lock-in y los costos de cambio
    Llevo como un año usando Claude y ya he acumulado bastante “conocimiento” ahí dentro
    Me preocuparía si en el futuro la relación precio-rendimiento de Claude se vuelve desfavorable
    He empezado a pensar en soluciones descentralizadas que separen el almacenamiento de la inferencia, pero por ahora Claude sigue siendo la opción. Me pregunto si alguien más tiene una preocupación parecida

    • ¿Ese “conocimiento” no son simplemente archivos de texto? Cambiarnos entre servicios solo copiando archivos de texto siempre nos ha resultado fácil
    • La solución que más me gusta es usar el agente de programación Cline. Es abierto y te permite cambiar fácilmente entre varios proveedores y modelos
    • No entiendo bien qué sería ese conocimiento dentro de eso
      ¿Dónde se almacena ese conocimiento?
      Mi conocimiento normalmente se guarda en documentos de planificación fuera del agente
      Y además, igual archivo cada ventana del agente periódicamente
  • Si un empleado no usa su presupuesto de AI/LLM, ¿puede recibir ese monto como aumento de sueldo?

    • Probablemente lo despidan por bajo rendimiento
  • No entiendo por qué no es más común en grandes empresas hacer self-hosting para correr modelos de pesos abiertos, o aunque no sea necesariamente on-premise, alquilar servidores GPU o alojarlos en lugares como Together AI
    He usado modelos de pesos abiertos y modelos premium como Opus y Gemini Pro; estos últimos son un poco mejores, pero para nada lo suficiente como para justificar la diferencia de precio
    En los casos de uso que yo probé, la diferencia en general no era importante, y creo que muchos otros usuarios tienen usos parecidos

    • Acabamos de tener una discusión similar en mi $WORK, que es una firma de finanzas tradicional y una empresa listada en la NYSE, y creo que el razonamiento en una empresa promedio va más o menos así
      Darle a desarrolladores/hackers excelentes un servidor GPU potente y dejar que corran libremente los modelos que quieran no tiene nada que ver con mantener una plataforma así para toda la empresa
      Hay que cubrir personal que entienda y mantenga esos modelos, backend, disponibilidad, etc., y ese personal probablemente cueste mucho más que el salario típico de un desarrollador de software
      Por toda esa complejidad extra, termina siendo más fácil pagarle a un laboratorio externo de primer nivel y ponerles a todos un límite de gasto razonable
    • Aunque un modelo premium apenas sea 10% mejor, todavía puede justificar su precio frente a hacer self-hosting de un modelo de pesos abiertos de alrededor de 0.5~1T
      La utilización de un rack gigante así no va a ser 24/7, y normalmente tampoco es una organización tan centrada en GPU como para entrenar modelos con el cómputo sobrante
      Si cuesta entre 100 mil y 200 mil dólares o más, y su vida útil es de unos 2 años, es difícil justificarlo financieramente
      Incluso haciendo self-hosting y amortizándolo entre varios desarrolladores, fácilmente puede salir en unos 1000 dólares al mes, y en horas pico aparecen límites de velocidad bastante duros
      ¿Los 500 dólares que quedan al restarle 1000 a 1500 justifican una caída de 10% en la “productividad de IA”? En la mayoría de los casos, yo diría que no
      A corto plazo, salvo que haya una razón realmente muy buena para hacer self-hosting de modelos de asistencia para programación, diría que los 2 o 3 principales proveedores de asistentes de código son una mejor opción
      A nadie lo han despedido por comprar licencias de Claude Code
    • No entiendo por qué piensas que debería ser más común
      Solo con agrupar GPUs para varios usuarios y conectarlas a documentos y data lakes, manteniendo además los controles de seguridad, ya es bastante complicado
      Al final igual vas a terminar pagándole a un equipo para administrarlo
    • Haberlo probado una vez por tu cuenta en una máquina personal y ofrecer modelos a 3000 empleados en medio de requisitos de hardware y software que cambian constantemente son cálculos completamente distintos
      Hace falta hardware dedicado en un datacenter y especialistas que lo operen
      La empresa tiene que resolver, además de su negocio principal, cómo manejar compras, activos, costos y otras mil cosas
      ¿Y quién ya resolvió todo eso? AWS/Azure/OpenAI, etc.
    • Es la misma razón por la que las empresas no construyen sus propios datacenters para necesidades generales de hosting y almacenamiento, sino que se suben a AWS, Azure, etc.
      Mantener hardware y contratar expertos para operar servicios cuesta dinero
      Para algo tan común como los modelos LLM, salvo que sea una empresa extremadamente sensible a enviar bytes a AWS, no hay ninguna razón para ofrecer modelos sobre hardware propio
  • Más que el número de un límite de 1500 dólares al mes, lo interesante es el hecho de que llegaron a definir algún límite
    La mayoría de los equipos de ingeniería con los que he hablado no saben cuánto gastan en IA por desarrollador, porque todo queda enterrado en la factura consolidada de la nube
    Un hard cap fuerza dos conversaciones útiles: qué flujos de trabajo justifican llamadas por API y cuáles pueden resolverse con inferencia local, y si los resultados realmente se están comparando con métricas reales de productividad
    Sin ese ciclo de retroalimentación, solo se convierte en una carrera para ver quién quema tokens más rápido

  • La secuencia entre “un límite de 1500 dólares al mes por herramienta parece una respuesta de política razonable frente al gasto excesivo” y “mi uso de tokens es de unos 1000 dólares al mes tanto en Anthropic como en OpenAI, pero actualmente solo pago 100 dólares por proveedor gracias a planes de subsidio generosos para suscriptores individuales” se siente como un negocio de marketing multinivel
    Se parece a esa estructura donde los ‘diamantes’ ganan dinero promocionando el MLM en seminarios y les dicen a los aspirantes de abajo que “comprar suscripciones de IA ahora es la oportunidad única en la vida para convertirse en ganadores”
    Capaz que hay algo en MLM vs LLM que genera FOMO

    • Simon Willison ha sido así desde que aparecieron los LLM. Se nota demasiado como alguien que promociona esto por dinero