Los LLM son realmente baratos

(snellman.net)

26 puntos por GN⁺ 2025-06-10 | 4 comentarios | Compartir por WhatsApp

La mayoría de las personas tiende a sobreestimar el costo de usar LLM (modelos de lenguaje de gran tamaño), pero en realidad se han abaratado rápidamente hasta llegar a un nivel incluso más barato que la búsqueda web
- Durante el auge inicial de la IA generativa, el costo de inferencia era alto, pero en los últimos 2 años el costo se ha reducido casi 1000 veces
Si se compara directamente el precio real de las API de LLM con las API de búsqueda web, los modelos LLM de bajo costo son incluso más de 10 veces más baratos que la API de búsqueda más económica, y los modelos de precio intermedio también tienen una estructura de precios bastante competitiva
Hay poca evidencia de que los operadores de modelos estén subsidiando agresivamente los precios de sus API, y en algunos casos incluso registran márgenes altos de hasta 80% sobre el costo de GPU
La razón por la que las principales empresas de IA como OpenAI reportan pérdidas no es el costo, sino sus políticas de monetización débiles; con cobrar apenas 1 dólar al mes por usuario ya podrían pasar a rentabilidad
En adelante, el centro de la carga de costos se moverá del propio LLM hacia los servicios backend externos (por ejemplo, distintos proveedores de datos). Ejecutar LLM será cada vez más barato, y el modelo de negocio también puede sostenerse suficientemente

El malentendido sobre el costo de los LLM y la realidad

Mucha gente cree erróneamente que el costo de operar LLM como ChatGPT es muy alto
Esto lleva a análisis equivocados repetidos, como pensar que la viabilidad de negocio de las empresas de IA es incierta o que es desfavorable monetizar servicios de IA para consumidores
Pensar que los LLM siguen siendo caros es un error de percepción
- Al inicio del boom de la IA, el costo de inferencia era muy alto, pero en los últimos 2 años el costo se redujo casi 1000 veces
- Muchas discusiones hacen proyecciones equivocadas basadas en estructuras de costos del pasado
El "modelo de precio por 1 millón de tokens" que se usa con frecuencia no es fácil de entender de manera intuitiva

Comparación de precios entre API de búsqueda web y API de LLM

Tarifas de API de búsqueda web representativas
- Google Search: $35/1000 consultas
- Bing Search: $15/1000 consultas
- Brave Search: $5~9/1000 consultas, con una estructura en la que el precio incluso sube a medida que sube la escala
- En general, las API de búsqueda web no son baratas, y las de mejor calidad son más caras
Tarifas de API de LLM (base 1k tokens)
- Gemma 3 27B: $0.20
- Gemini 2.0 Flash: $0.40
- GPT-4.1 nano: $0.40
- Deepseek V3: $1.10
- GPT-4.1: $8.00, etc.
- Para comparar de forma equivalente con búsqueda, es necesario calcular el costo del LLM según la cantidad de tokens de salida por consulta + el precio por token
- 500~1000 tokens es el consumo promedio por consulta, por lo que la comparación directa es posible
Los modelos LLM baratos son entre 10 y 25 veces más baratos que la API de búsqueda más económica
- Incluso los LLM de calidad intermedia tienen costos mucho más bajos que la búsqueda en el mismo rango
- Si se consideran condiciones adicionales de descuento, como lotes o descuentos en horarios de baja demanda, resultan todavía más baratos

La verdadera razón de los bajos costos

La sospecha de que los proveedores de modelos subsidian el precio de las API tiene poco sustento
- También hay pocos incentivos para expandir participación de mercado en API, y los precios de API ofrecidas por múltiples terceros también se forman de manera competitiva
- Según datos medidos de Deepseek, el margen basado en GPU llega al 80%
Costo de entrenamiento (Training) y costo de inferencia (Inference)
- El costo de entrenamiento se está distribuyendo efectivamente (amortizing) gracias al gran volumen de tráfico de inferencia
- Más bien, es posible que el costo generado por usar servicios backend de terceros se vuelva el problema principal

Refutación de la idea de que “las API de LLM operan con pérdidas”

Las pérdidas de grandes operadores como OpenAI son resultado de una estrategia de monetización débil
- Incluso con una monetización del orden de 1 dólar mensual ya sería posible pasar a rentabilidad
- También existe el objetivo de recopilar datos aprovechando el tráfico de usuarios gratuitos
El verdadero problema de costos en adelante no será el LLM, sino el backend externo
- Ejemplo: si un agente de IA llama una API externa para reservar boletos, en la práctica la carga de costos podría recaer con fuerza sobre el tercero
- Se espera que los operadores de servicios respondan con bloqueo de crawling, migración a móvil, refuerzo del login, etc.

Por qué importa

Muchas predicciones sobre el futuro se hacen con la premisa equivocada de que los LLM son caros
En la práctica, al mismo tiempo que bajan los costos aumenta la demanda, por lo que se espera una mayor caída de precios y una activación del mercado
Las empresas de frontier AI se enfocan más en ganar mercado que en monetizar, y de hecho el precio de los servicios LLM es especialmente bajo
El verdadero problema de costos no está en el LLM en sí, sino en los servicios externos integrados que están detrás (por ejemplo, sitios de ticketing)
En una estructura donde estos servicios externos no logran capturar ingresos, podría surgir en adelante un nuevo modelo de monetización o una confrontación técnica entre la IA y los servicios backend

Conclusión y perspectiva

El costo de inferencia de los LLM ya no es una limitación esencial del negocio de IA
- Con costos de ejecución bajos y diversas opciones de monetización (por ejemplo, publicidad, suscripción, etc.), existe suficiente viabilidad comercial
- En adelante, el principal desafío no será el LLM, sino los problemas de costo e infraestructura de los proveedores de datos externos que la IA utiliza
Se necesita una percepción realista de los costos y un cambio de estrategia de negocio acorde con los cambios del mercado y la tecnología

4 comentarios

click 2025-06-12

Cuando simulé escenarios de uso con GPUs propias on-prem o alquilando GPUs en la nube, pensé que sería carísimo.
Pero parece que, una vez que se alcanza una economía de escala, sí resulta bastante viable.

ethanhur 2025-06-11

También dudaba de si se podía monetizar con los LLM, así que me sorprende que sea algo positivo.

mhj5730 2025-06-11

Qué resultado de investigación tan impactante, más de lo que uno pensaba... que el costo de usar un modelo en el que se invirtieron decenas de billones sea bajo, y que incluso con ese costo esté en un nivel en el que se puede monetizar suficientemente...

GN⁺ 2025-06-10

Opinión de Hacker News

Creo que no es correcto comparar una API de búsqueda rentable con una API de LLM en la nube que está dispuesta a asumir pérdidas para ganar cuota de mercado
Los datos actuales reflejan una situación en la que las empresas están haciendo inversiones de capital (capex) descomunales para tomar el control de la IA, pero todavía no han llegado al punto de rentabilidad
Ambos productos están en etapas de madurez completamente distintas, y no se puede ignorar la realidad de que no es justificable seguir perdiendo dinero en un servicio con 10 años de antigüedad cuyo uso además va disminuyendo
Además, las consultas de búsqueda pueden procesarse con CPU y con una alta tasa de aciertos de caché, mientras que la inferencia de LLM normalmente requiere GPU y, como el resultado de cada token es grande, es difícil compartir caché entre usuarios
- Se dice que no hay pruebas de que el servicio de inferencia no sea rentable, pero en realidad basta con pagar directamente los costos de inferencia en un proveedor de hosting como AWS para darse cuenta
  AWS no va a subsidiar indefinidamente un servicio que ejecuta modelos de terceros, y más importante aún: la inversión en infraestructura es capex, pero el costo de ejecutar inferencia es opex (gasto operativo)
- Hoy en día, los proveedores de API que alojan modelos open source dejan un margen bastante amplio entre la tarifa del API y el costo real del hardware de inferencia
  Claro, eso no lo es todo, pero si además se considera la optimización propia de inferencia, el margen puede ser todavía mayor
  Incluso en proveedores de modelos cerrados como OpenAI o Anthropic, si uno estima los costos a partir de las especificaciones públicas de los modelos, parece muy probable que Anthropic tenga un margen muy bueno entre lo que cobra por API y su costo de hardware
  Si has ejecutado estos modelos en producción, esto se puede verificar directamente
- Hay indicios de que Perplexity manipuló su contabilidad moviendo COGS a R&D para aparentar mejores márgenes
  Enlace
- Según un análisis del servicio de API de DeepSeek, no solo estarían logrando márgenes del 500%, sino que además ofrecen el mismo modelo a un precio mucho más bajo que las empresas estadounidenses que prestan ese mismo servicio
  También parece totalmente posible que OpenAI o Anthropic estén obteniendo márgenes todavía más altos
  En general, las GPU suelen ser superiores a las CPU tanto en costo como en eficiencia energética, y Anthropic usa caché de KV-cache en prompts de sistema de 24k tokens
- No estoy de acuerdo con la idea de que las API de LLM sean una estrategia para perder dinero y quedarse con el mercado
  Hoy existen servicios como openrouter que permiten cambiar libremente de modelo o proveedor, así que no hay efecto de lock-in y la estrategia de ganar cuota de mercado no tiene mucho sentido económico
  Tal vez sería distinto en un producto con UI como ChatGPT web, pero vender un API con pérdidas me parece una tontería
  Incluso creo que los VC no aceptarían algo así
Me parece que comparar motores de búsqueda y LLM suponiendo que ambos solo se usan para consultas de hechos simples (por ejemplo, "¿cuál es la capital de Estados Unidos?") es una analogía demasiado alejada de los principales casos de uso de ambos servicios
Si uno usa un motor de búsqueda, el foco está en acceder a un índice web; obtener una respuesta simple es una función de la UI o del producto, no el propósito del API
Cuando uno usa un LLM, suele hacerlo para análisis de grandes volúmenes de datos, reconocimiento de imágenes, razonamiento complejo, programación y otras tareas más sofisticadas; en esos casos, el consumo de tokens es mucho mayor que en una simple respuesta de búsqueda
Lo que plantea el autor se siente como una comparación equivocada del tipo "un Honda Civic es barato porque cuesta casi lo mismo por libra que una manzana"
- Siento que el modelo tradicional de motores de búsqueda cada vez sirve menos
  Los expertos los usan cada vez menos, y los usuarios comunes tampoco los usan tanto para explorar índices web sino más bien de forma conversacional, como si le preguntaran a una persona
  Consultas con relleno innecesario como "¿cuál es la capital de Estados Unidos?" de hecho encajan mejor con un LLM que con un buscador,
  y además el deterioro de la calidad de búsqueda por sitios llenos de spam SEO es un problema grande
  Los LLM manejan mejor las preguntas naturales y te devuelven justo la respuesta que quieres, sin texto inútilmente largo, spam ni anuncios, así que creo que serán cada vez más útiles
- No coincido con la crítica de que el autor "mantiene la comparación entre búsqueda y LLM solo en consultas fácticas simples", pero el punto central del análisis no es realmente "comparar motores de búsqueda con LLM",
  sino simplemente comparar el precio por unidad (token/query) con el costo para calcular el margen
  Si la pregunta es si el API se sostiene con subsidios o no, la comparación contra motores de búsqueda no es estrictamente necesaria
- Sí es cierto que los LLM se usan para análisis de grandes datos y usos más complejos, pero reconozco que eso corresponde más a usuarios avanzados
- Me parece un buen punto que el buscador sirve para encontrar un índice web
  Pero los LLM también pueden encontrar la información deseada de forma más precisa, sin duplicados y más rápido, así que no se puede decir que la búsqueda tradicional sea automáticamente mejor
  Si un LLM da una respuesta directa e incluso adjunta enlaces para verificar el resultado, la satisfacción del usuario podría ser incluso mayor
  También opino que Google sigue enterrando resultados porque cada vez es más real que los resultados basados en índice son menos útiles
- También hay argumentos de que OpenAI no tuvo pérdidas tan enormes en 2024 y que, considerando el volumen mensual de visitas/uso, el costo de inferencia quizá no sea tan alto en la práctica
  Si se toma en cuenta que ChatGPT es uno de los sitios más visitados del mundo cada mes, y que la mayor parte del tráfico es de usuarios gratuitos, el costo real podría no ser tan grande como se piensa
Se plantea la duda de que la base para estimar los costos relacionados con LLM no está clara
Por ejemplo, para datos recientes como el tamaño permitido del equipaje en un avión, sería más confiable consultar a un LLM con búsqueda web habilitada para que verifique fuentes
En ese caso, el consumo de tokens puede crecer rápidamente y hacer que la estimación de costos falle,
y cuando la conversación se repite varias veces y el contexto se va acumulando, el uso total de tokens aumenta mucho
Se reconoce que sin datos de uso real es difícil calcular costos solo a partir de estimaciones
- Yo le pregunto a un LLM por noticias recientes, y el LLM lee directamente varias páginas web, las resume y me las explica
  Cuando hago preguntas de actualidad, siempre realiza búsqueda web y añade enlaces de referencia, así que creo que ese uso es totalmente viable
- Le pregunté "¿cuál es el tamaño permitido de equipaje de mano en la ruta DFW-CDG de una aerolínea estadounidense?" y respondió correctamente usando búsqueda web, además de indicar el sitio oficial y enlaces de la FAA
  Me parece una forma eficiente de usarlo
Dada la dificultad real para conseguir semiconductores, y considerando lo cara que es la electricidad y el equipo, no creo que los grandes jugadores puedan operar hoy servicios de LLM vía API con beneficios sin mejorar antes la rentabilidad
Mientras no se resuelvan el precio del hardware y el problema energético, será difícil obtener grandes ganancias por un tiempo
Se menciona como ejemplo que incluso después de 20 años de operar YouTube, Alphabet no revela claramente si es rentable o no
- La gran rentabilidad de Alphabet (Google) se debe a su aplastante cuota en el mercado de búsquedas y a sus ingresos por publicidad
  La apuesta es que las empresas de IA también podrán convertir algún día su cuota de mercado en ingresos
  Si se genera stickiness, la conversión de cuota de mercado a ganancias parece bastante posible
- Se dice que el alza en el precio de la acción puede ser, en cierto sentido, una medida de la rentabilidad empresarial,
  y se menciona que Amazon usó una estrategia similar durante más de 10 años
A partir de la cifra de OpenAI de una pérdida de 500 millones de dólares en 2024 y 500 millones de MAU, la lógica de que "si convierten a los 500M de usuarios gratuitos con un ARPU anual de $10 alcanzan el punto de equilibrio" en realidad parece muy difícil de materializar
Si se intenta cobrar siquiera $1 a los usuarios gratuitos, la gran mayoría probablemente se iría,
y la palabra "simplemente" simplifica demasiado la realidad
- En realidad no se propone cobrar $1 al mes, sino que hoy ejecutar LLM se ha vuelto tan barato que incluso con publicidad ya sería posible obtener ganancias
  En comparación con servicios del mismo tamaño de usuarios basados en anuncios, el costo actual de los LLM es mucho menor, y la suscripción no sería la única respuesta
- Convertir a 500 millones de usuarios en clientes de pago podría cambiar por completo los patrones de uso y la estructura de costos, haciendo que los costos se disparen
  Incluso podría hacerse la suposición simple de que con convertir solo al 1% en usuarios de pago ya se generarían mil millones de dólares al año
- Yo creo que estas empresas operan con pérdidas porque el valor de los datos de los usuarios es mucho mayor que el precio de la suscripción
- En realidad no hace falta que todos se vuelvan usuarios de pago; basta con que algunos usuarios de pago subsidien al resto para que el sistema funcione
Con el tiempo, cuando se concentre la cuota de mercado y llegue la regulación, probablemente los inversionistas terminen haciendo valer las subidas de precio que les prometieron
- O también es muy probable que ganen dinero con publicidad
  Hagas la pregunta que hagas, podría aparecer un anuncio de Coca-Cola entre las respuestas,
  podrían añadirse anuncios automáticos a proyectos de programación con IA,
  o insertar publicidad de seguros en cada décimo correo enviado por la IA, etc.
  Existen oportunidades de monetización infinitas
Al estimar internamente el costo operativo de LLM centrándonos en el consumo eléctrico, vimos que incluso con solicitudes en ráfaga por parte de usuarios internos, el costo era de apenas unos 10 y tantos dólares por cada millón de tokens
Como la carga del servidor no era alta, hay bastante margen para que el costo baje aún más al escalar
- Se pregunta si ese cálculo se basa únicamente en el consumo eléctrico
Queda la duda de si se puede comparar en igualdad de condiciones una respuesta de 1 token de un LLM con un resultado de búsqueda de un motor de búsqueda
El autor compara 1000 llamadas a LLM (aprox. 1 millón de tokens) con 1000 consultas a un motor de búsqueda,
pero da la impresión de que podría haber un error de hasta 1000 veces en la comparación
(Corrección posterior: al revisar el método del autor, se confirma directamente que en realidad sí comparó precios sobre la base de 1000 usos del API)
- Se corrige que el autor sí comparó el precio unitario usando 1000 llamadas de LLM (1 millón total de tokens) frente a 1000 búsquedas
- Si Gemini 2.0 Flash cuesta $0.4 por 1 millón de tokens y Bing Search API cuesta $15 por 1000 consultas, entonces el LLM sale 37 veces más barato
Si se espera una mejora de eficiencia y una reducción de costos de 100x en el futuro, surge la duda de por qué se están expandiendo tanto los centros de datos justo ahora
Da la impresión de que con solo pasar por ciclos de actualización de hardware, los centros de datos actuales podrían seguir aprovechándose bastante bien,
y también se menciona la posibilidad de que el actual frenesí de inversión sea en realidad una burbuja
Se comparte un artículo comparativo relacionado
Enlace
Mirando solo el precio real, sigue pareciendo caro,
y en una competencia extrema por cuota de mercado no se puede interpretar todo solo a partir de los números