Price Per Token (precio por token) – Datos de precios de APIs de LLM

(pricepertoken.com)

16 puntos por GN⁺ 2025-07-26 | 1 comentarios | Compartir por WhatsApp

Permite comparar claramente los precios de distintos proveedores de LLM (por ejemplo, OpenAI, Anthropic, Google) con una base equivalente (precio por token)
- Incluye tablas y gráficos con el formato: proveedor, modelo, Input ($/M), Output ($/M)
Última actualización de los datos: 26 de julio de 2025
Antes de elegir un modelo específico, ofrece datos base que pueden servir de referencia para un análisis de costo-beneficio del rendimiento
Al suscribirte al boletín, puedes recibir información actualizada de forma periódica

1 comentarios

GN⁺ 2025-07-26

Opiniones de Hacker News

(Trabajo en OpenRouter) colaboramos con proveedores que ofrecen precios e información de modelos vía API para resolver este problema, lo que nos permitió mantener siempre actualizada la información del marketplace; me hace recordar hace un año, cuando compartíamos esto conversando en un canal de Slack; últimamente la estructura de precios por token se volvió muy compleja por factores como la longitud del prompt, el caché y otros detalles según cada proveedor; de hecho, el punto importante no es el precio por token a nivel de modelo, sino a nivel de endpoint; por ejemplo, muchas veces el precio cambia según el endpoint incluso para el mismo modelo, como versiones rápidas/lentas o thinking/non-thinking; hemos invertido mucho esfuerzo en resolver todo esto y el resultado actual está publicado en OpenRouter (aunque reconozco que todavía no está en un formato fácil de revisar centrado en precios)
- Acabo de intentar hacerlo más conciso y fácil de ver, muchas gracias por el esfuerzo, comparto el proyecto llm-pricing
Me pregunto si los datos no estarán mal; el precio por token de entrada de Google Gemini 2.5 Flash-Lite es de $0.10, pero aquí parece mostrarse como $0.40; consulten la tabla oficial de precios
- No es que los datos estén mal, creo que leí mal mi tabla (corrección: creo que respondí mal; no estuvo bien haber contestado así)
Esta información es excelente, pero en términos reales de UX todavía hace falta considerar muchas más cosas
- Incluso para el mismo modelo, el precio cambia según el proveedor
- Cada proveedor optimiza para criterios distintos, como velocidad o costo
- Incluso con el mismo modelo, existen distintas versiones cuantizadas
- Algunos, como la API de Grok, ofrecen tarifas por lotes (batch)
- También hay muchísimas condiciones adicionales para filtrar, como “thinking/non-thinking” o si es multimodal
- Los puntajes de benchmark también son una variable
  Algo como el costo combinado (blended cost, tarifa total de entrada/salida) que ofrece artificialanalysis.ai sirve como cierta referencia, pero en la práctica el modelo de cobro de Input/Output también puede seguir cambiando según el caso de uso; sigo esperando a que aparezca un sitio con una UI realmente buena para comparar todo esto; ojalá alguien lo haga pronto
- (Trabajo en OpenRouter) en realidad hay una herramienta de comparación de modelos muy simple, aunque no se nota mucho en el sitio; ejemplo: página de comparación de modelos de OpenRouter
- Me pregunto si agregar a la tabla una columna de “provider”, es decir, dónde realmente se hace la llamada al API, ayudaría a resolver este problema
- Hacer una comparación justa parece muy difícil; lo mejor sería mostrar claramente los trade-offs de cada condición y dejar que el usuario decida por sí mismo; también suena interesante la idea de una plataforma tipo bolsa de tokens (token exchange), donde los usuarios publiquen sus requisitos y las empresas compitan ofreciendo servicios acordes; incluso se puede imaginar un marketplace donde cualquiera comparta su capacidad de cómputo, aunque habría que resolver por separado problemas como fingir capacidades o filtrar datos
- Ojalá dejáramos de darle tanta importancia a los rankings de benchmarks; da pena que siga ese ambiente que empuja a obsesionarse con ese tipo de comparaciones
Antes era desesperante tener que saltar entre montones de páginas promocionales para encontrar la tarifa de un modelo recién lanzado; ahora es cómodo poder verla de un vistazo en OpenRouter
El problema central es que los tokens difieren según el proveedor y el modelo; va más allá del tokenizer y hay diferencias enormes incluso dentro del mismo proveedor
- Por ejemplo, en entradas de imagen, gpt-4o-mini consume 10 veces más tokens que gpt-4
- La salida de gemini 2.5 pro normalmente se cobra por token, pero al usar structured output cada carácter se considera como un token
- La información de precio por token es importante, pero lo que de verdad se necesita es saber cuánto cuesta la misma consulta/respuesta en cada modelo, porque no todos los tokens son iguales
- Planeo ejecutar el mismo experimento todos los días y agregar su costo como una columna en la tabla; por ejemplo, se puede medir con el resultado de meter el mismo prompt a todos los modelos, como "resume este artículo en 200 palabras"
- Me gustaría entender mejor eso de que en gemini 2.5 pro, al usar structured output, se usa un esquema de carácter=token; no termino de ver cuál es la diferencia
Ahora mismo el sitio está caído, pero también quisiera recomendar la calculadora de precios de LLM de Simon Willison (llm-prices.com)
Me pregunto qué modelo se podría correr en local con un presupuesto de hardware de unos $2500; si no alcanza, cuánto presupuesto haría falta, y estaría bueno tener algún tutorial sobre cómo correrlos directamente en local
- Si te interesa usar LLM locales, ollama.com es un buen punto de partida; se puede convertir la cantidad de nodos a RAM (GB); por ejemplo, el modelo Deepseek-r1:7b necesita alrededor de 7 GB; mientras más grande sea la ventana de contexto, más memoria se necesita; si piensas armar una máquina de IA con un presupuesto de $2500, recomiendo una configuración con mucha memoria unificada como LPDDR5; enlace de referencia: Framework AIMax300
- Hace 18 meses compré una Mac Mini M2Pro de 32 GB por $1900, y corre bastante bien incluso modelos locales cuantizados de 40B; si un modelo local se queda corto de rendimiento, a veces uso la combinación de Gemini 2.5 flash/pro con gemini-cli; hay muy buenas opciones tanto en APIs comerciales como en modelos locales, así que lo mejor es elegir una opción de cada lado y concentrarse en armar algo rápido
- Lo mejor es comprar dos tarjetas gráficas 3090 usadas por cerca de $600 cada una; la 3090 sigue teniendo una relación precio/rendimiento excelente
- Kimi y deepseek son de los pocos modelos que no se quedan muy atrás en rendimiento comparados con los principales proveedores de nube
- Los modelos del ecosistema de ollama pueden correr algunos casos sin problema incluso con un CPU decente
Antes la única opción para conocer las tarifas por proveedor era ir saltando de sitio en sitio; OpenRouter es una buena alternativa, además lista también los modelos abiertos y te deja darte una idea del precio/tamaño real del modelo y de cuánto subsidio está recibiendo en este momento
- La API de OpenRouter tiene un endpoint para consultar modelos e información de precios (documentación de la API de modelos de OpenRouter); la desventaja es que solo ofrece información de un proveedor por modelo; en modelos comerciales no es problema, pero en modelos de código abierto el precio puede variar entre proveedores hasta 5x–10x, así que hay que usarlo solo como referencia
Me gustaría que existiera un recurso que combinara datos de precios con benchmarks generales para mostrar cuál modelo tiene la mejor “relación costo-rendimiento” (puntaje de benchmark / costo por token)
Las políticas de precios de cada proveedor son mucho más complejas que simplemente cobrar input/output
- Tarifas en horario valle de DeepSeek
- Tarifas por lotes (batch) de OpenAI/Anthropic
- Tarifas de Google/Grok según la ventana de contexto
- Cobro separado de tokens thinking/non-thinking en Qwen
- Precios por niveles (tier) de tokens de entrada en Qwen coder
  Como referencia, un post relacionado: X.com paradite_

Price Per Token (precio por token) – Datos de precios de APIs de LLM

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News