16 puntos por GN⁺ 2025-07-26 | 1 comentarios | Compartir por WhatsApp
  • Permite comparar claramente los precios de distintos proveedores de LLM (por ejemplo, OpenAI, Anthropic, Google) con una base equivalente (precio por token)
    • Incluye tablas y gráficos con el formato: proveedor, modelo, Input ($/M), Output ($/M)
  • Última actualización de los datos: 26 de julio de 2025
  • Antes de elegir un modelo específico, ofrece datos base que pueden servir de referencia para un análisis de costo-beneficio del rendimiento
  • Al suscribirte al boletín, puedes recibir información actualizada de forma periódica

1 comentarios

 
GN⁺ 2025-07-26
Opiniones de Hacker News
  • (Trabajo en OpenRouter) colaboramos con proveedores que ofrecen precios e información de modelos vía API para resolver este problema, lo que nos permitió mantener siempre actualizada la información del marketplace; me hace recordar hace un año, cuando compartíamos esto conversando en un canal de Slack; últimamente la estructura de precios por token se volvió muy compleja por factores como la longitud del prompt, el caché y otros detalles según cada proveedor; de hecho, el punto importante no es el precio por token a nivel de modelo, sino a nivel de endpoint; por ejemplo, muchas veces el precio cambia según el endpoint incluso para el mismo modelo, como versiones rápidas/lentas o thinking/non-thinking; hemos invertido mucho esfuerzo en resolver todo esto y el resultado actual está publicado en OpenRouter (aunque reconozco que todavía no está en un formato fácil de revisar centrado en precios)
    • Acabo de intentar hacerlo más conciso y fácil de ver, muchas gracias por el esfuerzo, comparto el proyecto llm-pricing
  • Me pregunto si los datos no estarán mal; el precio por token de entrada de Google Gemini 2.5 Flash-Lite es de $0.10, pero aquí parece mostrarse como $0.40; consulten la tabla oficial de precios
    • No es que los datos estén mal, creo que leí mal mi tabla (corrección: creo que respondí mal; no estuvo bien haber contestado así)
  • Esta información es excelente, pero en términos reales de UX todavía hace falta considerar muchas más cosas
    • Incluso para el mismo modelo, el precio cambia según el proveedor
    • Cada proveedor optimiza para criterios distintos, como velocidad o costo
    • Incluso con el mismo modelo, existen distintas versiones cuantizadas
    • Algunos, como la API de Grok, ofrecen tarifas por lotes (batch)
    • También hay muchísimas condiciones adicionales para filtrar, como “thinking/non-thinking” o si es multimodal
    • Los puntajes de benchmark también son una variable
      Algo como el costo combinado (blended cost, tarifa total de entrada/salida) que ofrece artificialanalysis.ai sirve como cierta referencia, pero en la práctica el modelo de cobro de Input/Output también puede seguir cambiando según el caso de uso; sigo esperando a que aparezca un sitio con una UI realmente buena para comparar todo esto; ojalá alguien lo haga pronto
    • (Trabajo en OpenRouter) en realidad hay una herramienta de comparación de modelos muy simple, aunque no se nota mucho en el sitio; ejemplo: página de comparación de modelos de OpenRouter
    • Me pregunto si agregar a la tabla una columna de “provider”, es decir, dónde realmente se hace la llamada al API, ayudaría a resolver este problema
    • Hacer una comparación justa parece muy difícil; lo mejor sería mostrar claramente los trade-offs de cada condición y dejar que el usuario decida por sí mismo; también suena interesante la idea de una plataforma tipo bolsa de tokens (token exchange), donde los usuarios publiquen sus requisitos y las empresas compitan ofreciendo servicios acordes; incluso se puede imaginar un marketplace donde cualquiera comparta su capacidad de cómputo, aunque habría que resolver por separado problemas como fingir capacidades o filtrar datos
    • Ojalá dejáramos de darle tanta importancia a los rankings de benchmarks; da pena que siga ese ambiente que empuja a obsesionarse con ese tipo de comparaciones
  • Antes era desesperante tener que saltar entre montones de páginas promocionales para encontrar la tarifa de un modelo recién lanzado; ahora es cómodo poder verla de un vistazo en OpenRouter
  • El problema central es que los tokens difieren según el proveedor y el modelo; va más allá del tokenizer y hay diferencias enormes incluso dentro del mismo proveedor
    • Por ejemplo, en entradas de imagen, gpt-4o-mini consume 10 veces más tokens que gpt-4
    • La salida de gemini 2.5 pro normalmente se cobra por token, pero al usar structured output cada carácter se considera como un token
    • La información de precio por token es importante, pero lo que de verdad se necesita es saber cuánto cuesta la misma consulta/respuesta en cada modelo, porque no todos los tokens son iguales
    • Planeo ejecutar el mismo experimento todos los días y agregar su costo como una columna en la tabla; por ejemplo, se puede medir con el resultado de meter el mismo prompt a todos los modelos, como "resume este artículo en 200 palabras"
    • Me gustaría entender mejor eso de que en gemini 2.5 pro, al usar structured output, se usa un esquema de carácter=token; no termino de ver cuál es la diferencia
  • Ahora mismo el sitio está caído, pero también quisiera recomendar la calculadora de precios de LLM de Simon Willison (llm-prices.com)
  • Me pregunto qué modelo se podría correr en local con un presupuesto de hardware de unos $2500; si no alcanza, cuánto presupuesto haría falta, y estaría bueno tener algún tutorial sobre cómo correrlos directamente en local
    • Si te interesa usar LLM locales, ollama.com es un buen punto de partida; se puede convertir la cantidad de nodos a RAM (GB); por ejemplo, el modelo Deepseek-r1:7b necesita alrededor de 7 GB; mientras más grande sea la ventana de contexto, más memoria se necesita; si piensas armar una máquina de IA con un presupuesto de $2500, recomiendo una configuración con mucha memoria unificada como LPDDR5; enlace de referencia: Framework AIMax300
    • Hace 18 meses compré una Mac Mini M2Pro de 32 GB por $1900, y corre bastante bien incluso modelos locales cuantizados de 40B; si un modelo local se queda corto de rendimiento, a veces uso la combinación de Gemini 2.5 flash/pro con gemini-cli; hay muy buenas opciones tanto en APIs comerciales como en modelos locales, así que lo mejor es elegir una opción de cada lado y concentrarse en armar algo rápido
    • Lo mejor es comprar dos tarjetas gráficas 3090 usadas por cerca de $600 cada una; la 3090 sigue teniendo una relación precio/rendimiento excelente
    • Kimi y deepseek son de los pocos modelos que no se quedan muy atrás en rendimiento comparados con los principales proveedores de nube
    • Los modelos del ecosistema de ollama pueden correr algunos casos sin problema incluso con un CPU decente
  • Antes la única opción para conocer las tarifas por proveedor era ir saltando de sitio en sitio; OpenRouter es una buena alternativa, además lista también los modelos abiertos y te deja darte una idea del precio/tamaño real del modelo y de cuánto subsidio está recibiendo en este momento
    • La API de OpenRouter tiene un endpoint para consultar modelos e información de precios (documentación de la API de modelos de OpenRouter); la desventaja es que solo ofrece información de un proveedor por modelo; en modelos comerciales no es problema, pero en modelos de código abierto el precio puede variar entre proveedores hasta 5x–10x, así que hay que usarlo solo como referencia
  • Me gustaría que existiera un recurso que combinara datos de precios con benchmarks generales para mostrar cuál modelo tiene la mejor “relación costo-rendimiento” (puntaje de benchmark / costo por token)
  • Las políticas de precios de cada proveedor son mucho más complejas que simplemente cobrar input/output
    • Tarifas en horario valle de DeepSeek
    • Tarifas por lotes (batch) de OpenAI/Anthropic
    • Tarifas de Google/Grok según la ventana de contexto
    • Cobro separado de tokens thinking/non-thinking en Qwen
    • Precios por niveles (tier) de tokens de entrada en Qwen coder
      Como referencia, un post relacionado: X.com paradite_