Calculadora de costo de tokens de Opus 4.6 y Opus 4.7
(tokens.billchambers.me)- Una herramienta de cálculo para analizar el problema de que, debido al nuevo tokenizador de Opus 4.7, el mismo prompt se contabiliza con más tokens
- La misma entrada se mapea a 1.0~1.35 veces más tokens según el tipo de contenido, por lo que aumenta el costo por solicitud incluso sin cambiar las palabras
- Al medirlo en la práctica, Opus 4.7 mostró, frente a Opus 4.6, un aumento promedio de +37.4% tanto en tokens por solicitud como en costo por solicitud
- El aumento se distribuye desde un mínimo de +19.0% hasta un máximo de +86.2% en las 50 comparaciones más recientes, con muchos casos en el rango de +30% y +40%
- En esta página puedes pegar conversaciones, prompts de sistema o texto para ver una comparación detallada de la diferencia de tokens entre Opus 4.7 y 4.6 y del costo según los precios actuales
Contexto de creación de esta herramienta
- En el anuncio de lanzamiento de Opus 4.7 se presentó como una actualización directa respecto a Opus 4.6, pero hay dos cambios que afectan el uso de tokens
- Debido al tokenizador actualizado, la misma entrada se asigna a 1.0~1.35 veces más tokens según el tipo de contenido
- En niveles de effort altos, especialmente en los turnos finales de entornos agentic, el modelo razona más y por eso aumenta la cantidad de tokens de salida
- Aunque mejora la confiabilidad en problemas difíciles, tiene un impacto directo en una estructura de costos basada en tokens
Impacto para los usuarios
- Incluso con el mismo texto del prompt, en Opus 4.7 se cuentan más tokens, así que sube el costo por solicitud aunque no cambies la redacción
- Tokenomics permite pegar cualquier conversación, prompt de sistema o texto para comprobar directamente la diferencia de tokens entre Opus 4.7 y 4.6
- Calcula la diferencia concreta de costo con base en los precios actuales
Página de promedios de la comunidad
- En la página
/leaderboardse agregan datos comparativos anónimos de los usuarios de la herramienta - Permite ver, con base en uso real, el promedio de aumento de tokens para distintos tipos de prompt
Cosas a tener en cuenta
- El texto del prompt no se guarda: la entrada se analiza en el navegador y luego se envía al servidor para pasarla a la API de conteo de tokens de Anthropic; el texto del prompt no se almacena en la base de datos y solo se guardan métricas anónimas de conteo de tokens
- No es un producto oficial de Anthropic: fue creado por Bill Chambers y no tiene relación de afiliación, garantía ni patrocinio con Anthropic
- Código abierto: el código fuente completo está publicado en GitHub (
bllchmbrs/tokensmatter) y se agradecen contribuciones y comentarios
Promedios de la comunidad
- Se recopilan diferencias en tokens y costo por solicitud de Opus 4.7 frente a Opus 4.6, con base en comparaciones de solicitudes reales enviadas de forma anónima
- Cálculo basado en un total de 425 envíos
- La lista de comparaciones recientes muestra las 50 más recientes, ordenadas de la más nueva a la más antigua
- Cambio promedio en tokens por solicitud: +37.4%
- Cambio promedio en costo por solicitud: +37.4%
- Tamaño promedio de solicitud: 369 / 495
- En el texto original no hay explicación adicional sobre estas dos cifras
Casos recientes de comparación anónima
- En la tabla de las 50 comparaciones más recientes, la mayoría de los casos registran el mismo porcentaje de aumento tanto en tokens de solicitud de Opus 4.7 como en costo
- Ejemplo 1: envío
6b5d3ebf, solicitud 23 → 31, costo $0.000345 → $0.000465, variación +34.8% - Ejemplo 2: envío
1363973a, solicitud 99 → 130, costo $0.001485 → $0.001950, variación +31.3% - Ejemplo 3: envío
17a9645e, solicitud 16 → 20, costo $0.000240 → $0.000300, variación +25.0%
- Ejemplo 1: envío
- También se observa el aumento en solicitudes pequeñas
- Envío
10c3149a, solicitud 8 → 14, costo $0.000120 → $0.000210, variación +75.0% - Envío
8f58e536, solicitud 8 → 13, costo $0.000120 → $0.000195, variación +62.5% - Envío
942f5d38, solicitud 12 → 19, costo $0.000180 → $0.000285, variación +58.3%
- Envío
- En solicitudes de tamaño medio se repiten aumentos similares
- Envío
67f5f437, solicitud 188 → 275, costo $0.002820 → $0.004125, variación +46.3% - Envío
04249c86, solicitud 176 → 256, costo $0.002640 → $0.003840, variación +45.5% - Envío
af25da70, solicitud 269 → 501, costo $0.004035 → $0.007515, variación +86.2%
- Envío
- En solicitudes grandes también se confirma un patrón similar de aumento
- Envío
c5d75d71, solicitud 2,263 → 3,282, costo $0.0339 → $0.0492, variación +45.0% - Envío
4db385b5, solicitud 1,592 → 2,205, costo $0.0239 → $0.0331, variación +38.5% - Envío
68375705, solicitud 4,449 → 6,434, costo $0.0667 → $0.0965, variación +44.6%
- Envío
- Hay varios envíos con cifras idénticas repetidas
- Casos con solicitud 175 → 221, costo $0.002625 → $0.003315, variación +26.3% se repiten en varios ID de envío
- Casos con solicitud 996 → 1,392, costo $0.0149 → $0.0209, variación +39.8% se repiten en varios ID de envío
- Casos con solicitud 43 → 61, costo $0.000645 → $0.000915, variación +41.9% se repiten en varios ID de envío
1 comentarios
Comentarios en Hacker News
Para comparar de forma justa, creo que hay que ver el costo total. 4.7 usa muchos menos tokens de salida que 4.6, y parece que el costo de razonamiento también bajó bastante. Si ves la comparación de Artificial Analysis, 4.7 sale apenas más barato que 4.6, y 4.5 está casi a la mitad. En particular, llama la atención que el costo de reasoning casi se redujo a la mitad al pasar de 4.6 a 4.7. Aun así, en cargas reales como Claude Code, tanto la entrada como el razonamiento parecen pesar bastante, así que todavía no me queda claro cómo se compensarán el alza del precio de entrada y la baja del precio de razonamiento. Las tareas con mucho razonamiento podrían salir más baratas, pero las que requieren poco razonamiento podrían terminar siendo más caras. Para ese tipo de trabajo, yo mejor usaría Codex.
En mi experiencia, casi no noto mejora de rendimiento de 4.6 a 4.7, pero sí se siente clarísimo la velocidad a la que consume el límite. Ayer gasté el límite de 5 horas en solo 2 horas, y cuando activé batched mode para refactorizar, se comió el 30% del límite en 5 minutos y lo cancelé. Después cambié al modo serial y consumía menos, pero aun así era evidente que se gastaba muchísimo más rápido que 4.6. Ahora siento que cada conversación consume alrededor del 5% del límite de 5 horas, cuando antes era como 1~2%. Estoy en el plan Max 5x, así que todavía tengo bastante margen en el límite semanal y lo aguanto, pero como mínimo me gustaría que explicaran esta parte con más transparencia o la mejoraran. La configuración de effort también sigue siendo demasiado opaca y ayuda menos de lo que debería.
Si el resultado fuera bueno, no me molestaría pagar más, pero ahorita se siente como si Anthropic estuviera yendo en una dirección de seguir haciéndote gastar tokens con una especie de recompensa intermitente. La línea Claude sin duda es más divertida que GPT o Codex, tiene más personalidad, y también más sentido de diseño y estética. La sensación de hacer vibe-coding juntos es divertida, casi como un juego. Pero el resultado casi siempre termina en problemas parecidos: borra tests para que pase, mete código duplicado, abstrae mal, desactiva type safety e ignora requisitos estrictos. Estos problemas no se resolvieron en 4.7 y, diga lo que diga el benchmark, en uso real siguen ahí. Ni siquiera tengo claro si la empresa tiene voluntad de arreglar esto.
Esta comparación parece medir el largo del prompt de dos formas usando la API de conteo de tokens para aislar solo el cambio del tokenizer. También puede pasar que un modelo más inteligente responda más corto y por eso bajen los tokens de salida, así que considerando eso no siento que con esta comparación sola se pueda decir que 4.7 sea realmente más barato. Claro, al final podría resultar más caro o más barato, pero con este material no me parece que ayude mucho a decidir para uso real.
Por ahora pienso seguir usando Opus 4.5 como principal en VSCode Copilot. En mi flujo de trabajo suelo darle instrucciones bastante detalladas al agente, pero la mayoría de los agentes siempre intenta hacer más de la cuenta. De todo lo que probé, lo que Opus 4.5 hacía mejor era leer el alcance de lo que yo quería incluso con prompts incompletos y tender a hacer exactamente lo necesario. 4.6 tardaba más, pensaba de más y también ampliaba más el alcance de los cambios, y a los GPT superiores les pasaba algo parecido. Otros modelos como Sonnet eran peores que Opus para captar mi intención cuando las instrucciones no eran tan precisas. Así que dejé de experimentar y seguí solo con 4.5; era caro, pero sentía que lo valía. Pero ahora dicen que 4.7 va a reemplazar tanto a 4.5 como a 4.6 en VSCode Copilot, y además con un modifier de 7.5x, así que desde mi perspectiva parece una dirección más lenta y más cara, casi una regresión.
Cada vez más, me parece ingenuo asumir que solo con scaling de LLM se puede reemplazar por completo el trabajo de cuello blanco. Los mecanismos de attention o las Hopfield networks parecen modelar solo una parte del cerebro humano, y toda esta ola reciente de parches de memoria agentic más bien parece una prueba de que el transformer SOTA actual por sí solo no basta. Incluso si lo limitas solo al texto, siento que igual se notan los límites; aunque quizá solo estoy repitiendo el argumento al estilo de Yann LeCun.
Ayer intenté usar Opus 4.7 para resumir mejores prácticas de un sitio web de una sola página, y con apenas unas 4 rondas de prompts ya me había pasado del límite diario. Y unas 7 más tarde también superé el semanal. Todo el HTML/CSS/JS junto no llegaba ni a 300 líneas, así que sí me impactó bastante ver que el límite de uso se agotara tan rápido.
El título me parece que debería ser 4.6 to 4.7, no de 4.7 a 4.6.
Según la explicación de Artificial Analysis, Opus 4.7 costó unos 4,406 dólares para correr el Intelligence Index con Adaptive Reasoning y Max Effort, lo que fue aproximadamente 11% más barato que los 4,970 dólares de 4.6. La puntuación fue 4 puntos más alta, y dicen que esa diferencia se debe a que usó menos tokens de salida incluso considerando el nuevo tokenizer. Aun así, aclaran que el descuento por cached input todavía no está reflejado en ese cálculo y que pronto lo van a incluir.
Mi impresión es que la calidad de la conversación mejoró más de lo esperado. Se siente más autocrítico, revisa sus propuestas con más espíritu crítico y en general sus elecciones por defecto me parecen mejores. Puede que la diferencia sea menos marcada para mí porque no he usado tantos harnesses como otras personas aquí, pero creo que mientras menos preparado esté el usuario, más valor podría tener. Incluso en tareas básicas como repasar el historial reciente de reviews o seguir discusiones de producto, 4.6 era útil pero podía convertirse fácilmente en un foot-gun, mientras que 4.7 parece más probable que actúe como un miembro senior del equipo.