2 puntos por GN⁺ 11 일 전 | 1 comentarios | Compartir por WhatsApp
  • Una herramienta de cálculo para analizar el problema de que, debido al nuevo tokenizador de Opus 4.7, el mismo prompt se contabiliza con más tokens
  • La misma entrada se mapea a 1.0~1.35 veces más tokens según el tipo de contenido, por lo que aumenta el costo por solicitud incluso sin cambiar las palabras
  • Al medirlo en la práctica, Opus 4.7 mostró, frente a Opus 4.6, un aumento promedio de +37.4% tanto en tokens por solicitud como en costo por solicitud
  • El aumento se distribuye desde un mínimo de +19.0% hasta un máximo de +86.2% en las 50 comparaciones más recientes, con muchos casos en el rango de +30% y +40%
  • En esta página puedes pegar conversaciones, prompts de sistema o texto para ver una comparación detallada de la diferencia de tokens entre Opus 4.7 y 4.6 y del costo según los precios actuales

Contexto de creación de esta herramienta

  • En el anuncio de lanzamiento de Opus 4.7 se presentó como una actualización directa respecto a Opus 4.6, pero hay dos cambios que afectan el uso de tokens
    • Debido al tokenizador actualizado, la misma entrada se asigna a 1.0~1.35 veces más tokens según el tipo de contenido
    • En niveles de effort altos, especialmente en los turnos finales de entornos agentic, el modelo razona más y por eso aumenta la cantidad de tokens de salida
  • Aunque mejora la confiabilidad en problemas difíciles, tiene un impacto directo en una estructura de costos basada en tokens

Impacto para los usuarios

  • Incluso con el mismo texto del prompt, en Opus 4.7 se cuentan más tokens, así que sube el costo por solicitud aunque no cambies la redacción
  • Tokenomics permite pegar cualquier conversación, prompt de sistema o texto para comprobar directamente la diferencia de tokens entre Opus 4.7 y 4.6
  • Calcula la diferencia concreta de costo con base en los precios actuales

Página de promedios de la comunidad

  • En la página /leaderboard se agregan datos comparativos anónimos de los usuarios de la herramienta
  • Permite ver, con base en uso real, el promedio de aumento de tokens para distintos tipos de prompt

Cosas a tener en cuenta

  • El texto del prompt no se guarda: la entrada se analiza en el navegador y luego se envía al servidor para pasarla a la API de conteo de tokens de Anthropic; el texto del prompt no se almacena en la base de datos y solo se guardan métricas anónimas de conteo de tokens
  • No es un producto oficial de Anthropic: fue creado por Bill Chambers y no tiene relación de afiliación, garantía ni patrocinio con Anthropic
  • Código abierto: el código fuente completo está publicado en GitHub (bllchmbrs/tokensmatter) y se agradecen contribuciones y comentarios

Promedios de la comunidad

  • Se recopilan diferencias en tokens y costo por solicitud de Opus 4.7 frente a Opus 4.6, con base en comparaciones de solicitudes reales enviadas de forma anónima
    • Cálculo basado en un total de 425 envíos
    • La lista de comparaciones recientes muestra las 50 más recientes, ordenadas de la más nueva a la más antigua
  • Cambio promedio en tokens por solicitud: +37.4%
  • Cambio promedio en costo por solicitud: +37.4%
  • Tamaño promedio de solicitud: 369 / 495
    • En el texto original no hay explicación adicional sobre estas dos cifras

Casos recientes de comparación anónima

  • En la tabla de las 50 comparaciones más recientes, la mayoría de los casos registran el mismo porcentaje de aumento tanto en tokens de solicitud de Opus 4.7 como en costo
    • Ejemplo 1: envío 6b5d3ebf, solicitud 23 → 31, costo $0.000345 → $0.000465, variación +34.8%
    • Ejemplo 2: envío 1363973a, solicitud 99 → 130, costo $0.001485 → $0.001950, variación +31.3%
    • Ejemplo 3: envío 17a9645e, solicitud 16 → 20, costo $0.000240 → $0.000300, variación +25.0%
  • También se observa el aumento en solicitudes pequeñas
    • Envío 10c3149a, solicitud 8 → 14, costo $0.000120 → $0.000210, variación +75.0%
    • Envío 8f58e536, solicitud 8 → 13, costo $0.000120 → $0.000195, variación +62.5%
    • Envío 942f5d38, solicitud 12 → 19, costo $0.000180 → $0.000285, variación +58.3%
  • En solicitudes de tamaño medio se repiten aumentos similares
    • Envío 67f5f437, solicitud 188 → 275, costo $0.002820 → $0.004125, variación +46.3%
    • Envío 04249c86, solicitud 176 → 256, costo $0.002640 → $0.003840, variación +45.5%
    • Envío af25da70, solicitud 269 → 501, costo $0.004035 → $0.007515, variación +86.2%
  • En solicitudes grandes también se confirma un patrón similar de aumento
    • Envío c5d75d71, solicitud 2,263 → 3,282, costo $0.0339 → $0.0492, variación +45.0%
    • Envío 4db385b5, solicitud 1,592 → 2,205, costo $0.0239 → $0.0331, variación +38.5%
    • Envío 68375705, solicitud 4,449 → 6,434, costo $0.0667 → $0.0965, variación +44.6%
  • Hay varios envíos con cifras idénticas repetidas
    • Casos con solicitud 175 → 221, costo $0.002625 → $0.003315, variación +26.3% se repiten en varios ID de envío
    • Casos con solicitud 996 → 1,392, costo $0.0149 → $0.0209, variación +39.8% se repiten en varios ID de envío
    • Casos con solicitud 43 → 61, costo $0.000645 → $0.000915, variación +41.9% se repiten en varios ID de envío

1 comentarios

 
GN⁺ 11 일 전
Comentarios en Hacker News
  • Para comparar de forma justa, creo que hay que ver el costo total. 4.7 usa muchos menos tokens de salida que 4.6, y parece que el costo de razonamiento también bajó bastante. Si ves la comparación de Artificial Analysis, 4.7 sale apenas más barato que 4.6, y 4.5 está casi a la mitad. En particular, llama la atención que el costo de reasoning casi se redujo a la mitad al pasar de 4.6 a 4.7. Aun así, en cargas reales como Claude Code, tanto la entrada como el razonamiento parecen pesar bastante, así que todavía no me queda claro cómo se compensarán el alza del precio de entrada y la baja del precio de razonamiento. Las tareas con mucho razonamiento podrían salir más baratas, pero las que requieren poco razonamiento podrían terminar siendo más caras. Para ese tipo de trabajo, yo mejor usaría Codex.

    • Creo que 4.7 piensa menos y también produce menos salida por el forced adaptive thinking. Los usuarios de API tampoco pueden desactivarlo, y es justo el mismo enfoque que hace apenas 2 semanas causaba problemas de calidad en Opus 4.6. En ese momento también hubo opiniones que recomendaban desactivarlo, y recuerdo incluso casos en los que se asignaban 0 tokens de pensamiento. Aún ahora mucha gente se queja de la baja de calidad en Opus 4.7, y yo mismo veo errores muy básicos con frecuencia. Se pasa 10 minutos quemando tokens, pero en la práctica ni siquiera lee bien el código y sale con puro hand-waving, para después contradecirse solo más tarde. Siento que no se puede confiar en Opus con adaptive thinking activado. Si hace falta, incluso puedo dar IDs de feedback de sesión.
    • Algunas personas creen que, incluso con el mismo número de modelo, el comportamiento y el uso de tokens cambian según el momento, así que sería más justo hacer pruebas del mismo modelo en distintos momentos. Aunque el nombre de versión sea el mismo, el funcionamiento interno puede cambiar, así que los resultados recientes quizá no sean adecuados como base para comparaciones futuras.
  • En mi experiencia, casi no noto mejora de rendimiento de 4.6 a 4.7, pero sí se siente clarísimo la velocidad a la que consume el límite. Ayer gasté el límite de 5 horas en solo 2 horas, y cuando activé batched mode para refactorizar, se comió el 30% del límite en 5 minutos y lo cancelé. Después cambié al modo serial y consumía menos, pero aun así era evidente que se gastaba muchísimo más rápido que 4.6. Ahora siento que cada conversación consume alrededor del 5% del límite de 5 horas, cuando antes era como 1~2%. Estoy en el plan Max 5x, así que todavía tengo bastante margen en el límite semanal y lo aguanto, pero como mínimo me gustaría que explicaran esta parte con más transparencia o la mejoraran. La configuración de effort también sigue siendo demasiado opaca y ayuda menos de lo que debería.

    • Lo más molesto es la baja de calidad causada por la aplicación forzada de adaptive thinking. Se come entre 5 y 10% de mi uso de Max 5x y se queda corriendo 10 minutos, pero muchas veces lo que devuelve es demasiado poco confiable. En vez de leer y razonar sobre el código de verdad, tiende a pasar por encima del problema, así que siento que no se puede confiar en Opus con adaptive thinking activado.
    • Por lo que entendí, si dejas pasar más de 5 minutos entre prompts, vuelves a pagar el costo de reinicializar la caché incluso sin usar compact ni clear. Aunque uses compact, no parece que el costo desaparezca por completo; más bien da la impresión de que solo baja un poco los tokens de entrada. Eso sí, también me da curiosidad si la compactación en sí es gratuita.
  • Si el resultado fuera bueno, no me molestaría pagar más, pero ahorita se siente como si Anthropic estuviera yendo en una dirección de seguir haciéndote gastar tokens con una especie de recompensa intermitente. La línea Claude sin duda es más divertida que GPT o Codex, tiene más personalidad, y también más sentido de diseño y estética. La sensación de hacer vibe-coding juntos es divertida, casi como un juego. Pero el resultado casi siempre termina en problemas parecidos: borra tests para que pase, mete código duplicado, abstrae mal, desactiva type safety e ignora requisitos estrictos. Estos problemas no se resolvieron en 4.7 y, diga lo que diga el benchmark, en uso real siguen ahí. Ni siquiera tengo claro si la empresa tiene voluntad de arreglar esto.

    • Yo siento casi lo mismo. Las herramientas de ahora me parecen especialmente útiles como reemplazo de Google, para scaffolding tedioso, code review y búsquedas avanzadas. Como ya se posicionaron en el mercado de coding LLM, parece que ahora sí van a empezar a monetizar en serio, y espero que sigan saliendo modelos donde la mejora de rendimiento sea mínima pero el precio suba más de 40%.
    • Yo creo que a la IA no hay que soltarla sin más, sino guiarla. Si tienes la habilidad para llevarla bien, sí puedes sacarle resultados de alta calidad.
    • Entre esas críticas, me parece demasiado tajante interpretar que Anthropic eligió deliberadamente una estrategia de extracción a corto plazo para inducir más consumo de tokens. Decir desde afuera que uno conoce la estrategia de la empresa me parece forzado. Mi impresión es que, más que ese escenario, es mucho más probable que haya habido fluctuaciones por problemas de infraestructura o capacidad, o que se haya ajustado en la dirección que querían los ingenieros más que los clientes, o que lo hayan hecho más cauteloso por preocupaciones de seguridad, como el mensaje de seguridad relacionado con Mythos. Además, esos factores no son mutuamente excluyentes. Yo tampoco siento que Opus 4.7 sea tremendamente impresionante, pero aún no lo he usado tanto tiempo ni he corrido benchmarks por mi cuenta. Y además, últimamente le estoy pidiendo a Claude cosas mucho más difíciles que hace unas semanas, del lado de Bayesian probabilistic modeling, así que también podría ser que yo mismo esté empujando más fuerte los límites del modelo.
  • Esta comparación parece medir el largo del prompt de dos formas usando la API de conteo de tokens para aislar solo el cambio del tokenizer. También puede pasar que un modelo más inteligente responda más corto y por eso bajen los tokens de salida, así que considerando eso no siento que con esta comparación sola se pueda decir que 4.7 sea realmente más barato. Claro, al final podría resultar más caro o más barato, pero con este material no me parece que ayude mucho a decidir para uso real.

    • Como dato más cercano al uso real, el benchmark de Artificial Analysis reportó que 4.6 max usó unos 160 millones de tokens y 4.7 max unos 100 millones. En el desglose de costos, el costo de entrada subió 800 dólares, pero el de salida bajó 1400 dólares. Claro, cuánto compensa la salida frente a la entrada va a variar muchísimo según el caso de uso, y mientras más bajo sea el effort, más pequeña parece que será esa diferencia.
    • No entiendo por qué dicen que no sirve. El precio de los tokens de entrada en 4.7 se mantuvo igual, pero sí parece claro que el mismo prompt ahora sale aproximadamente 30% más caro en términos de entrada.
    • Sí. Yo también vi que en 4.6 el uso de tokens me bajó cuando empecé a poner cada sesión en max effort. Como iba corrigiendo su pensamiento a medio camino, reducía los intentos fallidos y terminaba el trabajo en menos pasos. En cambio, 4.7 parecía dar más vueltas incluso en tareas básicas. Eso sí, da la impresión de que mejoró un poco en sostener contexto largo por más tiempo.
    • En IA, por más que lo veo, siento que nunca hay una comparación útil con la que todos queden conformes.
  • Por ahora pienso seguir usando Opus 4.5 como principal en VSCode Copilot. En mi flujo de trabajo suelo darle instrucciones bastante detalladas al agente, pero la mayoría de los agentes siempre intenta hacer más de la cuenta. De todo lo que probé, lo que Opus 4.5 hacía mejor era leer el alcance de lo que yo quería incluso con prompts incompletos y tender a hacer exactamente lo necesario. 4.6 tardaba más, pensaba de más y también ampliaba más el alcance de los cambios, y a los GPT superiores les pasaba algo parecido. Otros modelos como Sonnet eran peores que Opus para captar mi intención cuando las instrucciones no eran tan precisas. Así que dejé de experimentar y seguí solo con 4.5; era caro, pero sentía que lo valía. Pero ahora dicen que 4.7 va a reemplazar tanto a 4.5 como a 4.6 en VSCode Copilot, y además con un modifier de 7.5x, así que desde mi perspectiva parece una dirección más lenta y más cara, casi una regresión.

    • Me pregunto si no bastaría con usar Sonnet.
    • Cuando dicen que 4.7 reemplaza tanto a 4.5 como a 4.6, me preguntaba si de verdad eso significa que 4.5 desaparece. Yo también ya me había quedado con 4.5, así que si es cierto sí sería una lástima.
  • Cada vez más, me parece ingenuo asumir que solo con scaling de LLM se puede reemplazar por completo el trabajo de cuello blanco. Los mecanismos de attention o las Hopfield networks parecen modelar solo una parte del cerebro humano, y toda esta ola reciente de parches de memoria agentic más bien parece una prueba de que el transformer SOTA actual por sí solo no basta. Incluso si lo limitas solo al texto, siento que igual se notan los límites; aunque quizá solo estoy repitiendo el argumento al estilo de Yann LeCun.

    • Tal vez sí estés repitiendo justamente ese argumento. La lógica de que los transformers capturan solo un small subset del cerebro humano me parece poco convincente tanto desde la neurobiología como viendo el rendimiento real de los LLM. Los transformers son una arquitectura muy general y con gran capacidad de representación, usada no solo en LLM sino también en video, audio, SLAM, VLA y muchas otras áreas. Que no copien al cerebro humano 1:1 no significa que no puedan llegar a una inteligencia funcionalmente equivalente. El cerebro humano es solo una de las formas de implementación que salieron por evolución. Incluso la idea de LeCun de que los LLM no pueden hacerlo se ha ido rompiendo empíricamente una y otra vez. Incluso en benchmarks como ARC-AGI-3, diseñados para perjudicar a los LLM, todavía no he visto una familia de IA que claramente sea mejor que ellos.
    • Yo siento que con puro scaling ya casi llegamos al techo. Eso sí, la eficiencia sí puede seguir mejorando, y las herramientas alrededor o el harness van a seguir avanzando.
    • Incluso limitándolo al texto, siguen quedando dudas. ¿Por qué todavía no puede escribir bien una novela completa? Aunque bajemos la vara y pensemos solo en una novela corta, siento que no alcanza el nivel de Death in Venice, Candide, The Metamorphosis o Breakfast at Tiffany's. Todo eso ya estaba en el corpus de entrenamiento, así que me pregunto si el problema es solo que nadie ha querido gastar todavía cientos de miles de dólares en tokens para intentarlo.
  • Ayer intenté usar Opus 4.7 para resumir mejores prácticas de un sitio web de una sola página, y con apenas unas 4 rondas de prompts ya me había pasado del límite diario. Y unas 7 más tarde también superé el semanal. Todo el HTML/CSS/JS junto no llegaba ni a 300 líneas, así que sí me impactó bastante ver que el límite de uso se agotara tan rápido.

    • Justo por algo así todavía no he probado Claude. Si fuera una suscripción enterprise, solo crecería la factura, y tampoco parece fácil que un VP mande un anuncio a toda la empresa para migrar de inmediato. También pienso que si primero se van los suscriptores individuales, podría bajar el uso de los datacenters y subir la rentabilidad.
    • Me da curiosidad con qué configuraste el reasoning effort. Según entiendo, Max consume muchísimos más tokens y no se recomienda para la mayoría de los casos de uso. El nuevo valor por defecto, xhigh, también consume más que el valor por defecto anterior, medium.
    • Me da curiosidad qué plan tienes. Si fuera Pro, sí me parecería posible, pero en el plan Max ese nivel sí me sorprendería un poco.
    • Me pregunto si estás usando suscripción de Claude. Hasta donde yo sé, Claude por suscripción no funciona así.
  • El título me parece que debería ser 4.6 to 4.7, no de 4.7 a 4.6.

    • Totalmente de acuerdo.
    • Incluso para quienes leen de izquierda a derecha, Opus 4.6 to 4.7 se ve mucho más natural.
  • Según la explicación de Artificial Analysis, Opus 4.7 costó unos 4,406 dólares para correr el Intelligence Index con Adaptive Reasoning y Max Effort, lo que fue aproximadamente 11% más barato que los 4,970 dólares de 4.6. La puntuación fue 4 puntos más alta, y dicen que esa diferencia se debe a que usó menos tokens de salida incluso considerando el nuevo tokenizer. Aun así, aclaran que el descuento por cached input todavía no está reflejado en ese cálculo y que pronto lo van a incluir.

  • Mi impresión es que la calidad de la conversación mejoró más de lo esperado. Se siente más autocrítico, revisa sus propuestas con más espíritu crítico y en general sus elecciones por defecto me parecen mejores. Puede que la diferencia sea menos marcada para mí porque no he usado tantos harnesses como otras personas aquí, pero creo que mientras menos preparado esté el usuario, más valor podría tener. Incluso en tareas básicas como repasar el historial reciente de reviews o seguir discusiones de producto, 4.6 era útil pero podía convertirse fácilmente en un foot-gun, mientras que 4.7 parece más probable que actúe como un miembro senior del equipo.