Problema en el plan Claude Code Pro Max 5x: la cuota se agota en 1.5 horas incluso con un uso moderado
(github.com/anthropics)- En el plan Pro Max 5x (contexto de 1M), incluso con un nivel moderado de preguntas y respuestas y trabajo de desarrollo, se produce un exceso del límite de tokens en apenas 1.5 horas
- Se señala como causa un error por el cual los tokens
cache_readse calculan con la tarifa completa (1.0x), lo que elimina el efecto del caché y provoca un consumo acelerado - Las invocaciones automáticas de sesiones en segundo plano, la compresión automática (auto-compact) y las entradas de contexto grandes aumentan conjuntamente la velocidad de consumo
- La comunidad analiza como causas principales el acortamiento del TTL del caché (de 1 hora a 5 minutos) y el fenómeno de invalidación de caché (cache busting)
- Anthropic está trabajando en reducir el contexto predeterminado (a 400k), mejoras de UX y optimización de invocaciones inactivas, mientras recopila comentarios de usuarios
Problema de agotamiento acelerado de cuota en el plan Pro Max 5x
- Se reportó que en el plan Pro Max 5x (claude-opus-4-6, contexto de 1M) la cuota se agota en apenas 1.5 horas, incluso con preguntas y respuestas de nivel intermedio y desarrollo ligero
- En una sesión previa de 5 horas de desarrollo intensivo, el consumo fue normal, pero después del reinicio comenzó el consumo acelerado
- El problema ocurrió en Claude Code CLI sobre WSL2, en una sola sesión (con 2 compresiones automáticas)
- Se apunta como causa principal a un error por el cual los tokens
cache_readse calculan con la tarifa completa (1.0x)- En condiciones normales,
cache_readdebería calcularse con una proporción de 1/10; de lo contrario, el efecto del caché desaparece - El uso de tokens se analizó a través del objeto
usageen los registros de sesión (~/.claude/projects/.../*.jsonl)
- En condiciones normales,
- Las invocaciones automáticas de sesiones en segundo plano, el alto costo del procesamiento de compresión automática (auto-compact) y las entradas grandes derivadas de la ventana de contexto de 1M se combinan para acelerar el consumo
- Según el análisis de la comunidad, algunos usuarios señalan como causas principales el acortamiento del TTL del caché (de 1 hora a 5 minutos) y el fenómeno de invalidación de caché (cache busting)
- El equipo de Anthropic está trabajando en reducir el contexto predeterminado (a 400k), mejoras de UX y optimización de invocaciones inactivas, y solicita más datos mediante comentarios de usuarios
Consumo de tokens medido
-
Ventana 1 (15:00–20:00, 5 horas, desarrollo intensivo)
- 2,715 llamadas a la API, Cache read 1,044M, Cache create 16.8M, salida de 1.15M tokens
- Entrada efectiva (aplicando la proporción de 1/10): 121.8M tokens
- Se realizaron implementación de servidor Express + app iOS, pipeline de graphify y coordinación multiagente basada en SPEC
-
Ventana 2 (20:00–21:30, 1.5 horas, uso moderado)
- Sesión principal (vibehq): API 222 veces, Cache read 23.2M, Cache create 1.4M, salida 91k
- Sesiones en segundo plano (incluyendo token-analysis y career-ops): 691 llamadas en total, Cache read 103.9M, salida 387k
- Total de 13.1M tokens efectivos (aplicando la proporción de 1/10) → en condiciones normales, no habría exceso de cuota
- En la práctica fueron 105.7M tokens (si se calculan a 1.0x) → equivalente a 70.5M por hora, en línea con el agotamiento de la cuota
Resumen de los principales problemas
-
1. Error en el cálculo del límite de cobro para tokens Cache read
- Lo esperado:
cache_readse calcula con una proporción de 1/10 - Lo real: se calcula con la tarifa completa, lo que anula el efecto del caché
- En un entorno de contexto de 1M, se envían entre 100k y 960k tokens por llamada, por lo que más de 200 llamadas pueden agotar la cuota en minutos
- Lo esperado:
-
2. Consumo de cuota compartida por sesiones en segundo plano
- Las sesiones inactivas (como token-analysis y career-ops) también siguen consumiendo la cuota compartida mediante llamadas automáticas de compresión y posprocesamiento
-
3. Llamadas de alto costo de la compresión automática (auto-compact)
- Antes de comprimir, se envía todo el contexto (~966k tokens) como
cache_creation, lo que hace que la llamada más cara ocurra automáticamente
- Antes de comprimir, se envía todo el contexto (~966k tokens) como
-
4. Efectos secundarios de la ventana de contexto de 1M
- Un contexto grande dispara la cantidad de tokens por llamada y acelera la velocidad de consumo de cuota
Pasos para reproducirlo
- Ejecutar Claude Code con el modelo Opus en el plan Pro Max 5x
- Incluir unos 30 archivos de reglas en
~/.claude/rules/(sobrecarga de 19k tokens) - Realizar tareas centradas en herramientas como lectura de archivos, build y pruebas
- Verificar el aumento del contexto con el comando
/context - Confirmar la caída abrupta de la cuota tras 200–300 llamadas
- Mantener 2–3 sesiones activas en otra terminal
- Confirmar que la cuota vuelve a agotarse en poco tiempo incluso después del reinicio
Comparación entre el comportamiento esperado y el real
-
Esperado:
cache_readdebe calcularse con una proporción de 1/10- Las sesiones inactivas deben tener un consumo mínimo
- La compresión automática no debe provocar un consumo excesivo
- Con uso moderado, debería poder durar entre 2 y 3 horas
-
Real:
- Se agota en 1.5 horas
- Las sesiones en segundo plano representan el 78% del consumo
- Se enviaron 105.7M tokens en total, lo que sugiere que
cache_readse calculó con la tarifa completa
Propuestas de mejora
- Aclarar el método de cálculo de
cache_read— especificar en la documentación la proporción real usada para el límite de cobro - Límite basado en tokens efectivos — corregir el cálculo para que
cache_readuse la proporción de 1/10 - Detección de sesiones inactivas — impedir llamadas automáticas de sesiones inactivas o mostrar advertencias
- Visualización en tiempo real del consumo de tokens — mostrar el uso de
cache_read,cache_create, entrada y salida por separado - Predicción de costo basada en contexto — mostrar el costo estimado en tokens antes de ejecutar la tarea
Análisis y discusión de la comunidad
-
cnighswonger
- Recolectó durante 24 horas datos de 1,500 llamadas usando el interceptor
claude-code-cache-fix - Tras comprobar tres hipótesis (
cache_read0.0x, 0.1x y 1.0x), solo el modelo 0.0x mostró resultados consistentes en una ventana de 5 horas (CV 34.4%) - Conclusión:
cache_readprácticamente no afecta la cuota en la práctica, y el caché funciona con normalidad - Aun así, se necesita validación adicional con datos de una sola cuenta
- Recolectó durante 24 horas datos de 1,500 llamadas usando el interceptor
-
henu-wang
- Tras una regresión en la que el TTL del caché se redujo de 1 hora a 5 minutos, cada pausa de sesión provoca
cache_create, generando un costo 12.5 veces mayor - Cuanto más largo es el contexto, más aumenta el costo de forma no lineal
- Como solución temporal, propone mantener sesiones cortas, usar activamente el comando
/compacty precargar el contexto clave enCLAUDE.md
- Tras una regresión en la que el TTL del caché se redujo de 1 hora a 5 minutos, cada pausa de sesión provoca
-
bcherny (equipo de Anthropic)
- Reconoció que con una ventana de contexto de 1M, los fallos de caché del prompt tienen un costo alto
- Están probando mejoras de UX (guiar a usar
/clearal reanudar sesiones largas) y una reducción del contexto predeterminado a 400k - Confirmaron casos en los que tareas inactivas consumen demasiados tokens al usar múltiples agentes y plugins, y están trabajando en mejoras de limpieza automática y programación
-
wadabum
- Señaló un bug en el que el caché no acierta en absoluto en sesiones nuevas (#47098, #47107)
- El prompt del sistema basado en
git statusy los bloques deCLAUDE.mdcambian en cada sesión, provocando invalidación de caché (cache busting) - cnighswonger respondió que el interceptor sí realiza cierta estabilización del orden, pero que el problema de
git-statusrequiere una corrección aparte
Resumen de propuestas de la comunidad
- RockyMM: cuando una sesión alcance el límite, inducir una reanudación tras un resumen automático y acortar el TTL a 10 minutos
- mikebutash: reportó que en el plan Pro solo eran posibles 2 prompts por cada 5 horas, y confirmó una mejora de 3–4 veces al volver a la versión v2.1.81 e instalar cache-fix
- wutlu: mitigar el problema reiniciando la sesión por cada tarea
- dprkh: ayudar a identificar la causa compartiendo habilidades del modo debug (
Skill.md)
Conclusión
- El agotamiento acelerado de la cuota en el plan Pro Max 5x se atribuye a un efecto combinado del comportamiento del caché, la regresión del TTL, la expansión del contexto y las llamadas en segundo plano
- La comunidad plantea que la causa principal no sería un error en el cálculo de
cache_read, sino la invalidación del caché y la reducción del TTL - El equipo de Anthropic está trabajando en reducir el contexto predeterminado, mejorar la UX del caché y optimizar las invocaciones inactivas, y solicita más datos mediante comentarios de usuarios (
/feedback)
2 comentarios
En términos de calidad, no tiene reemplazo.
Ojalá se pudiera usar más con un parche simple.
Opiniones de Hacker News
Soy Boris del equipo de Claude Code. Tras investigar los problemas reportados recientemente, encontramos dos causas principales
CLAUDE_CODE_AUTO_COMPACT_WINDOW=400000 claudeSi estás teniendo este problema, enviar comentarios con el comando
/feedbackayuda con la depuración/clearno es una solución. Si vacías el caché, al final igual hay que reconstruirlo, así que el costo es el mismo. Guiar a los usuarios por UX hacia contextos más pequeños degrada la calidad del servicio. Si el problema es el costo, deberían corregir el precio o la arquitecturaÚltimamente Claude estaba notablemente más lento e ineficiente. Aunque le indicara archivos concretos, se quedaba atrapado más de 5 minutos en bucles de exploración y llegaba muy rápido al límite de sesión. Usándolo solo tres veces al día desaparecía el 25% del límite semanal. Por eso me cambié al plan de Codex de $100, y es mucho mejor en precisión y generosidad. Eso sí, me molesta el tono de Codex, así que agregué instrucciones aparte en Agents.md. Antes Claude Code tenía mejor sensibilidad de UI, pero para depuración de backend y resolución de problemas complejos Codex va por delante. Ahora mismo recomiendo comparar Codex con el plan de $20 de Cursor
Revisando los issues, entendí por qué Anthropic cierra tan rápido los tickets. La mayoría parece ruido generado por IA. Mi solución fue la siguiente
Lo que más me molesta es que Anthropic haya impuesto a la fuerza el modelo de 1M
/model opuso/model sonnetYa da la impresión de que se acerca el fin de la era de los subsidios. En la comunidad de Google Gemini también están explotando las quejas por la reciente reducción de cuota (enlace al issue). Al final yo también me cambié a la combinación de Kiro IDE y Codex CLI, y estoy satisfecho
Me inquieta que el issue que señalaba la causa raíz del problema haya sido cerrado como “Not planned”
Al hacer rollback a la versión 2.1.34, se resolvieron la mayoría de los problemas de cuota y de caché.
Agregué
"effortLevel": "high","CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING": 1, etc., a~/.claude/settings.json, y eliminé las demás versiones.Adaptive thinking sigue estando incompleto, pero si mejora en el futuro podría ayudar. Aun así, estoy pensando en cambiarme a Codex
CLAUDE_CODE_MAX_OUTPUT_TOKENS=64000,DISABLE_AUTOUPDATER=1, etc., en~/.bashrcTambién hubo problemas parecidos en modelos inferiores. Creo que un trato justo empieza con mediciones transparentes. Voy a cancelar la suscripción de este mes
Este año probé hacer la declaración de impuestos con agentes de IA. Usé Opus 4.6, Codex 5.4 y Antigravity 3.1, cada uno con un plan de $20.
Codex lo resolvió perfectamente en 12 minutos, Antigravity omitió una página pero se corrigió rápido. Claude Code se detuvo por límite de uso excedido, y aun tras reintentar seguía teniendo errores. Estuvo por debajo de lo esperado
Desde el aviso de actualización publicado en Reddit, Claude cambió hasta el punto de que ya no se puede usar para programación cotidiana. Los créditos de la cuenta Pro se agotaban en una hora, así que volví a Gemini o ChatGPT
Al final, parece que la estructura de cobro por tokens de Anthropic está diseñada de forma desfavorable para los usuarios comunes. Cuando realmente lo usas, se nota enseguida cuánto dinero querían sacar