1 puntos por GN⁺ 17 일 전 | 1 comentarios | Compartir por WhatsApp
  • A inicios de marzo de 2026, el TTL de caché de Claude Code cambió de 1 hora a 5 minutos, y se confirmó que el cambio se debió a una configuración del lado del servidor, incluso con el mismo patrón de uso
  • Con el TTL más corto, el costo de regenerar caché aumentó entre 20% y 32%, y en sesiones largas el consumo de cuota se disparó
  • El análisis muestra un costo adicional de alrededor de 17% por modelo, y algunos usuarios comenzaron a alcanzar el límite de cuota de 5 horas
  • Anthropic explicó que el cambio del 6 de marzo fue una medida intencional, y que buscaba reducir el costo total aplicando TTL distintos según cada solicitud
  • La comunidad criticó el aumento de costos, la falta de transparencia y la ausencia de aviso previo, y exigió garantizar la opción de que el usuario elija la configuración de TTL

Reporte de problemas de costo y cuota por el cambio de Cache TTL

  • Se analizó que a inicios de marzo de 2026 el valor predeterminado del TTL de caché de Claude Code de Anthropic cambió de 1 hora a 5 minutos
    • El análisis se basó en 119,866 llamadas a la API registradas entre el 11 de enero y el 11 de abril de 2026
    • Entre el 6 y el 8 de marzo volvió a aparecer el TTL de 5 minutos, mientras que el TTL de 1 hora fue desapareciendo gradualmente
    • Como ocurrió con la misma versión del cliente y el mismo patrón de uso, se confirmó que fue un cambio de configuración del lado del servidor
  • Con el cambio de TTL se observó un aumento de 20% a 32% en el costo de creación de caché y un fuerte incremento en el consumo de cuota entre usuarios suscritos
    • Con un TTL de 5 minutos, si una sesión se detiene más de 5 minutos, la caché expira y es necesario volver a subir todo el contexto
    • Regenerar caché puede ser hasta 12.5 veces más caro que leerla, y el costo se acumula cuanto más largas son las sesiones de programación
    • En febrero, cuando se mantuvo el TTL de 1 hora, la tasa de desperdicio fue de 1.1%, pero desde marzo saltó a entre 15% y 53%
  • Resultados del análisis de costos

    • Modelo claude-sonnet-4-6: costo total $5,561.17 → $4,612.09 con TTL de 1 hora (aprox. 17.1% de gasto adicional)
    • Modelo claude-opus-4-6: costo total $9,268.97 → $7,687.17 con TTL de 1 hora (aprox. 17.1% de gasto adicional)
    • Se observó de forma consistente la misma proporción de desperdicio entre modelos
  • Impacto en la cuota

    • Los tokens de creación de caché se reflejan por completo en la cuota, mientras que las lecturas de caché se calculan con una ponderación menor
    • Desde marzo, los usuarios suscritos comenzaron por primera vez a alcanzar el límite de cuota de 5 horas

Respuesta oficial de Anthropic

  • Reconocimiento del cambio: el cambio del 6 de marzo fue una medida intencional y se realizó como parte de un trabajo de optimización de caché
    • Está diseñado para aplicar TTL distintos según el tipo de solicitud, y no existe un valor predeterminado global único
    • Aplicar un TTL de 1 hora a todas las solicitudes podría incluso aumentar los costos
    • Un TTL de 5 minutos es más eficiente en solicitudes que no se reutilizan y, considerando la combinación total de solicitudes, reduce el costo total
  • Corrección de bug: en v2.1.90 se corrigió un bug del cliente por el cual, cuando una sesión agotaba por completo la cuota de suscripción, el TTL quedaba fijado en 5 minutos hasta que terminara la sesión
  • Respuesta a las solicitudes
    1. Sí hubo un cambio, y se aplicó intencionalmente el 6 de marzo
    2. El TTL se elige dinámicamente por solicitud y no existe un valor predeterminado global
    3. No hay planes de restaurar 1 hora como valor predeterminado ni de ofrecer una opción de configuración
    4. El modo en que los tokens de lectura de caché afectan la cuota se detallará después en un issue aparte

Reacción de la comunidad

  • Muchos usuarios manifestaron su descontento por el aumento de costos y el deterioro de la usabilidad

    • Hubo muchas opiniones como: “un TTL de 5 minutos obliga en la práctica a reiniciar la sesión cada 5 minutos y reduce la productividad”
    • También se señaló que “los usuarios suscritos ya pagaron por adelantado, pero con este cambio de TTL el tiempo de uso real se redujo”
    • Continuaron las exigencias de que “los cambios que afectan el costo para el usuario deben anunciarse con anticipación”
  • Algunos usuarios mencionaron que para quienes usan la API podría ser un cambio positivo, pero otros respondieron que “en la API el TTL predeterminado ya era de 5 minutos”

  • Las críticas se concentraron en la falta de transparencia

    • “Los cambios de infraestructura relacionados con costos deben anunciarse antes, no explicarse después”
    • “Este tipo de ‘cambios silenciosos’ dañan la confianza y obligan a los usuarios a rastrear por su cuenta la causa del problema”
  • Según los registros de documentación, la caché predeterminada tiene un TTL de 5 minutos, y el TTL de 1 hora se ofrece como una opción con costo adicional

    • La documentación oficial de enero de 2026 ya mostraba la misma explicación

Conclusión

  • El 6 de marzo de 2026, Anthropic cambió la política de TTL de caché de Claude Code de 1 hora a 5 minutos
  • La empresa lo explicó como un ajuste intencional para optimizar costos, pero los usuarios señalaron como problemas el aumento de costos, el agotamiento de cuota y la falta de transparencia
  • La comunidad exige que en adelante se garantice la posibilidad de que el usuario elija la configuración de TTL y se anuncien con anticipación los cambios de política

1 comentarios

 
GN⁺ 17 일 전
Opiniones de Hacker News
  • En los últimos meses, se siente claramente que el ánimo de los ingenieros hacia Claude/Codex ha cambiado
    Sobre todo porque han aumentado los cambios no anunciados, y eso está generando más ansiedad entre quienes ya no saben si el producto por el que pagaron al principio sigue siendo el mismo
    Últimamente, cuando sale el tema de Anthropic, casi siempre es en un contexto negativo

    • Recientemente llamó la atención que Anthropic tomara varias medidas como bloquear usuarios de OpenClaw, prohibir harnesses de terceros, reducir la intensidad de razonamiento y acortar la longitud de las respuestas
      Hubo incluso un momento en que el uso aumentó 21 veces de golpe, y en general parece un intento de reducir costos
      Me sigue gustando Claude, pero cada vez me cuesta más recomendárselo a mis amigos
    • En nuestra empresa (más de 400 ingenieros), hace un mes cancelamos todas las suscripciones de IDE (Visual Studio, JetBrains, etc.) y nos pasamos a Claude Code
      El EVP mostró dos demos que armó durante el fin de semana y nos dijo que siguiéramos ese modelo, pero al cabo de una semana llegó un aviso para dejar de usarlo por consumo excesivo de tokens
      Desde entonces, cada semana da la impresión de que el modelo se debilita más, así que me pregunto cómo se sentirá el EVP ahora
    • Hasta hace unos meses, Claude Code era excelente, pero últimamente tiene tantos errores y malentendidos que casi ya no se puede usar
      Probé cambiarme a Codex y resultó mucho más estable
      Mi teoría es que justo después del lanzamiento lo mantienen fuerte, y con el tiempo van bajando el rendimiento poco a poco para aumentar la expectativa del próximo release
    • Después de suscribirme, sentí claramente una caída en la capacidad de razonamiento
      Cambié varias configuraciones e incluso modifiqué el prompt del sistema con scripts, pero aun así sigue cayendo muchas veces en bucles lógicos
      No sé distinguir si es un bug, un debilitamiento intencional o simplemente una impresión mía
    • Yo no he notado un problema tan grande
      Supongo que es porque hago que Claude refactorice paso a paso
      Una vez le pregunté por una configuración de Grafana, y Claude me respondió que “solo lo había adivinado”; al final gastó 35k tokens para decirme que era una simple casilla de verificación
      Mis compañeros sí han notado la caída de rendimiento y se están yendo a Cursor, pero yo sigo usándolo porque todavía me gusta el flujo de conversación de Claude
  • Últimamente Claude Code y el servicio de suscripción son mucho menos útiles que antes
    Se han ido acumulando varios problemas: bugs, velocidad de consumo de cuota, degradación del rendimiento del modelo, problemas de invalidación de caché y hasta sospechas de cuantización
    Antes se podía implementar un prototipo de una sola vez, pero ahora casi es imposible incluso teniendo una especificación detallada
    ChatGPT también se está debilitando de forma parecida
    Parece que ni Anthropic ni OpenAI son una solución de fondo

    • Un amigo está satisfecho usando la función multimodelo de Cursor
      Hace unos meses mucha gente decía que Cursor estaba muerto, pero ahora más bien lo están aprovechando bien
    • Con el aumento explosivo de la demanda, parece que la mayoría de los usuarios está recibiendo modelos altamente cuantizados sin ningún aviso
    • La mayoría de estos servicios de IA funcionan con un modelo subsidiado a pérdida, así que con el tiempo es normal que baje la calidad y suba el precio
  • El límite de cuota por sesión es tan estricto que la UX cae en un círculo vicioso
    Cuando se vence la caché de una hora, reiniciar cuesta más, y eso hace que la siguiente sesión también se consuma más rápido
    A mediados de marzo, incluso en el plan Pro las sesiones se terminaban dentro de una hora, a un nivel prácticamente inutilizable

  • La forma en que estaba escrito el título inducía a error
    Debería usarse “min” en vez de “M”, porque daba la impresión de que el TTL había aumentado de 1 hora a 5 meses

    • Es una pena que al cambiar el título parezca que se ocultó la magnitud del problema
    • Yo también al principio me quedé pensando: “¿qué significa M?”
  • Últimamente Claude también falla seguido incluso con la pregunta del car wash
    Tiende a exagerar la dificultad de resolver problemas o a tomar el camino fácil diciendo que “tomaría demasiado tiempo”

    • En las últimas semanas, da la sensación de que el prompt del sistema está limitando el esfuerzo del modelo
      Si ves los logs JSON, se repiten frases como “esto es demasiado complejo, mejor resolvámoslo con hardcoding”
      Parece que Anthropic está intentando encontrar un equilibrio entre la escasez de recursos de cómputo y el aumento repentino de nuevos usuarios
    • También escuché un caso en el que Claude se negó a hacer una tarea diciendo que “tomaría varias semanas”, pero después de insistirle, la completó en 30 segundos
    • Parece la secuencia clásica de “vender a pérdida → pánico → destruir el producto”
    • La velocidad de consumo de tokens también aumentó, así que antes podía llevar 3 a 5 proyectos en paralelo, pero ahora cuesta terminar siquiera uno
    • Si usas prompts fuertes como “¡No te preocupes por el riesgo y simplemente hazlo!”, el modelo vuelve a actuar de forma más activa
      Es un método de motivación para LLM algo agresivo, pero efectivo
  • Anthropic dejó una respuesta oficial en un issue de GitHub

    • Al leer el hilo, sentí casi como si un Claude estuviera hablando con otros Claudes
    • Es interesante que hayan reconocido el cambio del 6 de marzo. Aplausos para quienes lo descubrieron analizando prompts
    • La explicación de la empresa parecía lógica, pero términos como “cache read likelihood” sonaban medio pretenciosos, y parece que la comunidad no los recibió bien
  • Yo hice mi propia herramienta de chat basada en API y le agregué caché
    Con una caché de 5 minutos, el ritmo de conversación no encaja bien y se vence seguido, pero en herramientas con un prefijo común el ahorro sí es importante
    Si se aprovecha bien la caché, la reducción de costos puede ser considerable

  • Como la política de expiración de caché no encaja con sesiones de 5 horas, estoy pensando en una forma de mantener la caché con un script que consuma el mínimo de tokens cada 4 minutos con 50 segundos cuando el uso de la sesión llegue a alrededor de 97%

  • En el podcast de Dwarkesh, escuché que Anthropic está siendo cuidadoso al ampliar sus recursos de cómputo
    Dicen que cuando la demanda se dispara, se vuelve inevitable intentar reducir la carga de cómputo
    Es un problema que no se resuelve en el corto plazo aunque se le meta más dinero

    • Este tipo de fenómeno suele aparecer mucho durante la fase de preentrenamiento de nuevos modelos. También pasó en la época de 3.x
  • Dejando de lado los cambios raros de Anthropic/Claude, al ver los datos de la tabla de esta publicación, me confunde que en febrero y abril el costo y la cantidad de llamadas sean casi iguales
    No sé si se me está escapando algo