Agentes de código: si usan el mismo modelo, ¿por qué algunas solicitudes cuestan 46 veces más?
(dev.to)Mientras usaba OpenCode Go, encontré algo extraño en el dashboard. Era el mismo modelo, con tokens de entrada parecidos (300K vs 257K), pero el costo fue de $0.0096 vs $0.4455: una diferencia de 46 veces. La causa es el caché de prompts.
Los LLM reutilizan cálculos previos cuando se repite el mismo prefijo, y la mayoría de los agentes de código envían en cada turno todo el historial de la conversación (transcript) tal cual. Al principio sale barato gracias al caché, pero cuando la ventana de contexto se llena y ocurre la compactación, el prefijo se rompe y el caché se invalida.
Este artículo analiza el costo oculto del enfoque basado en transcript y, junto con datos reales de una sesión de depuración de 44 turnos (reducción de 80.4% en tokens), presenta un enfoque alternativo que envía solo el estado estructurado. No se trata solo de si hay o no hay caché, sino de la diferencia entre una estructura en la que "no sabes cuándo se romperá el caché" y otra que "no depende del caché".
Aún no hay comentarios.