CASK es un artículo que propone un enfoque estructural (basado en roles), en lugar del método existente de pruning basado en la importancia de los tokens, para resolver el problema del crecimiento de la KV cache durante la inferencia de LLM.
También resulta llamativo que este estudio se obtuvo en solo 5 días y es el resultado de dos investigadores independientes que trabajaron sin profesor asesor.
📌 Definición del problema
Durante una inferencia larga con chain-of-thought, la KV cache crece rápidamente, lo que provoca:
- aumento abrupto en el uso de memoria
- incremento de la latencia de inferencia
- deterioro del rendimiento en razonamiento de largo alcance
Método existente:
- basado en token importance scoring
- eviction de tokens con puntaje bajo
❌ Limitaciones del enfoque existente
Resultados experimentales del artículo:
- incluso si se mejora de forma sofisticada el importance scoring
→ el cambio en el conjunto real de tokens que se conservan es limitado
Es decir:
- solo mejorar la estrategia de eviction
tiene límites para mejorar el rendimiento y la eficiencia
🔥 Idea central
CASK separa los tokens no por importancia, sino según su rol.
Core
- contribuyen directamente a la generación de la salida final
- representan el estado clave del razonamiento
- siempre se conservan
Scratch
- estados generados durante cálculos intermedios y procesos de exploración
- pueden incluir información redundante o innecesaria
- objetivo de compresión y fusión
⚙️ Cómo funciona
Prefix Phase
- segmento de entrada (
prompt) - se realiza cierta eviction de KV
Decode Phase
- segmento donde avanza la inferencia
- se aplica compresión selectiva solo al área Scratch
👉 Diferencia frente a lo existente:
- eliminación simple → preservación selectiva + compresión estructural
📊 Rendimiento
Según los resultados del artículo:
-
frente a las técnicas existentes de compresión de KV
→ hasta 25% adicional de ahorro de memoria -
con el mismo presupuesto de KV cache
→ mantiene una mayor precisión -
en algunos tramos
→ logra mejor rendimiento con menos KV cache
Ejemplo:
- CASK (KV 384) > método existente (KV 512)
👉 Reduce el uso de memoria y mejora el rendimiento al mismo tiempo.
📌 Características técnicas
- token-level pruning → structure-aware compression
- enfoque centrado en eviction → estrategia de preserve + reuse
- refuerza la reutilización de información durante el proceso de razonamiento
📌 Significado
CASK plantea un enfoque que cambia la optimización de la KV cache
- de “cuánto descartar”
- a “qué debe conservarse obligatoriamente”
🚀 Resumen
- hasta 25% adicional de reducción de KV cache
- mismo o mayor rendimiento de inferencia
- propone un método de gestión de KV basado en estructura
2 comentarios
Si usaron IA para escribir el paper, me gustaría saber cómo la usaron. Me llamó la atención la parte donde mencionan que hicieron todo, desde la ideación hasta los experimentos, en solo 5 días, así que se los pregunto.
¡Lo dejo adicionalmente porque no se puede editar!
Enlace al artículo
https://arxiv.org/abs/2604.10900
Enlace a GitHub
https://github.com/Skyline-23/CASK