Hasta 25% más de reducción frente a las técnicas existentes de compresión de KV, con mejor rendimiento — CASK

(arxiv.org)

9 puntos por skyline23 15 일 전 | 2 comentarios | Compartir por WhatsApp

CASK es un artículo que propone un enfoque estructural (basado en roles), en lugar del método existente de pruning basado en la importancia de los tokens, para resolver el problema del crecimiento de la KV cache durante la inferencia de LLM.

También resulta llamativo que este estudio se obtuvo en solo 5 días y es el resultado de dos investigadores independientes que trabajaron sin profesor asesor.

📌 Definición del problema

Durante una inferencia larga con chain-of-thought, la KV cache crece rápidamente, lo que provoca:

aumento abrupto en el uso de memoria
incremento de la latencia de inferencia
deterioro del rendimiento en razonamiento de largo alcance

Método existente:

basado en token importance scoring
eviction de tokens con puntaje bajo

❌ Limitaciones del enfoque existente

Resultados experimentales del artículo:

incluso si se mejora de forma sofisticada el importance scoring
→ el cambio en el conjunto real de tokens que se conservan es limitado

Es decir:

solo mejorar la estrategia de eviction
tiene límites para mejorar el rendimiento y la eficiencia

🔥 Idea central

CASK separa los tokens no por importancia, sino según su rol.

Core

contribuyen directamente a la generación de la salida final
representan el estado clave del razonamiento
siempre se conservan

Scratch

estados generados durante cálculos intermedios y procesos de exploración
pueden incluir información redundante o innecesaria
objetivo de compresión y fusión

⚙️ Cómo funciona

Prefix Phase

segmento de entrada (prompt)
se realiza cierta eviction de KV

Decode Phase

segmento donde avanza la inferencia
se aplica compresión selectiva solo al área Scratch

👉 Diferencia frente a lo existente:

eliminación simple → preservación selectiva + compresión estructural

📊 Rendimiento

Según los resultados del artículo:

frente a las técnicas existentes de compresión de KV
→ hasta 25% adicional de ahorro de memoria
con el mismo presupuesto de KV cache
→ mantiene una mayor precisión
en algunos tramos
→ logra mejor rendimiento con menos KV cache

Ejemplo:

CASK (KV 384) > método existente (KV 512)

👉 Reduce el uso de memoria y mejora el rendimiento al mismo tiempo.

📌 Características técnicas

token-level pruning → structure-aware compression
enfoque centrado en eviction → estrategia de preserve + reuse
refuerza la reutilización de información durante el proceso de razonamiento

📌 Significado

CASK plantea un enfoque que cambia la optimización de la KV cache

de “cuánto descartar”
a “qué debe conservarse obligatoriamente”

🚀 Resumen

hasta 25% adicional de reducción de KV cache
mismo o mayor rendimiento de inferencia
propone un método de gestión de KV basado en estructura

2 comentarios

wogns3623 14 일 전

Si usaron IA para escribir el paper, me gustaría saber cómo la usaron. Me llamó la atención la parte donde mencionan que hicieron todo, desde la ideación hasta los experimentos, en solo 5 días, así que se los pregunto.

skyline23 15 일 전

¡Lo dejo adicionalmente porque no se puede editar!

Enlace al artículo
https://arxiv.org/abs/2604.10900
Enlace a GitHub
https://github.com/Skyline-23/CASK