- Usa modelos de lenguaje pequeños, alineados y bien entrenados como GPT2-small o LLaMA-7B para la compresión
- Detecta tokens no importantes en el prompt y permite la inferencia con prompts comprimidos en un LLM de caja negra
- Comprime el prompt y la KV-Cache para acelerar la velocidad de inferencia del LLM y mejorar su reconocimiento de la información clave
- Logra una compresión de hasta 20x con una pérdida mínima de rendimiento
- Reduce costos al disminuir el prompt y el contexto generado
- Permite soportar contextos más largos al aumentar la densidad de información importante dentro del prompt
Aún no hay comentarios.