Microsoft LLMLingua - Comprimir prompts para acelerar la inferencia y reducir costos

xguru · 2023-12-22T10:02:02+09:00

Usa modelos de lenguaje pequeños, alineados y bien entrenados como GPT2-small o LLaMA-7B para la compresión Detecta tokens no importantes en el prompt y permite la inferencia con prompts comprimidos en un LLM de caja negra Comprime el prompt y la KV-Cache para acelerar la velocidad de inferencia del LLM y mejorar su reconocimiento de la información clave Logra una compresión de hasta 20x con una pérdida mínima de rendimiento Reduce costos al disminuir el prompt y el contexto generado Permite soportar contextos más largos al aumentar la densidad de información importante dentro del prompt

(github.com/microsoft)

10 puntos por xguru 2023-12-22 | Aún no hay comentarios. | Compartir por WhatsApp

Usa modelos de lenguaje pequeños, alineados y bien entrenados como GPT2-small o LLaMA-7B para la compresión
Detecta tokens no importantes en el prompt y permite la inferencia con prompts comprimidos en un LLM de caja negra
- Comprime el prompt y la KV-Cache para acelerar la velocidad de inferencia del LLM y mejorar su reconocimiento de la información clave
- Logra una compresión de hasta 20x con una pérdida mínima de rendimiento
Reduce costos al disminuir el prompt y el contexto generado
Permite soportar contextos más largos al aumentar la densidad de información importante dentro del prompt

Microsoft LLMLingua - Comprimir prompts para acelerar la inferencia y reducir costos

Lecturas relacionadas

Aún no hay comentarios.