10 puntos por xguru 2023-12-22 | Aún no hay comentarios. | Compartir por WhatsApp
  • Usa modelos de lenguaje pequeños, alineados y bien entrenados como GPT2-small o LLaMA-7B para la compresión
  • Detecta tokens no importantes en el prompt y permite la inferencia con prompts comprimidos en un LLM de caja negra
    • Comprime el prompt y la KV-Cache para acelerar la velocidad de inferencia del LLM y mejorar su reconocimiento de la información clave
    • Logra una compresión de hasta 20x con una pérdida mínima de rendimiento
  • Reduce costos al disminuir el prompt y el contexto generado
  • Permite soportar contextos más largos al aumentar la densidad de información importante dentro del prompt

Aún no hay comentarios.

Aún no hay comentarios.