FlexGen - Ejecutar LLM como ChatGPT en una sola GPU
(github.com/FMInference)- Un motor de generación de alto rendimiento para ejecutar LLM en entornos con GPU limitada, como 16GB T4 / 24GB RTX3090
- Gracias a una descarga de memoria extremadamente rápida, de hasta unas 100 veces, es posible ejecutar un modelo de 175B en una sola GPU
- Comprime al máximo los parámetros y la caché de atención (reduciéndolos hasta 4 bits con casi ninguna pérdida de precisión)
- Se puede escalar fácilmente al agregar más GPU mediante un runtime paralelo distribuido
Aún no hay comentarios.