FlexGen - Ejecutar LLM como ChatGPT en una sola GPU

xguru · 2023-02-22T10:16:02+09:00

Un motor de generación de alto rendimiento para ejecutar LLM en entornos con GPU limitada, como 16GB T4 / 24GB RTX3090 Gracias a una descarga de memoria extremadamente rápida, de hasta unas 100 veces, es posible ejecutar un modelo de 175B en una sola GPU Comprime al máximo los parámetros y la caché de atención (reduciéndolos hasta 4 bits con casi ninguna pérdida de precisión) Se puede escalar fácilmente al agregar más GPU mediante un runtime paralelo distribuido

(github.com/FMInference)

14 puntos por xguru 2023-02-22 | Aún no hay comentarios. | Compartir por WhatsApp

Un motor de generación de alto rendimiento para ejecutar LLM en entornos con GPU limitada, como 16GB T4 / 24GB RTX3090
Gracias a una descarga de memoria extremadamente rápida, de hasta unas 100 veces, es posible ejecutar un modelo de 175B en una sola GPU
Comprime al máximo los parámetros y la caché de atención (reduciéndolos hasta 4 bits con casi ninguna pérdida de precisión)
Se puede escalar fácilmente al agregar más GPU mediante un runtime paralelo distribuido

FlexGen - Ejecutar LLM como ChatGPT en una sola GPU

Lecturas relacionadas

Aún no hay comentarios.