LLaMA: edición INT8

xguru · 2023-03-10T11:02:01+09:00

Una versión fork de Meta LLaMA-13B que permite ejecutarlo con solo 24 GiB de RAM Es decir, puede operarse con una sola RTX4090/3090 En teoría, LLaMA-65B puede ejecutarse con una sola A100 de 80GB Cambios realizados Se eliminó la estructura de procesamiento paralelo Se cuantizaron los weights de la máquina host Los weights se cargan de forma gradual para evitar problemas de memoria Uso de bitsandbytes y tqdm Configuración de penalización por repetición (valor predeterminado: 1.15) En una máquina Ubuntu con RTX4090 + 64GB, cargar y cuantizar el modelo toma alrededor de 25 segundos

(github.com/tloen)

8 puntos por xguru 2023-03-10 | Aún no hay comentarios. | Compartir por WhatsApp

Una versión fork de Meta LLaMA-13B que permite ejecutarlo con solo 24 GiB de RAM
- Es decir, puede operarse con una sola RTX4090/3090
En teoría, LLaMA-65B puede ejecutarse con una sola A100 de 80GB
Cambios realizados
- Se eliminó la estructura de procesamiento paralelo
- Se cuantizaron los weights de la máquina host
- Los weights se cargan de forma gradual para evitar problemas de memoria
- Uso de bitsandbytes y tqdm
- Configuración de penalización por repetición (valor predeterminado: 1.15)
En una máquina Ubuntu con RTX4090 + 64GB, cargar y cuantizar el modelo toma alrededor de 25 segundos

LLaMA: edición INT8

Lecturas relacionadas

Aún no hay comentarios.