- Una versión fork de Meta LLaMA-13B que permite ejecutarlo con solo 24 GiB de RAM
- Es decir, puede operarse con una sola RTX4090/3090
- En teoría, LLaMA-65B puede ejecutarse con una sola A100 de 80GB
- Cambios realizados
- Se eliminó la estructura de procesamiento paralelo
- Se cuantizaron los weights de la máquina host
- Los weights se cargan de forma gradual para evitar problemas de memoria
- Uso de
bitsandbytes y tqdm
- Configuración de penalización por repetición (valor predeterminado: 1.15)
- En una máquina Ubuntu con RTX4090 + 64GB, cargar y cuantizar el modelo toma alrededor de 25 segundos
Aún no hay comentarios.