8 puntos por xguru 2023-03-10 | Aún no hay comentarios. | Compartir por WhatsApp
  • Una versión fork de Meta LLaMA-13B que permite ejecutarlo con solo 24 GiB de RAM
    • Es decir, puede operarse con una sola RTX4090/3090
  • En teoría, LLaMA-65B puede ejecutarse con una sola A100 de 80GB
  • Cambios realizados
    • Se eliminó la estructura de procesamiento paralelo
    • Se cuantizaron los weights de la máquina host
    • Los weights se cargan de forma gradual para evitar problemas de memoria
    • Uso de bitsandbytes y tqdm
    • Configuración de penalización por repetición (valor predeterminado: 1.15)
  • En una máquina Ubuntu con RTX4090 + 64GB, cargar y cuantizar el modelo toma alrededor de 25 segundos

Aún no hay comentarios.

Aún no hay comentarios.