SlowLlama - Ajuste fino de Llama2-70b y CodeLlama en M1/M2 sin cuantización

xguru · 2023-10-09T10:32:01+09:00

Ajuste fino de modelos como Llama2-70B en Apple M1/M2 y GPUs nVidia de consumo En lugar de usar cuantización (quantization), descarga parte del modelo al SSD o a la memoria principal tanto en el paso forward como backward La versión actual limita las actualizaciones a un conjunto más pequeño de parámetros usando LoRA La primera versión también permitía ajuste fino completo, pero ahora fue eliminada

(github.com/okuvshynov)

9 puntos por xguru 2023-10-09 | Aún no hay comentarios. | Compartir por WhatsApp

Ajuste fino de modelos como Llama2-70B en Apple M1/M2 y GPUs nVidia de consumo
En lugar de usar cuantización (quantization), descarga parte del modelo al SSD o a la memoria principal tanto en el paso forward como backward
La versión actual limita las actualizaciones a un conjunto más pequeño de parámetros usando LoRA
- La primera versión también permitía ajuste fino completo, pero ahora fue eliminada

SlowLlama - Ajuste fino de Llama2-70b y CodeLlama en M1/M2 sin cuantización

Lecturas relacionadas

Aún no hay comentarios.