SlowLlama - Ajuste fino de Llama2-70b y CodeLlama en M1/M2 sin cuantización
(github.com/okuvshynov)- Ajuste fino de modelos como Llama2-70B en Apple M1/M2 y GPUs nVidia de consumo
- En lugar de usar cuantización (
quantization), descarga parte del modelo al SSD o a la memoria principal tanto en el paso forward como backward - La versión actual limita las actualizaciones a un conjunto más pequeño de parámetros usando LoRA
- La primera versión también permitía ajuste fino completo, pero ahora fue eliminada
Aún no hay comentarios.