• Unsloth, una herramienta para afinar modelos de lenguaje grandes, ahora es compatible con el más reciente modelo Llama 3 de Meta, lo que permite un ajuste fino 2 veces más rápido y reduce el uso de VRAM en 63% en comparación con Flash Attention 2 (FA2) y Hugging Face (HF).
• Con Unsloth, la versión 70B de Llama 3 es 1.8 veces más rápida y usa 68% menos VRAM, lo que permite longitudes de contexto mucho más largas durante el ajuste fino. Esto es especialmente útil para tareas que requieren un contexto amplio, como preguntas y respuestas o generación de texto.
• Unsloth también es compatible con la cuantización de 4 bits para los modelos Llama 3, lo que permite descargas 4 veces más rápidas y reduce los requisitos de memoria. Los modelos pre-cuantizados de 4 bits para las versiones 70B instruct y base de Llama 3 están disponibles en la página de Hugging Face.
• Además, Unsloth maneja ciertas peculiaridades y "bugs" específicos de Llama 3, como la ausencia del token BOS en el tokenizador y la presencia de tokens no entrenados en el modelo base. Unsloth resuelve automáticamente estos problemas durante el ajuste fino para garantizar un entrenamiento preciso y eficiente.
Aún no hay comentarios.