Unsloth: afina Llama 3 con 2x más velocidad, 6x más contexto y 68% menos VRAM

(unsloth.ai)

12 puntos por brainer 2024-04-25 | Aún no hay comentarios. | Compartir por WhatsApp

• Unsloth, una herramienta para afinar modelos de lenguaje grandes, ahora es compatible con el más reciente modelo Llama 3 de Meta, lo que permite un ajuste fino 2 veces más rápido y reduce el uso de VRAM en 63% en comparación con Flash Attention 2 (FA2) y Hugging Face (HF).

• Con Unsloth, la versión 70B de Llama 3 es 1.8 veces más rápida y usa 68% menos VRAM, lo que permite longitudes de contexto mucho más largas durante el ajuste fino. Esto es especialmente útil para tareas que requieren un contexto amplio, como preguntas y respuestas o generación de texto.

• Unsloth también es compatible con la cuantización de 4 bits para los modelos Llama 3, lo que permite descargas 4 veces más rápidas y reduce los requisitos de memoria. Los modelos pre-cuantizados de 4 bits para las versiones 70B instruct y base de Llama 3 están disponibles en la página de Hugging Face.

• Además, Unsloth maneja ciertas peculiaridades y "bugs" específicos de Llama 3, como la ausencia del token BOS en el tokenizador y la presencia de tokens no entrenados en el modelo base. Unsloth resuelve automáticamente estos problemas durante el ajuste fino para garantizar un entrenamiento preciso y eficiente.

Unsloth: afina Llama 3 con 2x más velocidad, 6x más contexto y 68% menos VRAM

Lecturas relacionadas

Aún no hay comentarios.