DeepSpeed Ulysses: optimización del sistema para entrenar modelos Transformer de secuencia larga

xguru · 2023-08-31T11:03:01+09:00

Ofrece longitudes de secuencia 4 veces más largas que los sistemas existentes, lo que permite entrenar con secuencias que incluyen más de un millón de tokens La comunicación se reduce en más de 10 veces, mejorando el rendimiento hasta 2.5 veces. El rendimiento se mantiene por encima de 175 TFlops/GPU Attention completamente general e independiente de la implementación (también funciona con implementaciones como FlashAttention 2) Soporta entrenamiento de modelos a gran escala: funciona junto con ZeRO-3 para admitir secuencias/modelos de gran tamaño Fácil de usar y altamente portable, con cambios mínimos al framework existente

(github.com/microsoft)

5 puntos por xguru 2023-08-31 | Aún no hay comentarios. | Compartir por WhatsApp

Ofrece longitudes de secuencia 4 veces más largas que los sistemas existentes, lo que permite entrenar con secuencias que incluyen más de un millón de tokens
La comunicación se reduce en más de 10 veces, mejorando el rendimiento hasta 2.5 veces. El rendimiento se mantiene por encima de 175 TFlops/GPU
Attention completamente general e independiente de la implementación (también funciona con implementaciones como FlashAttention 2)
Soporta entrenamiento de modelos a gran escala: funciona junto con ZeRO-3 para admitir secuencias/modelos de gran tamaño
Fácil de usar y altamente portable, con cambios mínimos al framework existente

DeepSpeed Ulysses: optimización del sistema para entrenar modelos Transformer de secuencia larga

Lecturas relacionadas

Aún no hay comentarios.