DeepSpeed ZeRO++: mejora revolucionaria en la velocidad de entrenamiento de LLM y modelos de chat mientras reduce 4 veces la comunicación

xguru · 2023-06-28T10:03:01+09:00

Los LLM requieren una cantidad considerable de memoria y recursos de cómputo La familia ZeRO de DeepSpeed ofrece una solución a este problema y se usa en TNLG-17B, Bloom-176B, MPT-7B, Jurassic-1, entre otros Sin embargo, en escenarios a gran escala donde se usan numerosas GPU, se generan sobrecargas como la necesidad de comunicación frecuente entre GPU ZeRO++ reduce en estos casos el volumen total de comunicación 4 veces sin afectar la calidad del modelo Acelera el preentrenamiento y el ajuste fino de modelos grandes Tamaño de lote pequeño por GPU: 2.2 veces más rendimiento que ZeRO Incluso en clústeres de bajo ancho de banda, ofrece un rendimiento comparable al de un ancho de banda 4 veces mayor También acelera modelos como ChatGPT que usan RLHF

(microsoft.com)

10 puntos por xguru 2023-06-28 | Aún no hay comentarios. | Compartir por WhatsApp

Los LLM requieren una cantidad considerable de memoria y recursos de cómputo
La familia ZeRO de DeepSpeed ofrece una solución a este problema y se usa en TNLG-17B, Bloom-176B, MPT-7B, Jurassic-1, entre otros
Sin embargo, en escenarios a gran escala donde se usan numerosas GPU, se generan sobrecargas como la necesidad de comunicación frecuente entre GPU
ZeRO++ reduce en estos casos el volumen total de comunicación 4 veces sin afectar la calidad del modelo
- Acelera el preentrenamiento y el ajuste fino de modelos grandes
  - Tamaño de lote pequeño por GPU: 2.2 veces más rendimiento que ZeRO
  - Incluso en clústeres de bajo ancho de banda, ofrece un rendimiento comparable al de un ancho de banda 4 veces mayor
- También acelera modelos como ChatGPT que usan RLHF

DeepSpeed ZeRO++: mejora revolucionaria en la velocidad de entrenamiento de LLM y modelos de chat mientras reduce 4 veces la comunicación

Lecturas relacionadas

Aún no hay comentarios.