- Los LLM requieren una cantidad considerable de memoria y recursos de cómputo
- La familia ZeRO de DeepSpeed ofrece una solución a este problema y se usa en TNLG-17B, Bloom-176B, MPT-7B, Jurassic-1, entre otros
- Sin embargo, en escenarios a gran escala donde se usan numerosas GPU, se generan sobrecargas como la necesidad de comunicación frecuente entre GPU
- ZeRO++ reduce en estos casos el volumen total de comunicación 4 veces sin afectar la calidad del modelo
- Acelera el preentrenamiento y el ajuste fino de modelos grandes
- Tamaño de lote pequeño por GPU: 2.2 veces más rendimiento que ZeRO
- Incluso en clústeres de bajo ancho de banda, ofrece un rendimiento comparable al de un ancho de banda 4 veces mayor
- También acelera modelos como ChatGPT que usan RLHF
Aún no hay comentarios.