10 puntos por xguru 2023-06-28 | Aún no hay comentarios. | Compartir por WhatsApp
  • Los LLM requieren una cantidad considerable de memoria y recursos de cómputo
  • La familia ZeRO de DeepSpeed ofrece una solución a este problema y se usa en TNLG-17B, Bloom-176B, MPT-7B, Jurassic-1, entre otros
  • Sin embargo, en escenarios a gran escala donde se usan numerosas GPU, se generan sobrecargas como la necesidad de comunicación frecuente entre GPU
  • ZeRO++ reduce en estos casos el volumen total de comunicación 4 veces sin afectar la calidad del modelo
    • Acelera el preentrenamiento y el ajuste fino de modelos grandes
      • Tamaño de lote pequeño por GPU: 2.2 veces más rendimiento que ZeRO
      • Incluso en clústeres de bajo ancho de banda, ofrece un rendimiento comparable al de un ancho de banda 4 veces mayor
    • También acelera modelos como ChatGPT que usan RLHF

Aún no hay comentarios.

Aún no hay comentarios.