- Se están desarrollando dos implementaciones escalables al tamaño de GPT-3+
→ GPT-Neo: código basado en Tensorflow-mesh (TPU)
→ GPT-Neox: código basado en DeepSpeed (GPU)
-
Actualmente ya se completó el entrenamiento a escala de GPT-2 y se está revisando la evaluación del modelo
-
Probado hasta 200 mil millones de parámetros con entrenamiento de una sola etapa
Aún no hay comentarios.