7 puntos por xguru 2021-01-19 | Aún no hay comentarios. | Compartir por WhatsApp
  • Se están desarrollando dos implementaciones escalables al tamaño de GPT-3+

→ GPT-Neo: código basado en Tensorflow-mesh (TPU)

→ GPT-Neox: código basado en DeepSpeed (GPU)

  • Actualmente ya se completó el entrenamiento a escala de GPT-2 y se está revisando la evaluación del modelo

  • Probado hasta 200 mil millones de parámetros con entrenamiento de una sola etapa

Aún no hay comentarios.

Aún no hay comentarios.