GPT-Neo: un proyecto para hacer de código abierto/gratis un modelo a escala de GPT-3

xguru · 2021-01-19T09:54:11+09:00

Se están desarrollando dos implementaciones escalables al tamaño de GPT-3+ → GPT-Neo: código basado en Tensorflow-mesh (TPU) → GPT-Neox: código basado en DeepSpeed (GPU) Actualmente ya se completó el entrenamiento a escala de GPT-2 y se está revisando la evaluación del modelo Probado hasta 200 mil millones de parámetros con entrenamiento de una sola etapa

(github.com)

7 puntos por xguru 2021-01-19 | Aún no hay comentarios. | Compartir por WhatsApp

Se están desarrollando dos implementaciones escalables al tamaño de GPT-3+

→ GPT-Neo: código basado en Tensorflow-mesh (TPU)

→ GPT-Neox: código basado en DeepSpeed (GPU)

Actualmente ya se completó el entrenamiento a escala de GPT-2 y se está revisando la evaluación del modelo
Probado hasta 200 mil millones de parámetros con entrenamiento de una sola etapa

GPT-Neo: un proyecto para hacer de código abierto/gratis un modelo a escala de GPT-3

Lecturas relacionadas

Aún no hay comentarios.