Google publica como código abierto el modelo de IA para NLP Switch Transformer de 1.6 billones de parámetros

xguru · 2021-02-19T10:43:21+09:00

Mejora de 7x en la velocidad de entrenamiento frente al modelo T5 (Text-to-Text Transfer Transformer) existente Algoritmo MoE (Mixture-of-Experts) modificado llamado Switch Routing, que aplica distintos parámetros según cada valor de entrada Uso de Mesh-Tensorflow para el entrenamiento del modelo (paralelismo de modelo)

(infoq.com)

3 puntos por xguru 2021-02-19 | Aún no hay comentarios. | Compartir por WhatsApp

Mejora de 7x en la velocidad de entrenamiento frente al modelo T5 (Text-to-Text Transfer Transformer) existente
Algoritmo MoE (Mixture-of-Experts) modificado llamado Switch Routing, que aplica distintos parámetros según cada valor de entrada
Uso de Mesh-Tensorflow para el entrenamiento del modelo (paralelismo de modelo)

Google publica como código abierto el modelo de IA para NLP Switch Transformer de 1.6 billones de parámetros

Lecturas relacionadas

Aún no hay comentarios.