Google publica como código abierto el modelo de IA para NLP Switch Transformer de 1.6 billones de parámetros
(infoq.com)-
Mejora de 7x en la velocidad de entrenamiento frente al modelo T5 (Text-to-Text Transfer Transformer) existente
-
Algoritmo MoE (Mixture-of-Experts) modificado llamado Switch Routing, que aplica distintos parámetros según cada valor de entrada
-
Uso de Mesh-Tensorflow para el entrenamiento del modelo (paralelismo de modelo)
Aún no hay comentarios.