3 puntos por xguru 2021-02-19 | Aún no hay comentarios. | Compartir por WhatsApp
  • Mejora de 7x en la velocidad de entrenamiento frente al modelo T5 (Text-to-Text Transfer Transformer) existente

  • Algoritmo MoE (Mixture-of-Experts) modificado llamado Switch Routing, que aplica distintos parámetros según cada valor de entrada

  • Uso de Mesh-Tensorflow para el entrenamiento del modelo (paralelismo de modelo)

Aún no hay comentarios.

Aún no hay comentarios.