Resumen
- Durante mucho tiempo se ha considerado que las capas de normalización son esenciales en las redes neuronales modernas.
- Este estudio muestra que es posible lograr un rendimiento igual o mejor incluso sin normalización.
- Presenta una técnica simple llamada Dynamic Tanh (DyT), que puede reemplazar a las capas de normalización.
- En la mayoría de los casos, DyT ofrece un rendimiento equivalente o mejor que los modelos normalizados, incluso sin ajuste de hiperparámetros.
- Se verificó la efectividad de DyT en diversos entornos, lo que lleva a replantear la necesidad de las capas de normalización.
Implementación
- El módulo DyT puede implementarse con unas pocas líneas de código en PyTorch.
Hallazgos principales
- La normalización por capas funciona como una función
tanh escalada.
- En las capas iniciales es principalmente lineal, pero en las capas profundas presenta la curva en S característica de la función
tanh.
Evaluación
- Se evaluaron el efecto y la generalidad de DyT en diversas arquitecturas y tareas.
- En todos los casos, los Transformers con DyT mostraron un rendimiento similar o mejor que los modelos normalizados.
Recursos
- Los detalles del estudio pueden consultarse descargando el artículo.
- Los detalles de implementación pueden revisarse en el repositorio de GitHub.
Aún no hay comentarios.