¿Las RNN eran todo?
(arxiv.org)Ciencias de la computación > Aprendizaje automático
- Título: ¿Las RNN lo eran todo?
- Autores: Leo Feng, Frederick Tung, Mohamed Osama Ahmed, Yoshua Bengio, Hossein Hajimirsadegh
- Fecha de envío: 2 de octubre de 2024
Resumen
-
Contexto: Debido a las limitaciones de escalabilidad de los Transformer con respecto a la longitud de secuencia, ha vuelto a crecer el interés por modelos secuenciales recurrentes que pueden paralelizarse. En consecuencia, se han propuesto nuevas arquitecturas recurrentes como S4, Mamba y Aaren, que logran un rendimiento similar.
-
Contenido de la investigación: Se reexaminan las redes neuronales recurrentes (RNN) tradicionales, LSTM (1997) y GRU (2014). Estos modelos eran lentos porque requerían retropropagación a través del tiempo (BPTT), pero al eliminar la dependencia del estado oculto en las compuertas de entrada, olvido y actualización, dejan de necesitar BPTT y pueden entrenarse eficientemente en paralelo.
-
Resultados: Se introducen versiones minimizadas (minLSTMs, minGRUs) que (1) usan muchos menos parámetros que los modelos tradicionales y (2) permiten una paralelización completa durante el entrenamiento (175 veces más rápido en secuencias de longitud 512). Estas versiones simplificadas de RNN muestran un rendimiento empírico comparable al de modelos secuenciales recientes.
Resumen de GN⁺
- Esta investigación resulta interesante porque resuelve el cuello de botella de los modelos RNN tradicionales y los mejora para permitir entrenamiento en paralelo.
- Vuelve a poner en foco el potencial de las RNN como alternativa para superar las limitaciones de los Transformer.
- Puede contribuir a aumentar la eficiencia del modelado de secuencias en aprendizaje automático e inteligencia artificial.
- Entre los proyectos con funciones similares se encuentran modelos recientes basados en Transformer.
Aún no hay comentarios.