Asignación dinámica de cómputo en modelos de lenguaje basados en transformers
- Los modelos de lenguaje basados en transformers normalmente distribuyen los FLOPs (operaciones de punto flotante) de manera uniforme a lo largo de la secuencia de entrada.
- El equipo de investigación muestra que los transformers pueden aprender a asignar FLOPs dinámicamente a posiciones específicas.
- Este método optimiza la asignación sobre la secuencia en distintas capas a lo largo de la profundidad del modelo.
Nueva metodología: Mixture-of-Depths
- Para limitar el presupuesto total de cómputo, se restringe la cantidad de tokens (k) que pueden participar en los cálculos de self-attention y MLP.
- La red usa un mecanismo de enrutamiento top-k para decidir qué tokens procesar.
- Como k está predefinido, a diferencia de otras técnicas de cómputo condicional, utiliza un grafo de cómputo estático con tamaños de tensor conocidos.
Eficiencia y rendimiento
- Como la identidad de los tokens es dinámica, este método puede consumir FLOPs de forma no uniforme en las dimensiones de tiempo y profundidad del modelo.
- El gasto de cómputo es completamente predecible en el total, pero dinámico y sensible al contexto a nivel de token.
- Los modelos entrenados con este método no solo asignan el cómputo dinámicamente, sino también de forma eficiente.
- Estos modelos igualan el rendimiento de referencia con los mismos FLOPs y el mismo tiempo real de entrenamiento, pero requieren solo una fracción de los FLOPs por pasada hacia adelante y, después del entrenamiento, pueden muestrear hasta un 50% más rápido.
Opinión de GN⁺
- Esta investigación aborda un tema importante de eficiencia en el campo del procesamiento de lenguaje natural (NLP) y propone un nuevo enfoque para reducir el costo computacional de los modelos transformer.
- La asignación dinámica de cómputo puede ayudar a reducir el consumo de energía y los costos, especialmente al usar modelos de lenguaje de gran escala.
- Sin embargo, para que esta tecnología se integre en aplicaciones reales, todavía se necesitarán validaciones y optimizaciones adicionales.
- Este trabajo aporta nuevas ideas a la comunidad de aprendizaje automático y podría influir en el despliegue de modelos de lenguaje en entornos con recursos limitados, como la computación en la nube.
- Desde una perspectiva crítica, hace falta más investigación para determinar si este método mostrará el mismo efecto en todo tipo de modelos de lenguaje y conjuntos de datos, así como en qué tipos de tareas resulta más eficiente.
Aún no hay comentarios.