Addition para modelos de lenguaje energéticamente eficientes
-
Contexto de la investigación
- Las redes neuronales grandes usan la mayoría de sus operaciones en multiplicaciones de tensores de punto flotante.
- Este estudio descubrió que un multiplicador de punto flotante puede aproximarse con alta precisión mediante un solo sumador entero.
-
Algoritmo L-Mul
- Se propone L-Mul, un algoritmo de multiplicación de complejidad lineal que aproxima la multiplicación de números de punto flotante mediante operaciones de suma entera.
- El nuevo algoritmo consume menos recursos computacionales que la multiplicación de punto flotante de 8 bits y al mismo tiempo logra una mayor precisión.
- Como la multiplicación de números de punto flotante consume bastante más energía que las operaciones de suma entera, aplicar L-Mul al hardware de procesamiento de tensores puede reducir el costo energético de la multiplicación elemento a elemento de tensores de punto flotante hasta en un 95% y el costo energético de los productos internos hasta en un 80%.
-
Evaluación teórica y experimental
- Se calcula el valor esperado del error teórico de L-Mul y se evalúa el algoritmo en diversas tareas textuales, visuales y simbólicas, como comprensión de lenguaje natural, razonamiento estructurado, matemáticas y preguntas y respuestas de sentido común.
- Los resultados de los experimentos de análisis numérico coinciden con las estimaciones teóricas del error y muestran que L-Mul con mantisa de 4 bits alcanza una precisión similar a la multiplicación
float8_e4m3, mientras que L-Mul con mantisa de 3 bits supera afloat8_e5m2. - Resultados destacados de evaluación en benchmarks muestran que aplicar L-Mul directamente al mecanismo de atención casi no produce pérdidas.
- Reemplazar todas las multiplicaciones de punto flotante por L-Mul con mantisa de 3 bits en modelos Transformer logra una precisión equivalente a usar
float8_e4m3con precisión de acumulación tanto en ajuste fino como en inferencia.
Resumen de GN⁺
- El algoritmo L-Mul propone una forma de mejorar significativamente la eficiencia energética sin perder alta precisión.
- Muestra el potencial de resolver el problema del consumo energético de las operaciones de punto flotante, especialmente con expectativas de uso en modelos de redes neuronales grandes.
- Esta investigación podría atraer mucho interés en áreas donde el ahorro energético es importante, y entre otros proyectos con funciones similares se encuentra TensorFlow Lite de Google.
Aún no hay comentarios.