2 puntos por GN⁺ 2024-10-10 | Aún no hay comentarios. | Compartir por WhatsApp

Addition para modelos de lenguaje energéticamente eficientes

  • Contexto de la investigación

    • Las redes neuronales grandes usan la mayoría de sus operaciones en multiplicaciones de tensores de punto flotante.
    • Este estudio descubrió que un multiplicador de punto flotante puede aproximarse con alta precisión mediante un solo sumador entero.
  • Algoritmo L-Mul

    • Se propone L-Mul, un algoritmo de multiplicación de complejidad lineal que aproxima la multiplicación de números de punto flotante mediante operaciones de suma entera.
    • El nuevo algoritmo consume menos recursos computacionales que la multiplicación de punto flotante de 8 bits y al mismo tiempo logra una mayor precisión.
    • Como la multiplicación de números de punto flotante consume bastante más energía que las operaciones de suma entera, aplicar L-Mul al hardware de procesamiento de tensores puede reducir el costo energético de la multiplicación elemento a elemento de tensores de punto flotante hasta en un 95% y el costo energético de los productos internos hasta en un 80%.
  • Evaluación teórica y experimental

    • Se calcula el valor esperado del error teórico de L-Mul y se evalúa el algoritmo en diversas tareas textuales, visuales y simbólicas, como comprensión de lenguaje natural, razonamiento estructurado, matemáticas y preguntas y respuestas de sentido común.
    • Los resultados de los experimentos de análisis numérico coinciden con las estimaciones teóricas del error y muestran que L-Mul con mantisa de 4 bits alcanza una precisión similar a la multiplicación float8_e4m3, mientras que L-Mul con mantisa de 3 bits supera a float8_e5m2.
    • Resultados destacados de evaluación en benchmarks muestran que aplicar L-Mul directamente al mecanismo de atención casi no produce pérdidas.
    • Reemplazar todas las multiplicaciones de punto flotante por L-Mul con mantisa de 3 bits en modelos Transformer logra una precisión equivalente a usar float8_e4m3 con precisión de acumulación tanto en ajuste fino como en inferencia.

Resumen de GN⁺

  • El algoritmo L-Mul propone una forma de mejorar significativamente la eficiencia energética sin perder alta precisión.
  • Muestra el potencial de resolver el problema del consumo energético de las operaciones de punto flotante, especialmente con expectativas de uso en modelos de redes neuronales grandes.
  • Esta investigación podría atraer mucho interés en áreas donde el ahorro energético es importante, y entre otros proyectos con funciones similares se encuentra TensorFlow Lite de Google.

Aún no hay comentarios.

Aún no hay comentarios.