- MVDRAM es un sistema que acelera las operaciones GeMV para inferencia de LLM de baja precisión usando DRAM sin modificar
- Aprovecha la DRAM como motor GeMV para ofrecer alto rendimiento
- Elimina los costos de prearreglo de entradas y conmutación de bits de salida de los enfoques PUD existentes
- Los resultados experimentales muestran un rendimiento superior al de implementaciones basadas en procesador en LLM de baja precisión
- Presenta nuevas posibilidades para el hardware de IA
MVDRAM: aceleración de LLM de baja precisión con DRAM sin modificar
- La operación GeMV sigue siendo un cuello de botella importante de latencia en la inferencia de modelos de lenguaje grandes (LLM)
- Processing-Using-DRAM (PUD) tiene el potencial de reutilizar la DRAM como motor GeMV
- Sin embargo, aplicar PUD al pipeline de inferencia de LLM genera una sobrecarga considerable
El enfoque innovador de MVDRAM
- MVDRAM coordina el procesador y la DRAM aprovechando los patrones de compartición de datos y la linealidad matemática
- Acelera las operaciones GeMV al eliminar los costos de los enfoques PUD existentes
Resultados experimentales
- En experimentos con cuatro módulos DDR4 DRAM, MVDRAM mostró un rendimiento superior al de implementaciones basadas en procesador en LLM de baja precisión (4 bits o menos)
- Alcanzó hasta 7.29 veces más velocidad y 30.5 veces más eficiencia energética
Mejora general de la inferencia de LLM
- En modelos de baja precisión cuantizados a 2 bits y 4 bits, mostró mejoras de rendimiento de 2.18 veces y 1.31 veces, respectivamente
- La eficiencia energética también mejoró 3.04 veces y 2.35 veces, respectivamente
Nuevas posibilidades para el hardware de IA
- MVDRAM demuestra la posibilidad de usar DRAM estándar como acelerador para LLM
- Tiene el potencial de abrir nuevas fronteras para el hardware de IA
1 comentarios
Comentarios de Hacker News
Hay información sobre una de las primeras propuestas de cómputo dentro de DRAM
Alguien señaló que la lista de autores de las referencias 1 y 3 es muy larga
Se puede lograr procesamiento masivamente paralelo emitiendo comandos de DRAM que violan deliberadamente los parámetros de temporización especificados por el fabricante
La idea es muy original y creativa
Aprovechar bugs en el mundo del hardware puede ser riesgoso
Se están realizando operaciones matriciales directamente en la propia DRAM
Hay una mención a la multiplicación general matriz-vector (GeMV)
Hay una opinión que señala que es poco científico no citar la fuente original de Intelligent RAM (IRAM) de 1997
Alguien se pregunta si la multiplicación de matrices y otras operaciones podrían trasladarse del CPU tradicional a la DRAM
Podría ser una forma genial de crear dispositivos de inferencia baratos para LLM de gran escala