1 puntos por GN⁺ 2025-05-06 | 1 comentarios | Compartir por WhatsApp
  • MVDRAM es un sistema que acelera las operaciones GeMV para inferencia de LLM de baja precisión usando DRAM sin modificar
  • Aprovecha la DRAM como motor GeMV para ofrecer alto rendimiento
  • Elimina los costos de prearreglo de entradas y conmutación de bits de salida de los enfoques PUD existentes
  • Los resultados experimentales muestran un rendimiento superior al de implementaciones basadas en procesador en LLM de baja precisión
  • Presenta nuevas posibilidades para el hardware de IA

MVDRAM: aceleración de LLM de baja precisión con DRAM sin modificar

  • La operación GeMV sigue siendo un cuello de botella importante de latencia en la inferencia de modelos de lenguaje grandes (LLM)
  • Processing-Using-DRAM (PUD) tiene el potencial de reutilizar la DRAM como motor GeMV
  • Sin embargo, aplicar PUD al pipeline de inferencia de LLM genera una sobrecarga considerable

El enfoque innovador de MVDRAM

  • MVDRAM coordina el procesador y la DRAM aprovechando los patrones de compartición de datos y la linealidad matemática
  • Acelera las operaciones GeMV al eliminar los costos de los enfoques PUD existentes

Resultados experimentales

  • En experimentos con cuatro módulos DDR4 DRAM, MVDRAM mostró un rendimiento superior al de implementaciones basadas en procesador en LLM de baja precisión (4 bits o menos)
  • Alcanzó hasta 7.29 veces más velocidad y 30.5 veces más eficiencia energética

Mejora general de la inferencia de LLM

  • En modelos de baja precisión cuantizados a 2 bits y 4 bits, mostró mejoras de rendimiento de 2.18 veces y 1.31 veces, respectivamente
  • La eficiencia energética también mejoró 3.04 veces y 2.35 veces, respectivamente

Nuevas posibilidades para el hardware de IA

  • MVDRAM demuestra la posibilidad de usar DRAM estándar como acelerador para LLM
  • Tiene el potencial de abrir nuevas fronteras para el hardware de IA

1 comentarios

 
GN⁺ 2025-05-06
Comentarios de Hacker News
  • Hay información sobre una de las primeras propuestas de cómputo dentro de DRAM

    • Existe una primera demostración usando componentes comerciales
    • Se está implementando con una herramienta llamada DRAM Bender
    • Hay un artículo sobre avances recientes en el procesamiento dentro de DRAM
  • Alguien señaló que la lista de autores de las referencias 1 y 3 es muy larga

    • Había expectativas de que se incluyera un artículo de 2016, pero no aparece
    • Sí está incluido un artículo de 2019
    • El comportamiento fuera de especificación de DRAM, en particular la función de copia, está relacionado con un bug notoriamente conocido
  • Se puede lograr procesamiento masivamente paralelo emitiendo comandos de DRAM que violan deliberadamente los parámetros de temporización especificados por el fabricante

    • Esto representa un reto para los binary blobs de entrenamiento de DRAM
  • La idea es muy original y creativa

    • Trabajar en los detalles finos puede ser gratificante
  • Aprovechar bugs en el mundo del hardware puede ser riesgoso

    • En el mundo del software, no es buena idea habilitar funciones aprovechando bugs de la plataforma
    • Si el bug se corrige, el sistema podría comportarse de manera inesperada
  • Se están realizando operaciones matriciales directamente en la propia DRAM

    • Es una idea muy interesante y sorprendente
  • Hay una mención a la multiplicación general matriz-vector (GeMV)

    • Hay personas que no tienen suficiente comprensión matemática
    • Los cuaterniones se hicieron populares porque son computacionalmente menos complejos que las matrices
    • También hay quien se pregunta si existe algún caso de construir LLM usando cuaterniones
  • Hay una opinión que señala que es poco científico no citar la fuente original de Intelligent RAM (IRAM) de 1997

  • Alguien se pregunta si la multiplicación de matrices y otras operaciones podrían trasladarse del CPU tradicional a la DRAM

    • Hay preguntas sobre si este cambio de procesamiento podría beneficiar a Samsung y otros
    • También hay curiosidad sobre qué pasaría con NVIDIA y otros
  • Podría ser una forma genial de crear dispositivos de inferencia baratos para LLM de gran escala