2 puntos por GN⁺ 2025-04-26 | 1 comentarios | Compartir por WhatsApp
  • DFloat11 es un framework de compresión sin pérdida que reduce en un 30% el tamaño de los modelos de lenguaje grandes (LLM) mientras mantiene una salida idéntica bit a bit al modelo original
  • Aprovecha la baja entropía de la representación de pesos BFloat16 para mejorar las ineficiencias de los formatos de almacenamiento existentes
  • Para una inferencia eficiente en GPU, se desarrollaron kernels de GPU personalizados que permiten una descompresión en línea rápida
  • Los experimentos con modelos recientes como Llama-3.1, Qwen-2.5 y Gemma-3 verifican una reducción del 30% en el tamaño del modelo y el mantenimiento exacto de la salida
  • Con un presupuesto fijo de memoria GPU, permite una longitud de contexto entre 5.3 y 13.17 veces mayor que la de los modelos sin comprimir

70% del tamaño, 100% de exactitud: compresión sin pérdida de LLM para una inferencia eficiente en GPU

  • El tamaño de los modelos de lenguaje grandes (LLM) ha aumentado drásticamente, lo que representa un gran desafío para su despliegue eficiente en hardware con recursos limitados
  • Dynamic-Length Float (DFloat11) es un framework de compresión sin pérdida que reduce en un 30% el tamaño de los LLM mientras mantiene una salida idéntica bit a bit
  • Aprovecha la baja entropía de la representación de pesos BFloat16 para mejorar las ineficiencias de los formatos de almacenamiento existentes
  • Aplica codificación entrópica para asignar una codificación de longitud dinámica a los pesos según su frecuencia, logrando una compresión óptima en términos de información
  • Para una inferencia eficiente, se desarrollaron kernels de GPU personalizados que permiten una descompresión en línea rápida

Diseño de DFloat11

  • Descompone las tablas de consulta (LUT) intensivas en memoria en LUT comprimidas que caben en la SRAM de la GPU
  • Desarrolla un kernel de dos etapas que ajusta las posiciones de lectura/escritura de los hilos mediante variables auxiliares ligeras
  • Minimiza la latencia mediante la descompresión a nivel de bloque del transformador

Resultados experimentales

  • En modelos recientes como Llama-3.1, Qwen-2.5 y Gemma-3, DFloat11 verifica una reducción del 30% en el tamaño del modelo y el mantenimiento exacto de la salida
  • En comparación con alternativas que descargan parte del modelo sin comprimir al CPU, logra un throughput entre 1.9 y 38.8 veces mayor
  • Con un presupuesto fijo de memoria GPU, permite una longitud de contexto entre 5.3 y 13.17 veces mayor que la de los modelos sin comprimir

Ventajas de DFloat11

  • Hace posible la inferencia sin pérdida de Llama-3.1-405B, modelo de 810GB, en un solo nodo con 8x80GB GPU
  • El código y el modelo están disponibles en una URL pública

1 comentarios

 
GN⁺ 2025-04-26
Comentarios de Hacker News
  • El alto rango dinámico de bfloat16 casi nunca se aprovecha

    • La gente prefiere hiperparámetros como 0.01
    • No hay mucha diferencia incluso si se multiplican todos los elementos de la red por 10^6
    • La entropía típica de los valores bfloat16 es de 10-12 bits
    • Los bits de signo y mantisa son ruido que no se puede comprimir
    • Se usan técnicas de compresión sin pérdida en el laboratorio de Martin Burtscher, fpzip de LLNL y dietgpu de Facebook, entre otros
    • rANS es más eficiente que la codificación Huffman en conjuntos de instrucciones SIMD
  • Posibilidad de ejecutar un modelo de 405B parámetros en un solo nodo

    • Ofrece una gran oportunidad para laboratorios de investigación y startups
  • Agradecimiento por el rápido avance de los modelos de ML/transformers

    • Me pregunto si llama.cpp aprovecha bien cublas
  • Cuando termine la guerra de formatos de pesos, el hardware podrá darles soporte

    • Se necesita hardware de multiplicación de matrices adaptado al formato de pesos óptimo
  • En casos reales de uso de agentes, es difícil equilibrar calidad, costo y rendimiento

    • dfloat11 podría ayudar a reducir costos
  • Trabajo en xmad.ai

  • El ritmo del avance tecnológico es rápido

    • Me resultan interesantes las mejoras de eficiencia
  • DFloat11 ofrece entre 1.9 y 38.8 veces más rendimiento que descargar a CPU modelos sin comprimir

    • Permite longitudes de contexto más largas con un presupuesto fijo de memoria GPU
  • Me pregunto si los LLM están limitados por el ancho de banda de memoria

  • Descubrí una forma de comprimir más las imágenes usando LLM

    • Planeo publicar un white paper relacionado
  • Me pregunto en qué se diferencia de ZipNN

    • Es difícil entender si se basa en eso, si es diferente o si es mejor
  • Creo que usar ternario en lugar de binario podría lograr una mayor tasa de compresión