ExLlamaV2: una biblioteca de inferencia rápida para ejecutar LLM locales en GPUs comunes

Biblioteca de inferencia diseñada para ejecutar LLM locales en GPUs como la 3090/4090
Es una versión inicial y el código todavía está en fase de prueba; algunas funciones importantes aún no están implementadas
En comparación con V1, ExLlamaV2 es más rápido y ofrece mejores kernels, una base de código más limpia y variada, y compatibilidad con nuevos formatos de cuantización
Depende de la extensión Torch C++ para funciones CUDA, que se compila en tiempo de ejecución. La primera vez que se usa la biblioteca tarda entre 10 y 20 segundos, pero la extensión queda en caché para usos posteriores
Soporta los mismos modelos GPTQ de 4 bits que V1, pero también el nuevo formato "EXL2", que permite mezclar niveles de cuantización dentro del modelo para lograr una tasa de bits promedio de entre 2 y 8 bits
La selección de parámetros para la cuantización se realiza automáticamente, y se proporciona un script para cuantizar el modelo
También se menciona que algunos modelos cuantizados con EXL2 ya fueron subidos a HuggingFace para que los usuarios puedan experimentar con ellos
Los planes futuros incluyen un paquete PyPi con extensiones precompiladas, soporte para LoRA, una Web UI de ejemplo, un servidor web y más samplers

1 comentarios

GN⁺ 2023-09-14

Opiniones de Hacker News

El artículo analiza Exllamav2, una nueva biblioteca de inferencia que permite ejecutar modelos de lenguaje (LLMs) en GPUs de consumo.
Este podría ser el primer momento en que los LLMs grandes pueden ejecutarse en GPUs de consumo a velocidades competitivas, con potencial para superar a GPT-3.5-turbo o GPT-4.
La biblioteca usa una forma única de cuantizar distintas capas o módulos para minimizar la perplejidad mientras ajusta los parámetros.
Hay interés en comparar el rendimiento de distintas GPUs, como la 3090 y la 4090, y en cómo manejan diferentes modelos.
El artículo también menciona la incorporación de soporte ROCm en una etapa temprana, lo que despierta curiosidad sobre cómo se compararán las RTX4090/3090 con la serie 7900.
A los lectores les interesan las comparaciones de velocidad y cómo funcionan los modelos grandes en hardware de gama alta, como las tarjetas Nvidia de primer nivel.
Hay preguntas sobre el rendimiento de modelos que requieren varias tarjetas para ejecutarse en memoria.
El artículo también provocó debate sobre el lanzamiento en el subreddit "Local LLaMA".
Los lectores sienten curiosidad por el efecto de reducir los modelos a un solo ancho de bits y si siguen siendo funcionales o empiezan a producir disparates.
Hay preguntas sobre el costo y los benchmarks de perplejidad de ELX2, así como algunas quejas porque Facebook hizo llama v2 de 70B en lugar de 65B.
Los lectores buscan más información sobre la cuantización EXL2/GPTQ, que parece ser la causa principal de la mejora de velocidad en este modelo.
Se hacen comparaciones entre "70B Llama 2" y ChatGPT 3.5/4.0, con preguntas sobre su rendimiento relativo.

ExLlamaV2: una biblioteca de inferencia rápida para ejecutar LLM locales en GPUs comunes

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News