- Biblioteca de inferencia diseñada para ejecutar LLM locales en GPUs como la 3090/4090
- Es una versión inicial y el código todavía está en fase de prueba; algunas funciones importantes aún no están implementadas
- En comparación con V1, ExLlamaV2 es más rápido y ofrece mejores kernels, una base de código más limpia y variada, y compatibilidad con nuevos formatos de cuantización
- Depende de la extensión Torch C++ para funciones CUDA, que se compila en tiempo de ejecución. La primera vez que se usa la biblioteca tarda entre 10 y 20 segundos, pero la extensión queda en caché para usos posteriores
- Soporta los mismos modelos GPTQ de 4 bits que V1, pero también el nuevo formato "EXL2", que permite mezclar niveles de cuantización dentro del modelo para lograr una tasa de bits promedio de entre 2 y 8 bits
- La selección de parámetros para la cuantización se realiza automáticamente, y se proporciona un script para cuantizar el modelo
- También se menciona que algunos modelos cuantizados con EXL2 ya fueron subidos a HuggingFace para que los usuarios puedan experimentar con ellos
- Los planes futuros incluyen un paquete PyPi con extensiones precompiladas, soporte para LoRA, una Web UI de ejemplo, un servidor web y más samplers
1 comentarios
Opiniones de Hacker News