MiniLLM - Ejecutar LLM en una GPU personal
(github.com/kuleshov)- Un sistema minimalista para ejecutar los LLM más recientes en GPU Nvidia de consumo
- Soporta múltiples LLM (LLAMA, BLOOM, OPT) de hasta 170B de tamaño
- Compatible con varios tipos de GPU Nvidia
- Código pequeño y fácil de usar hecho en Python
- Internamente usa el algoritmo GPTQ para compresión de 3 bits, minimizando el uso de memoria GPU
Aún no hay comentarios.