22 puntos por xguru 2023-03-30 | Aún no hay comentarios. | Compartir por WhatsApp
  • Un sistema minimalista para ejecutar los LLM más recientes en GPU Nvidia de consumo
  • Soporta múltiples LLM (LLAMA, BLOOM, OPT) de hasta 170B de tamaño
  • Compatible con varios tipos de GPU Nvidia
  • Código pequeño y fácil de usar hecho en Python
  • Internamente usa el algoritmo GPTQ para compresión de 3 bits, minimizando el uso de memoria GPU

Aún no hay comentarios.

Aún no hay comentarios.