14 puntos por xguru 2023-02-22 | Aún no hay comentarios. | Compartir por WhatsApp
  • Un motor de generación de alto rendimiento para ejecutar LLM en entornos con GPU limitada, como 16GB T4 / 24GB RTX3090
  • Gracias a una descarga de memoria extremadamente rápida, de hasta unas 100 veces, es posible ejecutar un modelo de 175B en una sola GPU
  • Comprime al máximo los parámetros y la caché de atención (reduciéndolos hasta 4 bits con casi ninguna pérdida de precisión)
  • Se puede escalar fácilmente al agregar más GPU mediante un runtime paralelo distribuido

Aún no hay comentarios.

Aún no hay comentarios.