Se añade aceleración CUDA completa de GPU a llama.cpp

xguru · 2023-06-14T10:46:02+09:00

Un PR que añade aceleración por GPU a todos los tensores ggml restantes En una RTX 3090, el procesamiento del prompt se acelera 2 veces y la generación de tokens entre 1.3 y 1.8 veces En una 4090+i9, el modelo 7B q4 genera 109 tokens por segundo

(github.com/ggerganov)

8 puntos por xguru 2023-06-14 | Aún no hay comentarios. | Compartir por WhatsApp

Un PR que añade aceleración por GPU a todos los tensores ggml restantes
En una RTX 3090, el procesamiento del prompt se acelera 2 veces y la generación de tokens entre 1.3 y 1.8 veces
En una 4090+i9, el modelo 7B q4 genera 109 tokens por segundo

Se añade aceleración CUDA completa de GPU a llama.cpp

Lecturas relacionadas

Aún no hay comentarios.