Se añade aceleración CUDA completa de GPU a llama.cpp
(github.com/ggerganov)- Un PR que añade aceleración por GPU a todos los tensores
ggmlrestantes - En una RTX 3090, el procesamiento del prompt se acelera 2 veces y la generación de tokens entre 1.3 y 1.8 veces
- En una 4090+i9, el modelo 7B q4 genera 109 tokens por segundo
Aún no hay comentarios.