8 puntos por xguru 2023-06-14 | Aún no hay comentarios. | Compartir por WhatsApp
  • Un PR que añade aceleración por GPU a todos los tensores ggml restantes
  • En una RTX 3090, el procesamiento del prompt se acelera 2 veces y la generación de tokens entre 1.3 y 1.8 veces
  • En una 4090+i9, el modelo 7B q4 genera 109 tokens por segundo

Aún no hay comentarios.

Aún no hay comentarios.