13 puntos por xguru 2023-05-02 | 1 comentarios | Compartir por WhatsApp
  • Soporte para cuantización entera (integer quantization): permite convertir modelos ggml de Whisper con pesos predeterminados de punto flotante de 16 bits a pesos enteros de 4, 6 y 8 bits
    • Reduce el tamaño en disco y el uso de memoria, lo que permite una ejecución más rápida en algunas arquitecturas
    • Esto fue posible gracias al código aportado al proyecto llama.cpp
  • Soporte para GPU NVIDIA mediante cuBLAS