llama.cpp - inferencia del modelo LLaMA de Facebook en C/C++ puro

xguru · 2023-03-13T11:26:01+09:00

Apunta a ejecutar el modelo LLaMA con cuantización de 4 bits en una MacBook Implementación en C/C++ puro sin dependencias Optimizado para el framework Arm Neon/Accelerate (Apple Silicon) Soporte de AVX2 para x86 Precisión mixta F16/F32 Soporte para cuantización de 4 bits Se ejecuta en CPU Por ahora solo es compatible con Mac/Linux. Soporte para Windows próximamente

(github.com/ggerganov)

16 puntos por xguru 2023-03-13 | 1 comentarios | Compartir por WhatsApp

Apunta a ejecutar el modelo LLaMA con cuantización de 4 bits en una MacBook
Implementación en C/C++ puro sin dependencias
Optimizado para el framework Arm Neon/Accelerate (Apple Silicon)
Soporte de AVX2 para x86
Precisión mixta F16/F32
Soporte para cuantización de 4 bits
Se ejecuta en CPU
Por ahora solo es compatible con Mac/Linux. Soporte para Windows próximamente

1 comentarios

laeyoung 2023-03-14

Probé ejecutar el modelo 7B y funciona mejor de lo que esperaba.

llama.cpp - inferencia del modelo LLaMA de Facebook en C/C++ puro

Lecturas relacionadas

1 comentarios