llama.cpp - inferencia del modelo LLaMA de Facebook en C/C++ puro
(github.com/ggerganov)- Apunta a ejecutar el modelo LLaMA con cuantización de 4 bits en una MacBook
- Implementación en C/C++ puro sin dependencias
- Optimizado para el framework Arm Neon/Accelerate (Apple Silicon)
- Soporte de AVX2 para x86
- Precisión mixta F16/F32
- Soporte para cuantización de 4 bits
- Se ejecuta en CPU
- Por ahora solo es compatible con Mac/Linux. Soporte para Windows próximamente
1 comentarios
Probé ejecutar el modelo 7B y funciona mejor de lo que esperaba.