LLaMA-CPU - Un fork para ejecutar LLaMA en CPU
(github.com/markasoftware)- Ejecuta el modelo LLaMA de Meta en CPU
- La configuración es casi igual
- Al probar con el modelo 7B, para cargarlo necesita swap/zram incluso con 32 GiB de RAM
- Durante la inferencia real, usa menos de unos 20 GiB de RAM
- En un Ryzen 7900X, el modelo 7B puede inferir algunas palabras por segundo
Aún no hay comentarios.