La velocidad de carga de los pesos del modelo en Llama.cpp mejora entre 10 y 100 veces
(github.com/ggerganov)- Con un cambio en el formato de archivo, ahora es posible usar
mmap()sinread(), lo que hace que la velocidad de carga de los pesos sea entre 10 y 100 veces más rápida - Ahora también se admite 7B en archivo único y 13B en múltiples archivos, entre otros, y el código de carga se volvió mucho más simple
- Además, este cambio hace que los tensores queden alineados en límites de 32 bytes, por lo que se puede esperar una mejora adicional de rendimiento en ciertos procesadores
1 comentarios
LLaMA - el LLM de 65 mil millones de parámetros publicado por Meta
llama.cpp - ejecutar inferencia del modelo LLaMA de Facebook en C/C++ puro