La velocidad de carga de los pesos del modelo en Llama.cpp mejora entre 10 y 100 veces

xguru · 2023-04-03T10:03:01+09:00

Con un cambio en el formato de archivo, ahora es posible usar mmap() sin read(), lo que hace que la velocidad de carga de los pesos sea entre 10 y 100 veces más rápida Ahora también se admite 7B en archivo único y 13B en múltiples archivos, entre otros, y el código de carga se volvió mucho más simple Además, este cambio hace que los tensores queden alineados en límites de 32 bytes, por lo que se puede esperar una mejora adicional de rendimiento en ciertos procesadores

(github.com/ggerganov)

13 puntos por xguru 2023-04-03 | 1 comentarios | Compartir por WhatsApp

Con un cambio en el formato de archivo, ahora es posible usar mmap() sin read(), lo que hace que la velocidad de carga de los pesos sea entre 10 y 100 veces más rápida
Ahora también se admite 7B en archivo único y 13B en múltiples archivos, entre otros, y el código de carga se volvió mucho más simple
Además, este cambio hace que los tensores queden alineados en límites de 32 bytes, por lo que se puede esperar una mejora adicional de rendimiento en ciertos procesadores

1 comentarios

xguru 2023-04-03

LLaMA - el LLM de 65 mil millones de parámetros publicado por Meta
llama.cpp - ejecutar inferencia del modelo LLaMA de Facebook en C/C++ puro

La velocidad de carga de los pesos del modelo en Llama.cpp mejora entre 10 y 100 veces

Lecturas relacionadas

1 comentarios