PowerInfer - servir LLM rápidamente usando GPUs de consumo

xguru · 2023-12-21T10:51:02+09:00

11 veces más rápido que llama.cpp al ejecutar Falcon(ReLU)-40B-FP16 en una RTX 4090(24G) Motor de inferencia híbrido CPU/GPU para LLM que aprovecha la localidad de activación del dispositivo Distingue entre algunas neuronas calientes que se activan de forma consistente y la mayoría de las neuronas frías, que varían según la entrada Las neuronas calientes se cargan previamente en la GPU para activarse rápido, y las neuronas frías se calculan en la CPU, reduciendo en gran medida los requisitos de memoria de la GPU y la transferencia de datos entre CPU y GPU Integra un predictor adaptativo y un operador disperso consciente de neuronas para optimizar la eficiencia de la activación neuronal y la dispersión computacional En una sola GPU NVIDIA RTX 4090, logra velocidades de generación de tokens de 13.20 tokens/segundo en promedio y hasta 29.08 tokens/segundo en varios LLM (incluido OPT-175B) Esto es apenas 18% inferior a lo logrado por la GPU A100 de gama alta para servidores Manteniendo la precisión del modelo, supera ampliamente el rendimiento de llama.cpp por hasta 11.69 veces

(github.com/SJTU-IPADS)

16 puntos por xguru 2023-12-21 | 1 comentarios | Compartir por WhatsApp

11 veces más rápido que llama.cpp al ejecutar Falcon(ReLU)-40B-FP16 en una RTX 4090(24G)
Motor de inferencia híbrido CPU/GPU para LLM que aprovecha la localidad de activación del dispositivo
- Distingue entre algunas neuronas calientes que se activan de forma consistente y la mayoría de las neuronas frías, que varían según la entrada
- Las neuronas calientes se cargan previamente en la GPU para activarse rápido, y las neuronas frías se calculan en la CPU, reduciendo en gran medida los requisitos de memoria de la GPU y la transferencia de datos entre CPU y GPU
Integra un predictor adaptativo y un operador disperso consciente de neuronas para optimizar la eficiencia de la activación neuronal y la dispersión computacional
En una sola GPU NVIDIA RTX 4090, logra velocidades de generación de tokens de 13.20 tokens/segundo en promedio y hasta 29.08 tokens/segundo en varios LLM (incluido OPT-175B)
- Esto es apenas 18% inferior a lo logrado por la GPU A100 de gama alta para servidores
- Manteniendo la precisión del modelo, supera ampliamente el rendimiento de llama.cpp por hasta 11.69 veces

1 comentarios

cosine20 2023-12-28

La 4090 sí cuenta como de consumo, jajaja.....

PowerInfer - servir LLM rápidamente usando GPUs de consumo

Lecturas relacionadas

1 comentarios