- 11 veces más rápido que llama.cpp al ejecutar Falcon(ReLU)-40B-FP16 en una RTX 4090(24G)
- Motor de inferencia híbrido CPU/GPU para LLM que aprovecha la localidad de activación del dispositivo
- Distingue entre algunas neuronas calientes que se activan de forma consistente y la mayoría de las neuronas frías, que varían según la entrada
- Las neuronas calientes se cargan previamente en la GPU para activarse rápido, y las neuronas frías se calculan en la CPU, reduciendo en gran medida los requisitos de memoria de la GPU y la transferencia de datos entre CPU y GPU
- Integra un predictor adaptativo y un operador disperso consciente de neuronas para optimizar la eficiencia de la activación neuronal y la dispersión computacional
- En una sola GPU NVIDIA RTX 4090, logra velocidades de generación de tokens de 13.20 tokens/segundo en promedio y hasta 29.08 tokens/segundo en varios LLM (incluido OPT-175B)
- Esto es apenas 18% inferior a lo logrado por la GPU A100 de gama alta para servidores
- Manteniendo la precisión del modelo, supera ampliamente el rendimiento de llama.cpp por hasta 11.69 veces
1 comentarios
La 4090 sí cuenta como de consumo, jajaja.....