16 puntos por xguru 2023-12-21 | 1 comentarios | Compartir por WhatsApp
  • 11 veces más rápido que llama.cpp al ejecutar Falcon(ReLU)-40B-FP16 en una RTX 4090(24G)
  • Motor de inferencia híbrido CPU/GPU para LLM que aprovecha la localidad de activación del dispositivo
    • Distingue entre algunas neuronas calientes que se activan de forma consistente y la mayoría de las neuronas frías, que varían según la entrada
    • Las neuronas calientes se cargan previamente en la GPU para activarse rápido, y las neuronas frías se calculan en la CPU, reduciendo en gran medida los requisitos de memoria de la GPU y la transferencia de datos entre CPU y GPU
  • Integra un predictor adaptativo y un operador disperso consciente de neuronas para optimizar la eficiencia de la activación neuronal y la dispersión computacional
  • En una sola GPU NVIDIA RTX 4090, logra velocidades de generación de tokens de 13.20 tokens/segundo en promedio y hasta 29.08 tokens/segundo en varios LLM (incluido OPT-175B)
    • Esto es apenas 18% inferior a lo logrado por la GPU A100 de gama alta para servidores
    • Manteniendo la precisión del modelo, supera ampliamente el rendimiento de llama.cpp por hasta 11.69 veces

1 comentarios

 
cosine20 2023-12-28

La 4090 sí cuenta como de consumo, jajaja.....