NVIDIA libera como código abierto TensorRT-LLM para acelerar la inferencia de LLM

xguru · 2023-09-13T10:17:02+09:00

Incluye el compilador de deep learning TensorRT y kernels optimizados, etapas de preprocesamiento y posprocesamiento, y componentes básicos de comunicación multi-GPU/multi-node Permite ofrecer rápidamente el máximo rendimiento y funciones personalizadas para LLM incluso sin conocimientos profundos de C++ o CUDA Ofrece una API modular de Python de código abierto para brindar facilidad de uso y extensibilidad Compatible con GPU Ampere, Lovelace y Hopper Al probar TensorRT-LLM sobre H100 GPT-J-6B mejora 8 veces el rendimiento de inferencia, reduce el TCO 5.3 veces y disminuye el consumo de energía 5.6 veces Llama2 70B mejora 4.6 veces el rendimiento de inferencia, reduce el TCO 3 veces y disminuye el consumo de energía 3.2 veces Incluye una tecnología de programación optimizada llamada In-flight Batching La GPU NVIDIA H100 con TensorRT-LLM permite a los usuarios convertir fácilmente los pesos del modelo al nuevo formato FP8 y compilar el modelo para aprovechar automáticamente kernels FP8 optimizados Esto es posible gracias a la tecnología Hopper Transformer Engine, sin necesidad de modificar el código del modelo Actualmente está disponible en acceso anticipado y se lanzará en unas semanas

(developer.nvidia.com)

9 puntos por xguru 2023-09-13 | Aún no hay comentarios. | Compartir por WhatsApp

Incluye el compilador de deep learning TensorRT y kernels optimizados, etapas de preprocesamiento y posprocesamiento, y componentes básicos de comunicación multi-GPU/multi-node
Permite ofrecer rápidamente el máximo rendimiento y funciones personalizadas para LLM incluso sin conocimientos profundos de C++ o CUDA
Ofrece una API modular de Python de código abierto para brindar facilidad de uso y extensibilidad
Compatible con GPU Ampere, Lovelace y Hopper
Al probar TensorRT-LLM sobre H100
- GPT-J-6B mejora 8 veces el rendimiento de inferencia, reduce el TCO 5.3 veces y disminuye el consumo de energía 5.6 veces
- Llama2 70B mejora 4.6 veces el rendimiento de inferencia, reduce el TCO 3 veces y disminuye el consumo de energía 3.2 veces
Incluye una tecnología de programación optimizada llamada In-flight Batching
La GPU NVIDIA H100 con TensorRT-LLM permite a los usuarios convertir fácilmente los pesos del modelo al nuevo formato FP8 y compilar el modelo para aprovechar automáticamente kernels FP8 optimizados
- Esto es posible gracias a la tecnología Hopper Transformer Engine, sin necesidad de modificar el código del modelo
Actualmente está disponible en acceso anticipado y se lanzará en unas semanas

NVIDIA libera como código abierto TensorRT-LLM para acelerar la inferencia de LLM

Lecturas relacionadas

Aún no hay comentarios.