- Incluye el compilador de deep learning TensorRT y kernels optimizados, etapas de preprocesamiento y posprocesamiento, y componentes básicos de comunicación multi-GPU/multi-node
- Permite ofrecer rápidamente el máximo rendimiento y funciones personalizadas para LLM incluso sin conocimientos profundos de C++ o CUDA
- Ofrece una API modular de Python de código abierto para brindar facilidad de uso y extensibilidad
- Compatible con GPU Ampere, Lovelace y Hopper
- Al probar TensorRT-LLM sobre H100
- GPT-J-6B mejora 8 veces el rendimiento de inferencia, reduce el TCO 5.3 veces y disminuye el consumo de energía 5.6 veces
- Llama2 70B mejora 4.6 veces el rendimiento de inferencia, reduce el TCO 3 veces y disminuye el consumo de energía 3.2 veces
- Incluye una tecnología de programación optimizada llamada In-flight Batching
- La GPU NVIDIA H100 con TensorRT-LLM permite a los usuarios convertir fácilmente los pesos del modelo al nuevo formato FP8 y compilar el modelo para aprovechar automáticamente kernels FP8 optimizados
- Esto es posible gracias a la tecnología Hopper Transformer Engine, sin necesidad de modificar el código del modelo
- Actualmente está disponible en acceso anticipado y se lanzará en unas semanas
Aún no hay comentarios.