9 puntos por xguru 2023-09-13 | Aún no hay comentarios. | Compartir por WhatsApp
  • Incluye el compilador de deep learning TensorRT y kernels optimizados, etapas de preprocesamiento y posprocesamiento, y componentes básicos de comunicación multi-GPU/multi-node
  • Permite ofrecer rápidamente el máximo rendimiento y funciones personalizadas para LLM incluso sin conocimientos profundos de C++ o CUDA
  • Ofrece una API modular de Python de código abierto para brindar facilidad de uso y extensibilidad
  • Compatible con GPU Ampere, Lovelace y Hopper
  • Al probar TensorRT-LLM sobre H100
    • GPT-J-6B mejora 8 veces el rendimiento de inferencia, reduce el TCO 5.3 veces y disminuye el consumo de energía 5.6 veces
    • Llama2 70B mejora 4.6 veces el rendimiento de inferencia, reduce el TCO 3 veces y disminuye el consumo de energía 3.2 veces
  • Incluye una tecnología de programación optimizada llamada In-flight Batching
  • La GPU NVIDIA H100 con TensorRT-LLM permite a los usuarios convertir fácilmente los pesos del modelo al nuevo formato FP8 y compilar el modelo para aprovechar automáticamente kernels FP8 optimizados
    • Esto es posible gracias a la tecnología Hopper Transformer Engine, sin necesidad de modificar el código del modelo
  • Actualmente está disponible en acceso anticipado y se lanzará en unas semanas

Aún no hay comentarios.

Aún no hay comentarios.