Cómo ejecutar GPT-OSS-120B en GPUs de NVIDIA a más de 500 tokens por segundo

(baseten.co)

7 puntos por GN⁺ 2025-08-12 | Aún no hay comentarios. | Compartir por WhatsApp

Se optimizó GPT-OSS-120B, el LLM de código abierto de OpenAI, para lograr un rendimiento de más de 500 tokens por segundo en entornos de GPU de NVIDIA.
Se realizaron pruebas paralelas de diversos frameworks de inferencia como TensorRT-LLM, vLLM y SGLang, con soporte para las arquitecturas Hopper y Blackwell.
Se corrigieron bugs de compatibilidad e integró un formato de respuesta nuevo como Harmony, además de aplicar optimizaciones como enrutamiento con conocimiento del caché KV y decodificación especulativa basada en Eagle.
Al comparar Tensor Parallelism y Expert Parallelism, se eligió Tensor Parallelism por su menor latencia, y en Blackwell se utilizó el backend MoE de TensorRT-LLM.
Se planea seguir optimizando el rendimiento, incluyendo la decodificación especulativa (Speculative) con un modelo de “draft” más pequeño.

Visión general

Cuando OpenAI lanzó GPT-OSS-120B, su último modelo de lenguaje de gran escala de código abierto, Baseten se propuso alcanzar el máximo rendimiento.
- Baseten es el socio de lanzamiento oficial de OpenAI.
Con datos públicos de usuarios reales de OpenRouter, validaron un rendimiento líder en entornos con GPU de NVIDIA frente a otros proveedores.
Gracias al Flexible Inference Stack y la experiencia del equipo de ingeniería de modelos, aplicaron parches de optimización de forma rápida, casi por horas.
En las pocas horas de redactar el blog, lograron un aumento adicional de más de 100 tokens por segundo y mantuvieron un 100% de tiempo de actividad.

Se realizaron pruebas y benchmarking con distintos frameworks de inferencia como TensorRT-LLM, vLLM y SGLang.
En paralelo, se aseguró compatibilidad con las arquitecturas de GPU Hopper y Blackwell.
Se integró con componentes clave como el Flexible Inference Stack de Baseten y NVIDIA Dynamo.
Se aplicaron técnicas de optimización de rendimiento ampliamente validadas, como KV cache-aware routing y Speculative decoding (basado en Eagle).

A continuación, se detallan los pasos clave para lograr simultáneamente un rendimiento SOTA y soporte de ventana de contexto completa.

Cualquiera sea el enfoque, el punto de partida fue ejecutar la inferencia inicial (baseline inference) lo más rápido posible.
Aprovechando la potencia de la GPU, varios ingenieros corrieron en paralelo experimentos con vLLM, SGLang y TensorRT-LLM.
Se logró poner en marcha rápidamente el TensorRT-LLM, que mostró el mejor rendimiento.
Se garantizó soporte de TensorRT-LLM tanto en Hopper (la de mayor cantidad de GPUs H100) como en Blackwell (donde B200 ofrece mejor velocidad).
Gracias a la flexibilidad de Baseten Inference Runtime, resultó sencillo adaptar nuevos modelos de arquitectura y cambiar herramientas dentro del stack rápidamente.

La aparición de nuevas arquitecturas de modelos suele venir acompañada de fallos frecuentes durante la integración de frameworks.
GPT-OSS agregó nuevas tecnologías, como el formato de respuesta Harmony, lo que generó bugs al integrar con frameworks existentes.
Para mantener velocidad y precisión a la vez, realizaron ajustes y pruebas repetidas, y contribuyeron al open source las correcciones efectivas.
La colaboración de la comunidad open source global está haciendo que los caminos de optimización y las correcciones de bugs avancen con rapidez.

Aunque OpenAI indica que GPT-OSS-120B funciona en una sola H100, en la práctica se favorece paralelizar entre 4~8 GPUs para mejor rendimiento.
Tensor Parallelism destaca en latencia, mientras que Expert Parallelism destaca en throughput del sistema.
- Como el objetivo de Baseten era optimizar la latencia, eligieron Tensor Parallelism.
En Blackwell, se aplicó el TensorRT-LLM MoE Backend, mejorando el rendimiento de los kernels CUDA en comparación con el backend Triton anterior.
Se publicaron configuraciones optimizadas para entornos Hopper y Blackwell, y en la Model API se adoptó la configuración basada en Blackwell.

Aunque con la primera etapa de optimización ya alcanzaron niveles SOTA en throughput y latencia, aún hay margen para mejorar.
La actualización principal prevista es la incorporación de Speculative Decoding.
- Este método usa un modelo de “draft” más rápido que genera tokens candidatos, que luego son validados por el modelo principal.
- Baseten recomienda Eagle 3, pero opera de forma dinámica con más de 10 algoritmos dentro del stack de inferencia según el escenario.
La decodificación especulativa permite inferir varios tokens a la vez para lograr una mejora de velocidad más eficiente