Utilyze - herramienta para medir qué tan eficientemente una GPU realiza trabajo realmente útil

xguru · 2026-05-22T09:31:03+09:00

nvidia-smi o nvtop solo verifican si se están ejecutando kernels en la GPU, por lo que pueden mostrar un 100% de utilización incluso si solo se está usando una fracción mínima de la capacidad real del hardware Utilyze lee directamente los contadores de rendimiento de la GPU para mostrar en vivo el uso real de recursos, con una sobrecarga despreciable Calcula el límite superior de Attainable SOL, es decir, la utilización máxima alcanzable de forma realista para una combinación de carga de trabajo, modelo y hardware, lo que permite ver cuánto más se puede exprimir el sistema Detecta automáticamente los servidores de inferencia en ejecución e identifica los modelos cargados en cada GPU; por ahora el backend solo es compatible con vLLM (SGLang y otros se agregarán más adelante) El hardware compatible es NVIDIA Ampere o superior (A100, H100, H200, B200, RTX 3000+); actualmente se admite parte de los modelos en configuraciones de hasta 8 GPU por nodo en H100-80G y A100-80G La arquitectura consiste en ejecutar el servidor de perfilado en Linux y conectarse desde macOS/Windows mediante un cliente remoto basado en WebSocket Con un solo ID de dispositivo solo se puede monitorear una instancia: una limitación de la forma en que la API de NVIDIA Perf SDK maneja el acceso al dispositivo Para ejecutarlo sin sudo, es necesario configurar NVreg_RestrictProfilingToAdminUsers=0 y luego reiniciar Licencia Apache-2.0

(github.com/systalyze)

4 puntos por xguru 2026-05-22 | Aún no hay comentarios. | Compartir por WhatsApp

nvidia-smi o nvtop solo verifican si se están ejecutando kernels en la GPU, por lo que pueden mostrar un 100% de utilización incluso si solo se está usando una fracción mínima de la capacidad real del hardware
Utilyze lee directamente los contadores de rendimiento de la GPU para mostrar en vivo el uso real de recursos, con una sobrecarga despreciable
Calcula el límite superior de Attainable SOL, es decir, la utilización máxima alcanzable de forma realista para una combinación de carga de trabajo, modelo y hardware, lo que permite ver cuánto más se puede exprimir el sistema
Detecta automáticamente los servidores de inferencia en ejecución e identifica los modelos cargados en cada GPU; por ahora el backend solo es compatible con vLLM (SGLang y otros se agregarán más adelante)
El hardware compatible es NVIDIA Ampere o superior (A100, H100, H200, B200, RTX 3000+); actualmente se admite parte de los modelos en configuraciones de hasta 8 GPU por nodo en H100-80G y A100-80G
La arquitectura consiste en ejecutar el servidor de perfilado en Linux y conectarse desde macOS/Windows mediante un cliente remoto basado en WebSocket
Con un solo ID de dispositivo solo se puede monitorear una instancia: una limitación de la forma en que la API de NVIDIA Perf SDK maneja el acceso al dispositivo
Para ejecutarlo sin sudo, es necesario configurar NVreg_RestrictProfilingToAdminUsers=0 y luego reiniciar
Licencia Apache-2.0

Utilyze - herramienta para medir qué tan eficientemente una GPU realiza trabajo realmente útil

Lecturas relacionadas

Aún no hay comentarios.