nvidia-smi o nvtop solo verifican si se están ejecutando kernels en la GPU, por lo que pueden mostrar un 100% de utilización incluso si solo se está usando una fracción mínima de la capacidad real del hardware
- Utilyze lee directamente los contadores de rendimiento de la GPU para mostrar en vivo el uso real de recursos, con una sobrecarga despreciable
- Calcula el límite superior de Attainable SOL, es decir, la utilización máxima alcanzable de forma realista para una combinación de carga de trabajo, modelo y hardware, lo que permite ver cuánto más se puede exprimir el sistema
- Detecta automáticamente los servidores de inferencia en ejecución e identifica los modelos cargados en cada GPU; por ahora el backend solo es compatible con vLLM (SGLang y otros se agregarán más adelante)
- El hardware compatible es NVIDIA Ampere o superior (A100, H100, H200, B200, RTX 3000+); actualmente se admite parte de los modelos en configuraciones de hasta 8 GPU por nodo en H100-80G y A100-80G
- La arquitectura consiste en ejecutar el servidor de perfilado en Linux y conectarse desde macOS/Windows mediante un cliente remoto basado en WebSocket
- Con un solo ID de dispositivo solo se puede monitorear una instancia: una limitación de la forma en que la API de NVIDIA Perf SDK maneja el acceso al dispositivo
- Para ejecutarlo sin sudo, es necesario configurar
NVreg_RestrictProfilingToAdminUsers=0 y luego reiniciar
- Licencia Apache-2.0
Aún no hay comentarios.