1 puntos por xguru 1 시간 전 | Aún no hay comentarios. | Compartir por WhatsApp
  • nvidia-smi o nvtop solo verifican si se están ejecutando kernels en la GPU, por lo que pueden mostrar un 100% de utilización incluso si solo se está usando una fracción mínima de la capacidad real del hardware
  • Utilyze lee directamente los contadores de rendimiento de la GPU para mostrar en vivo el uso real de recursos, con una sobrecarga despreciable
  • Calcula el límite superior de Attainable SOL, es decir, la utilización máxima alcanzable de forma realista para una combinación de carga de trabajo, modelo y hardware, lo que permite ver cuánto más se puede exprimir el sistema
  • Detecta automáticamente los servidores de inferencia en ejecución e identifica los modelos cargados en cada GPU; por ahora el backend solo es compatible con vLLM (SGLang y otros se agregarán más adelante)
  • El hardware compatible es NVIDIA Ampere o superior (A100, H100, H200, B200, RTX 3000+); actualmente se admite parte de los modelos en configuraciones de hasta 8 GPU por nodo en H100-80G y A100-80G
  • La arquitectura consiste en ejecutar el servidor de perfilado en Linux y conectarse desde macOS/Windows mediante un cliente remoto basado en WebSocket
  • Con un solo ID de dispositivo solo se puede monitorear una instancia: una limitación de la forma en que la API de NVIDIA Perf SDK maneja el acceso al dispositivo
  • Para ejecutarlo sin sudo, es necesario configurar NVreg_RestrictProfilingToAdminUsers=0 y luego reiniciar
  • Licencia Apache-2.0

Aún no hay comentarios.

Aún no hay comentarios.