5 puntos por xguru 2023-12-20 | Aún no hay comentarios. | Compartir por WhatsApp
  • AMD anunció recientemente el acelerador gráfico MI300X y afirmó que ofrece hasta 1.6 veces más rendimiento que el H100 de Nvidia
    • En respuesta, Nvidia refutó que AMD no utilizó sus propias optimizaciones al compararlo con el H100
  • AMD señaló que Nvidia mostró solo rendimiento de throughput que no replica situaciones reales, sin considerar la latencia que suele presentarse en cargas de trabajo de servidores
    • Además, afirmó que Nvidia usó su TensorRT-LLM interno del H100 para evaluar un conjunto selectivo de cargas de trabajo de inferencia
  • AMD realizó las pruebas usando el ampliamente utilizado vLLM y el tipo de dato FP16, y subrayó que vLLM no es compatible con FP8
  • AMD criticó a Nvidia por presentar rendimiento de throughput sin reflejar entornos reales de servidor y sin considerar la latencia

Resultados actualizados de pruebas de AMD con optimizaciones y considerando la latencia

  • AMD realizó tres pruebas de rendimiento usando TensorRT-LLM de Nvidia
  • La primera prueba comparó a ambas compañías usando vLLM con un dataset FP16: el MI300X fue 2.1 veces más rápido
  • En la segunda prueba, se comparó el rendimiento de vLLM del MI300X con TensorRT-LLM: el MI300X fue 1.3 veces más rápido
  • En la tercera prueba, se comparó vLLM (FP16) del MI300X con TensorRT-LLM (FP8): 1.7 segundos frente a 1.6 segundos, por lo que el H100 fue ligeramente más rápido
  • También hay que reconocer que, para usar FP8, es necesario abandonar FP16 junto con el sistema cerrado de TensorRT-LLM y, en esencia, renunciar a vLLM para siempre

Aún no hay comentarios.

Aún no hay comentarios.