- AMD anunció recientemente el acelerador gráfico MI300X y afirmó que ofrece hasta 1.6 veces más rendimiento que el H100 de Nvidia
- En respuesta, Nvidia refutó que AMD no utilizó sus propias optimizaciones al compararlo con el H100
- AMD señaló que Nvidia mostró solo rendimiento de throughput que no replica situaciones reales, sin considerar la latencia que suele presentarse en cargas de trabajo de servidores
- Además, afirmó que Nvidia usó su TensorRT-LLM interno del H100 para evaluar un conjunto selectivo de cargas de trabajo de inferencia
- AMD realizó las pruebas usando el ampliamente utilizado vLLM y el tipo de dato FP16, y subrayó que vLLM no es compatible con FP8
- AMD criticó a Nvidia por presentar rendimiento de throughput sin reflejar entornos reales de servidor y sin considerar la latencia
Resultados actualizados de pruebas de AMD con optimizaciones y considerando la latencia
- AMD realizó tres pruebas de rendimiento usando TensorRT-LLM de Nvidia
- La primera prueba comparó a ambas compañías usando vLLM con un dataset FP16: el MI300X fue 2.1 veces más rápido
- En la segunda prueba, se comparó el rendimiento de vLLM del MI300X con TensorRT-LLM: el MI300X fue 1.3 veces más rápido
- En la tercera prueba, se comparó vLLM (FP16) del MI300X con TensorRT-LLM (FP8): 1.7 segundos frente a 1.6 segundos, por lo que el H100 fue ligeramente más rápido
- También hay que reconocer que, para usar FP8, es necesario abandonar FP16 junto con el sistema cerrado de TensorRT-LLM y, en esencia, renunciar a vLLM para siempre
Aún no hay comentarios.