Lanzamiento de la GPU Tensor Core H200 de Nividia

(nvidia.com)

4 puntos por GN⁺ 2023-11-15 | 1 comentarios | Compartir por WhatsApp

La GPU más potente del mundo

La NVIDIA H200 Tensor Core GPU acelera las cargas de trabajo de IA generativa y computación de alto rendimiento (HPC) con un rendimiento y una capacidad de memoria que cambian las reglas del juego.
Como la primera GPU con HBM3e, la H200 impulsa la aceleración de la IA generativa y los modelos de lenguaje de gran tamaño (LLMs), así como las cargas de trabajo de HPC para computación científica.

Mejoras de rendimiento basadas en la arquitectura NVIDIA Hopper

La NVIDIA HGX H200, basada en la arquitectura NVIDIA Hopper™ , incorpora la NVIDIA H200 Tensor Core GPU con memoria avanzada para procesar grandes volúmenes de datos.

Experimenta la mejora de rendimiento

La inferencia de Llama2 70B es 1.9 veces más rápida, y la inferencia de GPT-3 175B es 1.6 veces más rápida.
La computación de alto rendimiento es hasta 110 veces más rápida que con CPU.

Más rendimiento y una memoria más grande y rápida

La NVIDIA H200 ofrece 141GB de memoria HBM3e y 4.8TB/s de ancho de banda de memoria para acelerar la IA generativa y los LLMs, mejorar la eficiencia energética y reducir el costo total de propiedad.

Obtén insights con inferencia de LLM de alto rendimiento

Los aceleradores de inferencia de IA deben ofrecer el mayor rendimiento y el menor TCO cuando se despliegan para una gran base de usuarios.
La H200 ofrece una velocidad de inferencia hasta 2 veces más rápida que la GPU H100 al procesar LLMs.

Aceleración de la computación de alto rendimiento

El ancho de banda de memoria es clave para las aplicaciones de HPC, ya que permite una transferencia de datos más rápida y reduce cuellos de botella de procesamiento complejos.
El alto ancho de banda de memoria de la H200 hace más eficiente el acceso y la manipulación de datos, lo que permite obtener resultados hasta 110 veces más rápido que con CPU.

Reducción de energía y TCO

Con la adopción de la H200, la eficiencia energética y el TCO alcanzan un nuevo nivel.
Ofrece un rendimiento sobresaliente dentro del mismo perfil de energía, con beneficios más ecológicos y económicos.

Rendimiento

La arquitectura NVIDIA Hopper ofrece mejoras de rendimiento sin precedentes y sigue elevando el estándar mediante mejoras continuas de software para la H100.
La introducción de la H200 continúa sumando mejoras de rendimiento y garantiza el liderazgo actual y futuro en desempeño mediante mejoras continuas del software compatible.

Lista para la empresa: el software de IA simplifica el desarrollo y el despliegue

La NVIDIA H200 junto con NVIDIA AI Enterprise simplifica la construcción de plataformas preparadas para IA y acelera el desarrollo y despliegue de IA como IA generativa, visión por computadora y voz con IA.
Estas ofrecen seguridad, capacidad de gestión, confiabilidad y soporte de nivel empresarial para obtener insights accionables más rápido y alcanzar valor de negocio tangible con mayor rapidez.

Especificaciones de la NVIDIA H200 Tensor Core GPU

Formato: H200 SXM
FP64: 34 TFLOPS
FP64 Tensor Core: 67 TFLOPS
FP32: 67 TFLOPS
TF32 Tensor Core: 989 TFLOPS
BFLOAT16 Tensor Core: 1,979 TFLOPS
FP16 Tensor Core: 1,979 TFLOPS
FP8 Tensor Core: 3,958 TFLOPS
INT8 Tensor Core: 3,958 TFLOPS
Memoria GPU: 141GB
Ancho de banda de memoria GPU: 4.8TB/s
Decodificador: 7 NVDEC
Potencia máxima de diseño térmico (TDP): hasta 700W (configurable)
GPU multiinstancia: hasta 7 MIGs de 16.5GB cada uno

La opinión de GN⁺

Lo más importante de este artículo es que NVIDIA presentó, con la H200 Tensor Core GPU, la GPU más potente del mundo para cargas de trabajo de IA y HPC. Se espera que esta GPU contribuya no solo a acelerar la IA generativa y los modelos de lenguaje de gran tamaño, sino también al avance de las cargas de trabajo de HPC para computación científica. Este avance tecnológico también resultará interesante para ingenieros de software junior, ya que tiene el potencial de generar cambios innovadores en los proyectos en los que participan. La memoria avanzada y la capacidad de procesamiento de la H200 permitirán cálculos más rápidos, mayor eficiencia energética y un TCO más bajo, lo que probablemente acelerará el progreso en los campos de la IA y la investigación científica.

1 comentarios

GN⁺ 2023-11-15

Opiniones de Hacker News

El die de la GPU H200 es el mismo que el de la H100, pero usa en toda la tarjeta stacks de memoria de 24 GB más rápidos.

El acelerador H200 de NVIDIA se basa en el mismo silicio de 141 GB que la H100, pero no es un silicio nuevo, como sugiere el sitio web de Nvidia.
Curiosidad sobre la posibilidad de que otros fabricantes de chips alcancen o superen a NVIDIA en IA en los próximos años.

Se plantea la duda de si el liderazgo y la experiencia de NVIDIA en IA podrán ser desafiados por otros fabricantes de chips en los próximos años, o si su ventaja será inalcanzable.
Impresiona la mejora de rendimiento de NVIDIA en tan poco tiempo, pero se siente la necesidad de otros competidores en este sector.

Además de la impresión por las mejoras de rendimiento que NVIDIA ha logrado en poco tiempo, se expresa la esperanza de que aparezcan otros competidores como AMD en este mercado.
Pregunta sobre las métricas usadas para inferencia y si también debería esperarse una mejora similar en entrenamiento.

Se mencionan principalmente métricas de rendimiento para la etapa de inferencia de los modelos de IA, y surge la pregunta de si también podrá verse una mejora similar en la etapa de entrenamiento del modelo.
Duda sobre la posición de la H200 frente a la B100, que sale el mismo año.

Si la B100 se lanza el mismo año y ofrece el doble de rendimiento, surge la duda sobre el papel y el precio de la H200.
Sorpresa por el precio de la GPU H100 y preguntas sobre el costo para usarla en experimentos personales y hackatones.

Se expresa sorpresa por el precio inesperadamente alto de la GPU H100 y se pregunta cuál será el precio de la H200 para usarla en experimentos personales y hackatones.
En dispositivos móviles, el espacio real visible en pantalla es muy limitado por los banners de cookies y los anuncios.

Se señala el problema de que, en el entorno móvil, el área visible real de una página web queda reducida a solo una cuarta parte por culpa de los banners de cookies y de publicidad.
No hay explicación del término "GPU", y no tiene ninguna función de salida de video integrada.

Se menciona el hecho de que la GPU no incorpora ninguna función de salida de video.
Petición de que expliquen qué aparece en la foto, con la impresión de que parece una ciudad o edificio sacado de Blade Runner.

Se pide una explicación de los componentes que aparecen en la foto porque es difícil entender qué son, y se comenta que da la impresión de una ciudad o un edificio parecido a algo de Blade Runner.
Pregunta sobre si el límite de la velocidad de inferencia se debe al ancho de banda de memoria o a la capacidad de cómputo.

Surge la duda de si el factor que limita la velocidad de inferencia de los modelos de IA es el ancho de banda de memoria o la capacidad de procesamiento.