Velocidad y Python, lo mejor de ambos mundos: cómo usar CUDA Graphs para ejecutar código Python rápido en deep learning

(discuss.pytorch.kr)

15 puntos por ninebow 2023-09-10 | Aún no hay comentarios. | Compartir por WhatsApp

En los últimos años, la velocidad de las GPU ha aumentado de forma explosiva, y también han cambiado los métodos de optimización para las cargas de trabajo de deep learning. En PyTorch también se han añadido funciones de optimización como torch.compile(), pero en algunas cargas de trabajo, incluidos los LLM, las mejoras siguen en progreso.

(Mientras esperamos mejoras en torch.compile()), encontré un artículo que presenta CUDA Graph como un método de optimización que puede aplicarse de inmediato, así que lo traduje. (⚠️Atención: al final del artículo se incluye parte de la promoción de Fireworks.ai, una empresa que desarrolla y ofrece una plataforma de inferencia para LLM.)

En este artículo, CUDA Graphs se presenta en el siguiente orden:

Introducción al método de optimización existente de superposición CPU/GPU (overlap)
Secciones donde se produce sobrecarga de CPU
Técnicas para optimizar la sobrecarga de CPU y CUDA Graphs
Introducción a un caso de aplicación de CUDA Graphs al modelo LLaMA2-7B
Presentación de las ganancias de rendimiento obtenidas con CUDA Graphs
Apéndice: problemas al usar torch.compile() en el momento actual (PyTorch 2.0.1) y cómo resolverlos

Velocidad y Python, lo mejor de ambos mundos: cómo usar CUDA Graphs para ejecutar código Python rápido en deep learning

Lecturas relacionadas

Aún no hay comentarios.