DeepSeek publica DeepEP como código abierto (2 de 5)

(github.com/deepseek-ai)

3 puntos por xguru 2025-02-25 | Aún no hay comentarios. | Compartir por WhatsApp

Biblioteca de comunicación de alto rendimiento para Mixture-of-Experts (MoE) y Expert Parallelism (EP)
Proporciona un kernel All-to-All basado en GPU para procesar rápidamente las operaciones de despacho y combinación de MoE
Soporta operaciones de baja precisión como FP8
Aplica el algoritmo de compuerta con grupos limitados (group-limited gating) propuesto en el paper de DeepSeek-V3 para optimizar el reenvío de ancho de banda de dominio asimétrico
- Ejemplo: optimización de transferencia de datos NVLink → RDMA
- Ofrece alto rendimiento, adecuado para entrenamiento y tareas de prefilling de inferencia
Incluye un kernel de baja latencia exclusivo para RDMA para decodificación de inferencia sensible a la latencia
Proporciona una técnica de solapamiento entre comunicación y cómputo (sin ocupar recursos de SM)

Rendimiento

DeepEP probó su rendimiento en un entorno con GPU H800 y una red RDMA InfiniBand CX7 de 400Gb/s
Con base en la configuración de DeepSeek-V3/R1, se aplicó una estructura con 4096 tokens por lote, 7168 nodos ocultos, grupo top-4 y expertos top-8, usando despacho en FP8 y combinación en BF16
Como resultado de las pruebas, la comunicación dentro del nodo (basada en NVLink) mostró un ancho de banda superior a ~150GB/s, mientras que la comunicación entre nodos (basada en RDMA) registró entre 40 y 47GB/s según la cantidad de expertos
Se observó una ligera tendencia al aumento del ancho de banda RDMA a medida que crecía el número de expertos (por ejemplo, 43GB/s con 16 expertos y 46GB/s con 64 expertos)

Al medir el rendimiento del kernel de baja latencia, la latencia se redujo considerablemente frente al kernel general
En un entorno que procesaba 128 tokens por lote, la latencia aumentó según la cantidad de expertos, pero el ancho de banda RDMA se mantuvo relativamente estable
Por ejemplo, fue de 163 microsegundos (us) con 8 expertos y aumentó a 194 microsegundos (us) con 256 expertos
En la operación de combinación (combine), la latencia fue mayor que en el despacho, y el ancho de banda RDMA tendió a disminuir gradualmente por debajo de 40GB/s a medida que aumentaba el número de expertos
En otras palabras, el kernel de baja latencia funciona muy rápido con grupos pequeños de expertos, pero al aumentar la cantidad de expertos también aumenta la latencia, por lo que se necesita un equilibrio adecuado

Es posible aislar tráfico usando Virtual Lanes (VL) de InfiniBand
Método de separación recomendado:
- Trabajos que usan el kernel general
- Trabajos que usan el kernel de baja latencia
- Otros trabajos
Es posible configurar VL mediante la variable de entorno NVSHMEM_IB_SL

Soporta enrutamiento adaptativo en switches InfiniBand
Puede activarse en el kernel de baja latencia, pero debe desactivarse en el kernel general (si se activa, hay riesgo de corrupción de datos)
Recomendaciones de configuración:
- Cuando la carga de red es alta: activar enrutamiento adaptativo
- Cuando la carga de red es baja: mantener enrutamiento estático

Uso de instrucciones PTX no oficiales: se utiliza ld.global.nc.L1::no_allocate.L2::256B para optimizar el rendimiento
- En la arquitectura Hopper funciona normalmente, pero en otras plataformas puede desactivarse con DISABLE_AGGRESSIVE_PTX_INSTRS=1
Se recomienda autotuning: para lograr el mejor rendimiento, es necesario aplicar la configuración después de probar el desempeño en cada clúster