DeepSeek publica FlashMLA como código abierto (1 de 5)

xguru · 2025-02-24T15:14:21+09:00

Kernel de decodificación MLA eficiente para GPUs Hopper Optimizado para servir secuencias de longitud variable Lo que se ha lanzado hasta ahora BF16 Paged kvcache con tamaño de bloque de 64 Benchmark: usando CUDA 12.6 en H800 SXM5, alcanza hasta 3000 GB/s en configuraciones limitadas por memoria y 580 TFLOPS en configuraciones limitadas por cómputo Inspirado en FlashAttention 2&3 y cutlass Es la primera de las 5 publicaciones de código abierto presentadas como DeepSeek Open Infra

(github.com/deepseek-ai)

5 puntos por xguru 2025-02-24 | 2 comentarios | Compartir por WhatsApp

Kernel de decodificación MLA eficiente para GPUs Hopper
Optimizado para servir secuencias de longitud variable
Lo que se ha lanzado hasta ahora
- BF16
- Paged kvcache con tamaño de bloque de 64
Benchmark: usando CUDA 12.6 en H800 SXM5, alcanza hasta 3000 GB/s en configuraciones limitadas por memoria y 580 TFLOPS en configuraciones limitadas por cómputo
Inspirado en FlashAttention 2&3 y cutlass
Es la primera de las 5 publicaciones de código abierto presentadas como DeepSeek Open Infra

2 comentarios

GN⁺ 2025-02-25

Comentarios en Hacker News

vLLM comenzó a dar soporte a MLA para los modelos de DeepSeek hace 3 semanas. Esto ofrece un rendimiento de generación 3 veces mayor y una capacidad de memoria de tokens 10 veces superior
- MHA sigue siendo más rápido en entornos de bajo QPS
- Según evidencia teórica, con la misma sobrecarga de caché KV, MLA ofrece de forma consistente mayor capacidad de representación que GQA
- Es posible convertir modelos de preentrenamiento ampliamente usados basados en GQA (LLaMA, Qwen, Mixtral, etc.) a modelos basados en MLA
- Es muy probable que MLA se convierta en el estándar
Si DeepSeek R1 hubiera usado MHA estándar, habría necesitado 1749 KB por token para almacenar la caché KV
- Cuando una conversación llega a unos 46,000 tokens, la caché KV termina superando toda la capacidad de almacenamiento de una sola H100
- Con MLA, cada token consume 125 KB. Esto permite llegar hasta antes de superar unos 640,000 tokens (2 veces Ulysses)
Soporte para BF16, caché KV paginada (tamaño de bloque 64), y en H800 está limitado por memoria a 3000 GB/s y por cómputo a 580 TFLOPS
- Probablemente esto les ahorró muchísimo tiempo a muchos desarrolladores de las FANG
- Lo decepcionante es que solo soporta el forward pass. El verdadero secreto estaba en el backward pass
- Tenía curiosidad por cómo implementaron el scheduler de doble tubería
MLA probablemente significa Multi-head latent attention
Me confunde si no había sanciones sobre las GPU Hopper para las empresas chinas. ¿Están reconociendo que pudieron acceder a H100 a pesar de las sanciones de EE. UU.?
De verdad esperaba que con IA pudiéramos traer de vuelta los juegos Flash
¿Qué se puede hacer con esto?
OpenAI está de vuelta

xguru 2025-02-24

FlashAttention-2: Attention más rápida gracias a un mejor procesamiento en paralelo y división de tareas
FlashAttention-3: Attention rápida y precisa con asincronía y baja precisión

DeepSeek publica FlashMLA como código abierto (1 de 5)

Lecturas relacionadas

2 comentarios

Comentarios en Hacker News