DeepSeek publica FlashMLA como código abierto (1 de 5)
(github.com/deepseek-ai)- Kernel de decodificación MLA eficiente para GPUs Hopper
- Optimizado para servir secuencias de longitud variable
- Lo que se ha lanzado hasta ahora
- BF16
Paged kvcachecon tamaño de bloque de 64
- Benchmark: usando CUDA 12.6 en H800 SXM5, alcanza hasta 3000 GB/s en configuraciones limitadas por memoria y 580 TFLOPS en configuraciones limitadas por cómputo
- Inspirado en FlashAttention 2&3 y cutlass
- Es la primera de las 5 publicaciones de código abierto presentadas como DeepSeek Open Infra
2 comentarios
Comentarios en Hacker News
FlashAttention-2: Attention más rápida gracias a un mejor procesamiento en paralelo y división de tareas
FlashAttention-3: Attention rápida y precisa con asincronía y baja precisión