5 puntos por xguru 2025-02-24 | 2 comentarios | Compartir por WhatsApp

2 comentarios

 
GN⁺ 2025-02-25

Comentarios en Hacker News

  • vLLM comenzó a dar soporte a MLA para los modelos de DeepSeek hace 3 semanas. Esto ofrece un rendimiento de generación 3 veces mayor y una capacidad de memoria de tokens 10 veces superior
    • MHA sigue siendo más rápido en entornos de bajo QPS
    • Según evidencia teórica, con la misma sobrecarga de caché KV, MLA ofrece de forma consistente mayor capacidad de representación que GQA
    • Es posible convertir modelos de preentrenamiento ampliamente usados basados en GQA (LLaMA, Qwen, Mixtral, etc.) a modelos basados en MLA
    • Es muy probable que MLA se convierta en el estándar
  • Si DeepSeek R1 hubiera usado MHA estándar, habría necesitado 1749 KB por token para almacenar la caché KV
    • Cuando una conversación llega a unos 46,000 tokens, la caché KV termina superando toda la capacidad de almacenamiento de una sola H100
    • Con MLA, cada token consume 125 KB. Esto permite llegar hasta antes de superar unos 640,000 tokens (2 veces Ulysses)
  • Soporte para BF16, caché KV paginada (tamaño de bloque 64), y en H800 está limitado por memoria a 3000 GB/s y por cómputo a 580 TFLOPS
    • Probablemente esto les ahorró muchísimo tiempo a muchos desarrolladores de las FANG
    • Lo decepcionante es que solo soporta el forward pass. El verdadero secreto estaba en el backward pass
    • Tenía curiosidad por cómo implementaron el scheduler de doble tubería
  • MLA probablemente significa Multi-head latent attention
  • Me confunde si no había sanciones sobre las GPU Hopper para las empresas chinas. ¿Están reconociendo que pudieron acceder a H100 a pesar de las sanciones de EE. UU.?
  • De verdad esperaba que con IA pudiéramos traer de vuelta los juegos Flash
  • ¿Qué se puede hacer con esto?
  • OpenAI está de vuelta