9 puntos por GN⁺ 2025-02-22 | 2 comentarios | Compartir por WhatsApp
  • El equipo de DeepSeek AI está trabajando para superar los límites en la exploración de la AGI
  • A partir de la próxima semana, publicarán 5 repositorios como código abierto, como una forma de compartir con transparencia pequeños avances como desarrolladores
  • Estos son componentes fundamentales de sus servicios en línea: código documentado, desplegado y probado en entornos reales
  • Se publicará nuevo código cada día, con el objetivo de impulsar la innovación liderada por la comunidad

Day 1: FlashMLA

  • Kernel eficiente de decodificación MLA para GPUs Hopper
  • Optimizado para servir secuencias de longitud variable
  • Lo publicado actualmente
    • BF16
    • Paged kvcache con tamaño de bloque de 64
  • Benchmark: usando CUDA 12.6 en H800 SXM5, alcanzó hasta 3000GB/s en configuraciones limitadas por memoria y 580 TFLOPS en configuraciones limitadas por cómputo

Day 2: DeepEP

  • Biblioteca de comunicación de alto rendimiento para Mixture-of-Experts(MoE) y Expert Parallelism(EP)
  • Proporciona kernels All-to-All basados en GPU para procesar con alta velocidad las operaciones de despacho y combinación en MoE
  • Soporta operaciones de baja precisión como FP8
  • Aplica el algoritmo de group-limited gating propuesto en el paper de DeepSeek-V3 para optimizar el reenvío de ancho de banda de dominio asimétrico
    • Ejemplo: optimización de transferencia de datos NVLink → RDMA
    • Ofrece alto throughput adecuado para entrenamiento y tareas de prefilling en inferencia
  • Incluye kernel de baja latencia dedicado a RDMA para decodificación de inferencia sensible a la latencia
  • Proporciona técnicas de solapamiento entre comunicación y cómputo (sin ocupar recursos de SM)

Day 3: DeepGEMM

  • Biblioteca para ejecutar de forma eficiente multiplicación de matrices FP8 (GEMM), con soporte para el método de fine-grained scaling propuesto en DeepSeek-V3
  • Soporta tanto GEMM general como GEMM agrupado para Mix-of-Experts(MoE)
  • Está implementada sobre CUDA y, sin compilación adicional durante la instalación, compila kernels en tiempo de ejecución mediante un módulo ligero Just-In-Time(JIT)
  • Actualmente con soporte exclusivo para NVIDIA Hopper Tensor Cores
  • Usa acumulación dual (promotion) basada en CUDA cores para compensar la acumulación inexacta de los Tensor Cores FP8
  • Aprovecha algunos conceptos de CUTLASS y CuTe, pero con un diseño simple que reduce la dependencia de plantillas complejas e incluye solo unas 300 líneas de código de kernel
  • Adecuada para aprender operaciones matriciales FP8 y técnicas de optimización en Hopper
  • A pesar de su diseño ligero, muestra rendimiento similar o superior al de bibliotecas ajustadas a nivel experto en distintos tamaños de matrices

Day 4: Estrategias de procesamiento paralelo optimizadas: DualPipe, EPLB, Profile-Data

  • Estrategias y códigos usados en DeepSeek V3/R1
    • DualPipe: algoritmo de paralelización por canalización bidireccional para el solapamiento entre cómputo y comunicación
    • EPLB: balanceador de carga para Expert-Parallel
    • Profile-Data: perfilado de datos de la infraestructura de DeepSeek para analizar el solapamiento entre cómputo y comunicación

Day 5: Sistema de archivos 3FS y framework de procesamiento de datos Smallpond

  • Fire-Flyer File System(3FS) es un sistema de archivos distribuido de alto rendimiento diseñado para manejar cargas de trabajo de entrenamiento e inferencia de IA
  • Aprovecha SSDs modernos y redes RDMA para ofrecer una capa de almacenamiento compartido y simplificar el desarrollo de aplicaciones distribuidas
  • Características y ventajas principales
    • Rendimiento y usabilidad
      • Arquitectura desacoplada: combina el ancho de banda de red de miles de SSD y cientos de nodos de almacenamiento, permitiendo acceder a recursos de almacenamiento sin importar la localidad
      • Fuerte garantía de consistencia: mantiene la consistencia usando Chain Replication with Apportioned Queries(CRAQ), simplificando el código de las aplicaciones
      • Soporte de interfaz de archivos: ofrece un servicio de metadatos sin estado utilizando un almacén transaccional clave-valor basado en FoundationDB. Como usa interfaces de archivos existentes, no hace falta aprender una nueva API de almacenamiento
    • Soporte para diversas cargas de trabajo
      • Preparación de datos: organiza la salida de pipelines de análisis de datos en una estructura jerárquica de directorios y gestiona eficientemente grandes volúmenes de salidas intermedias
      • Optimización del data loader: permite acceso aleatorio a muestras de entrenamiento desde varios nodos de cómputo sin necesidad de precargar o mezclar previamente el dataset
      • Guardado de checkpoints: soporta guardado paralelo de checkpoints a alta velocidad para entrenamiento a gran escala
      • Optimización de inferencia basada en KVCache: más rentable que el caching basado en DRAM, con alto throughput y gran capacidad de almacenamiento
  • SmallPond - framework ligero de procesamiento de datos construido sobre DuckDB y 3FS
    • Se caracteriza por procesamiento de datos de alto rendimiento, gran escalabilidad y operación sencilla
      • Procesamiento de datos de alto rendimiento: usa DuckDB para procesamiento rápido de datos
      • Soporte para datasets de gran escala: puede procesar datos a escala de petabytes(PB)
      • Simplicidad operativa: fácil de usar sin servicios de larga ejecución

Day 6: Publican la configuración del sistema de inferencia de V3/R1 y sus costos/ingresos operativos

  • Principios de diseño del sistema: el objetivo de optimización del sistema de inferencia DeepSeek-V3/R1 es mayor throughput y menor latencia
    • Para ello, aplican Expert Parallelism(EP) entre nodos para optimizarlo
  • Costos operativos de DeepSeek
    • Promedio de 226 nodos GPU (8 GPUs H800 por nodo)
    • Costo operativo diario: $87,072 (127 millones de wones) - $2/hora por cada H800
    • Ingreso diario teórico (basado en R1): $562027 (820 millones de wones) → margen de 545%
    • Sin embargo, el ingreso real es menor (porque V3 es más barato que R1 y solo una parte del servicio fue monetizada)

Paper de infraestructura de IA 2024 (SC24)

Fire-Flyer AI-HPC: co-diseño rentable de software y hardware para deep learning

  • Debido al rápido avance del deep learning(DL) y los modelos de lenguaje grandes(LLM), los requerimientos de rendimiento de cómputo y ancho de banda crecen exponencialmente
  • El costo de construir HPC se ha disparado por el alto precio de chips de cómputo rápidos e interconexiones de alta velocidad
  • Para resolverlo, introducen la arquitectura Fire-Flyer AI-HPC, que logra optimización de costo y rendimiento sobre la base de un diseño colaborativo entre hardware y software
    • Construyeron el sistema Fire-Flyer 2 usando 10,000 GPUs PCIe A100 para entrenamiento de DL
    • Ofrece un rendimiento similar a DGX-A100, pero reduce el costo a la mitad y el consumo energético en 40%
  • Elementos de optimización de rendimiento
    • HFReduce: acelera la comunicación Allreduce para mejorar la velocidad de sincronización de datos entre GPUs
    • Computation-Storage Integrated Network: aplica diversas técnicas de control de congestión para evitar cuellos de botella de red
    • Software stack: mediante HaiScale, 3FS, HAI-Platform, ejecuta de forma solapada cómputo y comunicación para maximizar la escalabilidad

2 comentarios

 
xguru 2025-02-23

DeepSeek realmente sigue una trayectoria muy interesante. Tengo curiosidad por ver qué cosas van a publicar.

 
GN⁺ 2025-02-22
Opiniones en Hacker News
  • Me pregunto si soy la única persona que espera el lanzamiento de DeepSeek sin sobreanalizarlo. Este hilo se siente lleno de interpretaciones personales

    • DeepSeek sigue siendo una empresa. Es un gran lanzamiento, pero parece que las expectativas y las motivaciones están exageradas
    • La expresión "energía pura de garaje" suena genial
    • Lo que más espero es su stack de inferencia. La mayoría de la gente está ejecutando R1 en un solo nodo H200, pero DeepSeek usó mucha menos RAM por GPU para inferencia e hizo un despliegue MoE basado en clústeres
    • Es más interesante que los 12 días de Navidad de OpenAI
  • A partir de la próxima semana van a liberar como open source 5 repos. Van a publicar uno por día

    • Esto podría verse como un anuncio de un anuncio. Mejor no discutirlo hasta que publiquen los repos reales, porque no hay detalles sobre qué van a open source
    • Estos son bloques de construcción modestos de un servicio en línea. Están documentados, desplegados y probados en entornos reales
  • Expreso un profundo respeto por la innovación y la investigación de DeepSeek. Por todo lo que han publicado

    • La frase "cada línea compartida se convierte en un impulso colectivo que acelera el camino. Los desbloqueos diarios empiezan pronto. No es torre de marfil, es pura energía de garaje e innovación impulsada por la comunidad" suena genial
  • En realidad están desmantelando por completo a OpenAI. Probablemente sin importar cuáles sean sus intenciones

    • Los LLM fueron un "blockchain" más legítimo que cuando la mayoría de las revistas para CIO publicaban ensayos sobre "¿cuál es tu estrategia de blockchain?"
    • La burbuja de la IA va a reventar, y como muy tarde lo hará para fines de 2026
  • Es interesante ver dónde está el foso competitivo en IA. Un buen modelo base siempre puede ser destilado cuando hay acceso a la API. Los system prompts pueden filtrarse y los trucos de UI pueden copiarse. Al final, el foso podría estar en el hardware y la integración vertical

  • ¿Podrían DeepSeek y OpenAI intercambiar nombres?

  • Hacer open source las herramientas de infraestructura realmente podría acelerar la innovación en IA. Tener acceso a repos bien documentados hace mucho más fácil experimentar y construir sobre trabajo existente

    • Me pregunto si estos repos están enfocados en áreas específicas como entrenamiento distribuido o model serving
  • Me pregunto cómo pueden competir las valoraciones de las empresas de modelos fundacionales, ahora que Facebook y DeepSeek ya los han abierto de forma decidida. Como China y Facebook están regalando la mayor parte, no parece que construir estos modelos vaya a crear cientos de miles de millones de dólares en valor