- El equipo de DeepSeek AI está trabajando para superar los límites en la exploración de la AGI
- A partir de la próxima semana, publicarán 5 repositorios como código abierto, como una forma de compartir con transparencia pequeños avances como desarrolladores
- Estos son componentes fundamentales de sus servicios en línea: código documentado, desplegado y probado en entornos reales
- Se publicará nuevo código cada día, con el objetivo de impulsar la innovación liderada por la comunidad
- Kernel eficiente de decodificación MLA para GPUs Hopper
- Optimizado para servir secuencias de longitud variable
- Lo publicado actualmente
- BF16
Paged kvcache con tamaño de bloque de 64
- Benchmark: usando CUDA 12.6 en H800 SXM5, alcanzó hasta 3000GB/s en configuraciones limitadas por memoria y 580 TFLOPS en configuraciones limitadas por cómputo
- Biblioteca de comunicación de alto rendimiento para Mixture-of-Experts(MoE) y Expert Parallelism(EP)
- Proporciona kernels All-to-All basados en GPU para procesar con alta velocidad las operaciones de despacho y combinación en MoE
- Soporta operaciones de baja precisión como FP8
- Aplica el algoritmo de group-limited gating propuesto en el paper de DeepSeek-V3 para optimizar el reenvío de ancho de banda de dominio asimétrico
- Ejemplo: optimización de transferencia de datos NVLink → RDMA
- Ofrece alto throughput adecuado para entrenamiento y tareas de prefilling en inferencia
- Incluye kernel de baja latencia dedicado a RDMA para decodificación de inferencia sensible a la latencia
- Proporciona técnicas de solapamiento entre comunicación y cómputo (sin ocupar recursos de SM)
- Biblioteca para ejecutar de forma eficiente multiplicación de matrices FP8 (GEMM), con soporte para el método de fine-grained scaling propuesto en DeepSeek-V3
- Soporta tanto GEMM general como GEMM agrupado para Mix-of-Experts(MoE)
- Está implementada sobre CUDA y, sin compilación adicional durante la instalación, compila kernels en tiempo de ejecución mediante un módulo ligero Just-In-Time(JIT)
- Actualmente con soporte exclusivo para NVIDIA Hopper Tensor Cores
- Usa acumulación dual (promotion) basada en CUDA cores para compensar la acumulación inexacta de los Tensor Cores FP8
- Aprovecha algunos conceptos de CUTLASS y CuTe, pero con un diseño simple que reduce la dependencia de plantillas complejas e incluye solo unas 300 líneas de código de kernel
- Adecuada para aprender operaciones matriciales FP8 y técnicas de optimización en Hopper
- A pesar de su diseño ligero, muestra rendimiento similar o superior al de bibliotecas ajustadas a nivel experto en distintos tamaños de matrices
- Estrategias y códigos usados en DeepSeek V3/R1
- DualPipe: algoritmo de paralelización por canalización bidireccional para el solapamiento entre cómputo y comunicación
- EPLB: balanceador de carga para Expert-Parallel
- Profile-Data: perfilado de datos de la infraestructura de DeepSeek para analizar el solapamiento entre cómputo y comunicación
- Fire-Flyer File System(3FS) es un sistema de archivos distribuido de alto rendimiento diseñado para manejar cargas de trabajo de entrenamiento e inferencia de IA
- Aprovecha SSDs modernos y redes RDMA para ofrecer una capa de almacenamiento compartido y simplificar el desarrollo de aplicaciones distribuidas
- Características y ventajas principales
- Rendimiento y usabilidad
- Arquitectura desacoplada: combina el ancho de banda de red de miles de SSD y cientos de nodos de almacenamiento, permitiendo acceder a recursos de almacenamiento sin importar la localidad
- Fuerte garantía de consistencia: mantiene la consistencia usando Chain Replication with Apportioned Queries(CRAQ), simplificando el código de las aplicaciones
- Soporte de interfaz de archivos: ofrece un servicio de metadatos sin estado utilizando un almacén transaccional clave-valor basado en FoundationDB. Como usa interfaces de archivos existentes, no hace falta aprender una nueva API de almacenamiento
- Soporte para diversas cargas de trabajo
- Preparación de datos: organiza la salida de pipelines de análisis de datos en una estructura jerárquica de directorios y gestiona eficientemente grandes volúmenes de salidas intermedias
- Optimización del data loader: permite acceso aleatorio a muestras de entrenamiento desde varios nodos de cómputo sin necesidad de precargar o mezclar previamente el dataset
- Guardado de checkpoints: soporta guardado paralelo de checkpoints a alta velocidad para entrenamiento a gran escala
- Optimización de inferencia basada en KVCache: más rentable que el caching basado en DRAM, con alto throughput y gran capacidad de almacenamiento
- SmallPond - framework ligero de procesamiento de datos construido sobre DuckDB y 3FS
- Se caracteriza por procesamiento de datos de alto rendimiento, gran escalabilidad y operación sencilla
- Procesamiento de datos de alto rendimiento: usa DuckDB para procesamiento rápido de datos
- Soporte para datasets de gran escala: puede procesar datos a escala de petabytes(PB)
- Simplicidad operativa: fácil de usar sin servicios de larga ejecución
- Principios de diseño del sistema: el objetivo de optimización del sistema de inferencia DeepSeek-V3/R1 es mayor throughput y menor latencia
- Para ello, aplican Expert Parallelism(EP) entre nodos para optimizarlo
- Costos operativos de DeepSeek
- Promedio de 226 nodos GPU (8 GPUs H800 por nodo)
- Costo operativo diario: $87,072 (127 millones de wones) - $2/hora por cada H800
- Ingreso diario teórico (basado en R1): $562027 (820 millones de wones) → margen de 545%
- Sin embargo, el ingreso real es menor (porque V3 es más barato que R1 y solo una parte del servicio fue monetizada)
Paper de infraestructura de IA 2024 (SC24)
Fire-Flyer AI-HPC: co-diseño rentable de software y hardware para deep learning
- Debido al rápido avance del deep learning(DL) y los modelos de lenguaje grandes(LLM), los requerimientos de rendimiento de cómputo y ancho de banda crecen exponencialmente
- El costo de construir HPC se ha disparado por el alto precio de chips de cómputo rápidos e interconexiones de alta velocidad
- Para resolverlo, introducen la arquitectura Fire-Flyer AI-HPC, que logra optimización de costo y rendimiento sobre la base de un diseño colaborativo entre hardware y software
- Construyeron el sistema Fire-Flyer 2 usando 10,000 GPUs PCIe A100 para entrenamiento de DL
- Ofrece un rendimiento similar a DGX-A100, pero reduce el costo a la mitad y el consumo energético en 40%
- Elementos de optimización de rendimiento
- HFReduce: acelera la comunicación Allreduce para mejorar la velocidad de sincronización de datos entre GPUs
- Computation-Storage Integrated Network: aplica diversas técnicas de control de congestión para evitar cuellos de botella de red
- Software stack: mediante HaiScale, 3FS, HAI-Platform, ejecuta de forma solapada cómputo y comunicación para maximizar la escalabilidad
2 comentarios
DeepSeek realmente sigue una trayectoria muy interesante. Tengo curiosidad por ver qué cosas van a publicar.
Opiniones en Hacker News
Me pregunto si soy la única persona que espera el lanzamiento de DeepSeek sin sobreanalizarlo. Este hilo se siente lleno de interpretaciones personales
A partir de la próxima semana van a liberar como open source 5 repos. Van a publicar uno por día
Expreso un profundo respeto por la innovación y la investigación de DeepSeek. Por todo lo que han publicado
En realidad están desmantelando por completo a OpenAI. Probablemente sin importar cuáles sean sus intenciones
Es interesante ver dónde está el foso competitivo en IA. Un buen modelo base siempre puede ser destilado cuando hay acceso a la API. Los system prompts pueden filtrarse y los trucos de UI pueden copiarse. Al final, el foso podría estar en el hardware y la integración vertical
¿Podrían DeepSeek y OpenAI intercambiar nombres?
Hacer open source las herramientas de infraestructura realmente podría acelerar la innovación en IA. Tener acceso a repos bien documentados hace mucho más fácil experimentar y construir sobre trabajo existente
Me pregunto cómo pueden competir las valoraciones de las empresas de modelos fundacionales, ahora que Facebook y DeepSeek ya los han abierto de forma decidida. Como China y Facebook están regalando la mayor parte, no parece que construir estos modelos vaya a crear cientos de miles de millones de dólares en valor