El camino de DeepSeek hacia el open source de su motor de inferencia

(github.com/deepseek-ai)

8 puntos por GN⁺ 2025-04-15 | 1 comentarios | Compartir por WhatsApp

El equipo de DeepSeek dio a conocer su plan para devolver a la comunidad open source su motor interno de inferencia (DeepSeek Inference Engine)
El motor de inferencia actual está basado en vLLM, y ante el aumento de la demanda de despliegue de los modelos DeepSeek-V3 y R1, están considerando compartirlo
La publicación completa es difícil debido al código existente, las dependencias de infraestructura y la carga de mantenimiento, por lo que cambiarán de dirección hacia una contribución modular y por funcionalidades
En adelante, planean colaborar estrechamente con la comunidad open source para compartir optimizaciones de rendimiento y funciones reutilizables
DeepSeek actuará de forma proactiva en la optimización de inferencia y en la sincronización del soporte Day-0 con la comunidad al lanzar modelos

El camino de DeepSeek hacia el open source de su motor de inferencia

Reacción a Open Source Week y contribuciones posteriores

En la reciente Open Source Week, publicaron varias bibliotecas como open source
Con una respuesta positiva de la comunidad, se dieron activamente colaboraciones, debates y correcciones de bugs
A partir de esto, decidieron compartir como open source el motor interno de inferencia de DeepSeek

Tecnología base

El framework de entrenamiento de DeepSeek está basado en PyTorch
El motor de inferencia fue desarrollado a partir de un fork temprano del proyecto vLLM e incluye muchas personalizaciones especializadas para los modelos de DeepSeek

Restricciones prácticas para liberar todo el proyecto como open source

Diferencias en el codebase: comenzó a partir de un fork de vLLM de hace más de un año; aunque la estructura es parecida, ha cambiado de forma considerable
Dependencias de infraestructura interna: está fuertemente acoplado a la infraestructura propia de DeepSeek, como herramientas de gestión de clústeres, lo que dificulta su uso externo
Falta de recursos de mantenimiento: como equipo de investigación pequeño, no cuentan con capacidad suficiente para gestionar de forma continua un proyecto open source de gran escala

Alternativa: colaboración con proyectos open source existentes

En adelante, planean contribuir en la siguiente dirección:

Extracción de funciones modulares: separar componentes reutilizables en bibliotecas independientes para contribuirlos
Compartir optimizaciones de rendimiento: reflejar en proyectos open source existentes las mejoras de rendimiento y las ideas de diseño de su implementación interna

Agradecimiento a la comunidad y visión a futuro

Sin la existencia de la comunidad open source, no habría sido posible avanzar en el desarrollo de AGI
Los sistemas operativos, lenguajes, frameworks de ML y motores de inferencia: la base de la innovación en IA es el ecosistema open source
DeepSeek seguirá esforzándose, en coordinación con la comunidad, para que los beneficios de la AGI puedan contribuir a toda la humanidad

> [!NOTE]
> Este texto es una guía sobre la estrategia para convertir en open source el codebase de DeepSeek Inference Engine.
> De cara a futuras publicaciones de modelos, DeepSeek planea seguir ampliando la colaboración con la comunidad open source y con sus socios de hardware.
> En particular, antes del lanzamiento de modelos, compartirá y alineará de antemano las tecnologías relacionadas con la inferencia para coordinar el ecosistema y hacer posible el soporte SOTA desde el Day-0 en diversos entornos de hardware.

1 comentarios

GN⁺ 2025-04-15

Opiniones de Hacker News

En marzo, vLLM aplicó mejoras del artículo de DeepSeek, y el rendimiento de DeepSeek en vLLM v0.7.3 mejoró más de 3 veces
- Aun así, todavía hay mucho margen de mejora
- Se hizo benchmark con vLLM usando el dataset de sharegpt a 5K tokens/seg, y con random 2000/100 a 12K tokens/seg
- Según el resumen del sistema de inferencia DeepSeek-V3/R1, cada nodo H800 ofrece en promedio 73.7k tokens/seg de entrada durante el prefilling (incluyendo cache hit) o 14.8k tokens/seg de salida durante el decoding
- DeepSeek despliega una arquitectura de inferencia distinta, pero esto muestra que todavía hay mucho margen de mejora
- Se espera más open source
Coincido con el punto de bifurcación del codebase
- Basarse en un fork inicial de vLLM y personalizarlo para ajustarlo a los modelos de DeepSeek dificulta escalarlo
- Separar una subbiblioteca mantenible y compartir la información directamente es una buena forma de colaborar con la comunidad
- Hay obstáculos, pero no eligieron el camino fácil de no contribuir
- Puede que sea mejor compartir solo información sobre la tecnología, pero sigue siendo compartir conocimiento
- Parece que para ellos sería más fácil no hacerlo
- Mis aplausos para ellos
La motivación de las empresas de IA comerciales para compartir resultados de investigación y know-how
- Por qué Google publicó la arquitectura Transformer
- Puede que quieran hacer algo bueno por la humanidad y promover el progreso
- Me pregunto cómo la dirección de una empresa puede tomar acciones que van en contra del beneficio comercial
- Me pregunto si hay una lógica comercial que incentive compartir información y propiedad intelectual
"Hay cosas interesantes para la comunidad open source, pero ejecutarlas fuera de la empresa requiere mucha limpieza, y no hay personal para mantenerlas adecuadamente después del lanzamiento"
- Muchas empresas están en esta situación
- Ojalá lo liberaran como open source con una nota de "no vamos a mantener esto, pero siéntanse libres de hacer fork"
He visto buen trabajo de ingeniería por parte de DeepSeek
- Ojalá continúe
Me pregunto si es una estrategia de China lanzar en masa herramientas, modelos, etc. de IA open source para responder al dominio de EE. UU.
- Creo que sería algo bueno para el mercado
tl;dr: "el fork de vLLM se volvió imposible de mantener, así que ahora van a reconstruirlo públicamente"
Se siente como una forma de implementar censura

El camino de DeepSeek hacia el open source de su motor de inferencia