- DeepSeek es una startup china de IA cuyo modelo R1, anunciado recientemente, supera al modelo o1 de OpenAI en varios benchmarks de razonamiento
- Aunque todavía tiene poca notoriedad, se ha consolidado como un laboratorio de IA digno de atención
Antecedentes y estrategia de DeepSeek
- Su CEO, Liang Wenfeng, fue fundador de High-Flyer, uno de los cuatro mayores hedge funds de China, y DeepSeek cuenta con el apoyo total de esa empresa
- Ha adoptado una estrategia enfocada en el desarrollo de tecnología fundamental antes que en aplicaciones comerciales, y en publicar todos sus modelos como código abierto
- Tiene acceso al clúster de cómputo de High-Flyer y cuenta con más de 50 mil GPU Hopper
- Está enfocada en el desarrollo de AGI (inteligencia artificial general). Su investigación se centra en innovaciones estructurales y algorítmicas que podrían convertirse en un cambio de juego
Principales innovaciones técnicas
- Mejoras en la arquitectura del modelo
- MLA (Multi-head Latent Attention): reduce el uso de memoria a entre 5% y 13% del nivel previo
- DeepSeekMoE (Sparse Mixture of Experts): reduce de forma importante el costo computacional
- Inicio de una guerra de precios
- El modelo DeepSeek V2 propuso un costo de inferencia de 1 RMB por cada millón de tokens, lo que desató una gran guerra de precios entre las grandes tecnológicas chinas
- Reconocimiento internacional
- Un paper de DeepSeek fue calificado como "uno de los mejores del año" y recibió elogios en Silicon Valley y en la comunidad internacional de IA
Filosofía de investigación y cultura organizacional de DeepSeek
- Idealismo técnico: DeepSeek persigue un idealismo técnico y pone "lo correcto y lo incorrecto" por encima de las "ganancias y pérdidas". Es una voz poco común en el sector tecnológico chino
- Importancia de la innovación: DeepSeek cree que China no debe limitarse a seguir a otros, sino participar en el flujo global de innovación tecnológica
- Cultura organizacional autónoma: en lugar de una gestión de arriba hacia abajo, promueve un ambiente autónomo y creativo. Los investigadores pueden colaborar libremente y usar recursos según sus propias ideas
- Contratación de talento: valora más la curiosidad y la pasión que los criterios tradicionales, y la mayoría del equipo está formada por egresados de universidades locales e investigadores jóvenes
Visión sobre la AGI
- Enfoque de investigación: DeepSeek explora la viabilidad de la AGI con foco en matemáticas, generación de código, multimodalidad y comprensión del lenguaje natural
- Perspectiva futura:
- Se estima que la AGI podría hacerse realidad en un plazo de 2 a 10 años, y las matemáticas y el código se consideran el terreno ideal para ponerla a prueba
- El juego final de los modelos a gran escala sería que empresas especializadas en modelos fundacionales y servicios logren una amplia especialización en cada nodo de la cadena de suministro
Opinión sobre el código abierto y la innovación
- Valor del código abierto: DeepSeek considera que el valor no está en mantener una ventaja técnica con código cerrado, sino en construir y desarrollar el ecosistema tecnológico
- Visión del ecosistema chino de IA: busca contribuir a que China vaya más allá de la innovación en aplicaciones y logre una innovación tecnológica de 0 a 1
Conclusión
- DeepSeek está siguiendo un camino distinto al de las startups chinas tradicionales de IA
- En lugar de priorizar aplicaciones comerciales, se enfoca en la innovación tecnológica y en hacer realidad la AGI, con la intención de sumarse al flujo global de innovación tecnológica
- Este enfoque parece destinado a influir de forma importante en la dirección futura del desarrollo de la IA en China
2 comentarios
Deepseek V3 mostró un rendimiento deficiente en benchmarks que prueban si existe sobreajuste
Opiniones en Hacker News
Las restricciones a las GPU crearon un entorno que empujó a los desarrolladores chinos a innovar más y hacer más con menos recursos
Resulta interesante tanto elogio hacia Deepseek
Creen que China debe convertirse en un contribuyente a medida que avanza económicamente
Deepseek ya era un nombre destacado en la comunidad open source de LLM desde el año pasado
Sorprende que no haya mención de combinar la antigua IA simbólica con las versiones modernas de ML
China tiene un fuerte incentivo para hacer investigación pura que rompa la dependencia de las GPU
Una de las razones por las que la API es barata es que indicaron explícitamente que usan los datos de la API para entrenamiento
Esperan que la competencia entre las empresas de IA siga de forma saludable
Impresiona que DeepSeek haya logrado resultados comparables a o1 y Claude con 10 veces menos recursos
Uso interesante (aunque incorrecto) de la palabra "catfish"