DeepSeek: el gigante silencioso que lidera la competencia de IA en China

(chinatalk.media)

6 puntos por GN⁺ 2025-01-01 | 2 comentarios | Compartir por WhatsApp

DeepSeek es una startup china de IA cuyo modelo R1, anunciado recientemente, supera al modelo o1 de OpenAI en varios benchmarks de razonamiento
Aunque todavía tiene poca notoriedad, se ha consolidado como un laboratorio de IA digno de atención

Antecedentes y estrategia de DeepSeek

Su CEO, Liang Wenfeng, fue fundador de High-Flyer, uno de los cuatro mayores hedge funds de China, y DeepSeek cuenta con el apoyo total de esa empresa
Ha adoptado una estrategia enfocada en el desarrollo de tecnología fundamental antes que en aplicaciones comerciales, y en publicar todos sus modelos como código abierto
Tiene acceso al clúster de cómputo de High-Flyer y cuenta con más de 50 mil GPU Hopper
Está enfocada en el desarrollo de AGI (inteligencia artificial general). Su investigación se centra en innovaciones estructurales y algorítmicas que podrían convertirse en un cambio de juego

Principales innovaciones técnicas

Mejoras en la arquitectura del modelo
- MLA (Multi-head Latent Attention): reduce el uso de memoria a entre 5% y 13% del nivel previo
- DeepSeekMoE (Sparse Mixture of Experts): reduce de forma importante el costo computacional
Inicio de una guerra de precios
- El modelo DeepSeek V2 propuso un costo de inferencia de 1 RMB por cada millón de tokens, lo que desató una gran guerra de precios entre las grandes tecnológicas chinas
Reconocimiento internacional
- Un paper de DeepSeek fue calificado como "uno de los mejores del año" y recibió elogios en Silicon Valley y en la comunidad internacional de IA

Filosofía de investigación y cultura organizacional de DeepSeek

Idealismo técnico: DeepSeek persigue un idealismo técnico y pone "lo correcto y lo incorrecto" por encima de las "ganancias y pérdidas". Es una voz poco común en el sector tecnológico chino
Importancia de la innovación: DeepSeek cree que China no debe limitarse a seguir a otros, sino participar en el flujo global de innovación tecnológica
Cultura organizacional autónoma: en lugar de una gestión de arriba hacia abajo, promueve un ambiente autónomo y creativo. Los investigadores pueden colaborar libremente y usar recursos según sus propias ideas
Contratación de talento: valora más la curiosidad y la pasión que los criterios tradicionales, y la mayoría del equipo está formada por egresados de universidades locales e investigadores jóvenes

Visión sobre la AGI

Enfoque de investigación: DeepSeek explora la viabilidad de la AGI con foco en matemáticas, generación de código, multimodalidad y comprensión del lenguaje natural
Perspectiva futura:
- Se estima que la AGI podría hacerse realidad en un plazo de 2 a 10 años, y las matemáticas y el código se consideran el terreno ideal para ponerla a prueba
- El juego final de los modelos a gran escala sería que empresas especializadas en modelos fundacionales y servicios logren una amplia especialización en cada nodo de la cadena de suministro

Opinión sobre el código abierto y la innovación

Valor del código abierto: DeepSeek considera que el valor no está en mantener una ventaja técnica con código cerrado, sino en construir y desarrollar el ecosistema tecnológico
Visión del ecosistema chino de IA: busca contribuir a que China vaya más allá de la innovación en aplicaciones y logre una innovación tecnológica de 0 a 1

Conclusión

DeepSeek está siguiendo un camino distinto al de las startups chinas tradicionales de IA
En lugar de priorizar aplicaciones comerciales, se enfoca en la innovación tecnológica y en hacer realidad la AGI, con la intención de sumarse al flujo global de innovación tecnológica
Este enfoque parece destinado a influir de forma importante en la dirección futura del desarrollo de la IA en China

2 comentarios

xguru 2025-01-03

Deepseek V3 mostró un rendimiento deficiente en benchmarks que prueban si existe sobreajuste

GN⁺ 2025-01-01

Opiniones en Hacker News

Las restricciones a las GPU crearon un entorno que empujó a los desarrolladores chinos a innovar más y hacer más con menos recursos
- Reconocen al equipo de Deepseek
Resulta interesante tanto elogio hacia Deepseek
- Hay razones estructurales y fundamentales por las que Deepseek no puede superar ampliamente a otros modelos
  - La guerra comercial entre Estados Unidos y China podría dejar a Deepseek en desventaja en disponibilidad de cómputo
  - La censura en China limita en cierta medida la recolección de datos y las salidas de Deepseek
  - Como Deepseek es de código abierto, otros modelos pueden replicarlo fácilmente
- Usan con regularidad Gemini, ChatGPT, Deepseek y Claudie, y Deepseek no les parece ni especialmente mejor ni peor que los demás
- Quieren saber por qué algunos creen que Deepseek dominará por completo el campo de los LLM
Creen que China debe convertirse en un contribuyente a medida que avanza económicamente
- En los últimos 30 años no participó de forma sustancial en la innovación de TI
- Ha tratado las leyes de escalado como una forma de esperar mejor hardware y software apoyándose en la ley de Moore
Deepseek ya era un nombre destacado en la comunidad open source de LLM desde el año pasado
- En comparación con otros actores chinos de LLM, gasta menos en marketing
Sorprende que no haya mención de combinar la antigua IA simbólica con las versiones modernas de ML
China tiene un fuerte incentivo para hacer investigación pura que rompa la dependencia de las GPU
- Esperan que no terminemos atacando a los matemáticos de los demás por el bien de la ciencia
Una de las razones por las que la API es barata es que indicaron explícitamente que usan los datos de la API para entrenamiento
- OpenAI y Claude dicen que no usarán los datos para entrenamiento cuando se usa la API
Esperan que la competencia entre las empresas de IA siga de forma saludable
- Ojalá sigan compartiendo tecnología y artículos para que todo mejore en conjunto
Impresiona que DeepSeek haya logrado resultados comparables a o1 y Claude con 10 veces menos recursos
- Para la siguiente etapa del ML harán falta mejores algoritmos y enfoques
Uso interesante (aunque incorrecto) de la palabra "catfish"
- Es distinto de como normalmente se entiende

DeepSeek: el gigante silencioso que lidera la competencia de IA en China

Antecedentes y estrategia de DeepSeek

Principales innovaciones técnicas

Filosofía de investigación y cultura organizacional de DeepSeek

Visión sobre la AGI

Opinión sobre el código abierto y la innovación

Conclusión

Lecturas relacionadas

2 comentarios

Opiniones en Hacker News