6 puntos por GN⁺ 2025-01-01 | 2 comentarios | Compartir por WhatsApp
  • DeepSeek es una startup china de IA cuyo modelo R1, anunciado recientemente, supera al modelo o1 de OpenAI en varios benchmarks de razonamiento
  • Aunque todavía tiene poca notoriedad, se ha consolidado como un laboratorio de IA digno de atención

Antecedentes y estrategia de DeepSeek

  • Su CEO, Liang Wenfeng, fue fundador de High-Flyer, uno de los cuatro mayores hedge funds de China, y DeepSeek cuenta con el apoyo total de esa empresa
  • Ha adoptado una estrategia enfocada en el desarrollo de tecnología fundamental antes que en aplicaciones comerciales, y en publicar todos sus modelos como código abierto
  • Tiene acceso al clúster de cómputo de High-Flyer y cuenta con más de 50 mil GPU Hopper
  • Está enfocada en el desarrollo de AGI (inteligencia artificial general). Su investigación se centra en innovaciones estructurales y algorítmicas que podrían convertirse en un cambio de juego

Principales innovaciones técnicas

  • Mejoras en la arquitectura del modelo
    • MLA (Multi-head Latent Attention): reduce el uso de memoria a entre 5% y 13% del nivel previo
    • DeepSeekMoE (Sparse Mixture of Experts): reduce de forma importante el costo computacional
  • Inicio de una guerra de precios
    • El modelo DeepSeek V2 propuso un costo de inferencia de 1 RMB por cada millón de tokens, lo que desató una gran guerra de precios entre las grandes tecnológicas chinas
  • Reconocimiento internacional
    • Un paper de DeepSeek fue calificado como "uno de los mejores del año" y recibió elogios en Silicon Valley y en la comunidad internacional de IA

Filosofía de investigación y cultura organizacional de DeepSeek

  • Idealismo técnico: DeepSeek persigue un idealismo técnico y pone "lo correcto y lo incorrecto" por encima de las "ganancias y pérdidas". Es una voz poco común en el sector tecnológico chino
  • Importancia de la innovación: DeepSeek cree que China no debe limitarse a seguir a otros, sino participar en el flujo global de innovación tecnológica
  • Cultura organizacional autónoma: en lugar de una gestión de arriba hacia abajo, promueve un ambiente autónomo y creativo. Los investigadores pueden colaborar libremente y usar recursos según sus propias ideas
  • Contratación de talento: valora más la curiosidad y la pasión que los criterios tradicionales, y la mayoría del equipo está formada por egresados de universidades locales e investigadores jóvenes

Visión sobre la AGI

  • Enfoque de investigación: DeepSeek explora la viabilidad de la AGI con foco en matemáticas, generación de código, multimodalidad y comprensión del lenguaje natural
  • Perspectiva futura:
    • Se estima que la AGI podría hacerse realidad en un plazo de 2 a 10 años, y las matemáticas y el código se consideran el terreno ideal para ponerla a prueba
    • El juego final de los modelos a gran escala sería que empresas especializadas en modelos fundacionales y servicios logren una amplia especialización en cada nodo de la cadena de suministro

Opinión sobre el código abierto y la innovación

  • Valor del código abierto: DeepSeek considera que el valor no está en mantener una ventaja técnica con código cerrado, sino en construir y desarrollar el ecosistema tecnológico
  • Visión del ecosistema chino de IA: busca contribuir a que China vaya más allá de la innovación en aplicaciones y logre una innovación tecnológica de 0 a 1

Conclusión

  • DeepSeek está siguiendo un camino distinto al de las startups chinas tradicionales de IA
  • En lugar de priorizar aplicaciones comerciales, se enfoca en la innovación tecnológica y en hacer realidad la AGI, con la intención de sumarse al flujo global de innovación tecnológica
  • Este enfoque parece destinado a influir de forma importante en la dirección futura del desarrollo de la IA en China

2 comentarios

 
GN⁺ 2025-01-01
Opiniones en Hacker News
  • Las restricciones a las GPU crearon un entorno que empujó a los desarrolladores chinos a innovar más y hacer más con menos recursos

    • Reconocen al equipo de Deepseek
  • Resulta interesante tanto elogio hacia Deepseek

    • Hay razones estructurales y fundamentales por las que Deepseek no puede superar ampliamente a otros modelos
      • La guerra comercial entre Estados Unidos y China podría dejar a Deepseek en desventaja en disponibilidad de cómputo
      • La censura en China limita en cierta medida la recolección de datos y las salidas de Deepseek
      • Como Deepseek es de código abierto, otros modelos pueden replicarlo fácilmente
    • Usan con regularidad Gemini, ChatGPT, Deepseek y Claudie, y Deepseek no les parece ni especialmente mejor ni peor que los demás
    • Quieren saber por qué algunos creen que Deepseek dominará por completo el campo de los LLM
  • Creen que China debe convertirse en un contribuyente a medida que avanza económicamente

    • En los últimos 30 años no participó de forma sustancial en la innovación de TI
    • Ha tratado las leyes de escalado como una forma de esperar mejor hardware y software apoyándose en la ley de Moore
  • Deepseek ya era un nombre destacado en la comunidad open source de LLM desde el año pasado

    • En comparación con otros actores chinos de LLM, gasta menos en marketing
  • Sorprende que no haya mención de combinar la antigua IA simbólica con las versiones modernas de ML

  • China tiene un fuerte incentivo para hacer investigación pura que rompa la dependencia de las GPU

    • Esperan que no terminemos atacando a los matemáticos de los demás por el bien de la ciencia
  • Una de las razones por las que la API es barata es que indicaron explícitamente que usan los datos de la API para entrenamiento

    • OpenAI y Claude dicen que no usarán los datos para entrenamiento cuando se usa la API
  • Esperan que la competencia entre las empresas de IA siga de forma saludable

    • Ojalá sigan compartiendo tecnología y artículos para que todo mejore en conjunto
  • Impresiona que DeepSeek haya logrado resultados comparables a o1 y Claude con 10 veces menos recursos

    • Para la siguiente etapa del ML harán falta mejores algoritmos y enfoques
  • Uso interesante (aunque incorrecto) de la palabra "catfish"

    • Es distinto de como normalmente se entiende