- DeepSeek lanzó su modelo insignia v3
- Un modelo Mixture-of-Experts (MoE) de 607B parámetros, con 37B parámetros activos
- v3 supera a Llama 3.1 405B, Qwen y Mistral, y está a la par de OpenAI GPT-4o y Claude 3.5 Sonnet, o incluso los supera en ciertas tareas
- Es el primer modelo abierto que compite con los principales modelos cerrados
TL;DR
- DeepSeek v3 logra un rendimiento sorprendente a bajo costo
- El modelo ofrece una relación costo-beneficio sobresaliente y supera ampliamente a los modelos rivales en rendimiento por costo
- Introduce innovaciones de ingeniería como arquitectura MoE, entrenamiento de precisión mixta FP8 y el framework HAI-LLM
- Supera a GPT-4o y Claude 3.5 Sonnet en matemáticas y razonamiento
- En tareas de código y creación, Claude 3.5 Sonnet tiene una ligera ventaja
Explicación de DeepSeek v3
- Fue preentrenado con 14.8 billones de datos de alta calidad
- El costo de entrenamiento fue de apenas $6m. Tomó alrededor de 2.78 millones de horas-GPU en un clúster de Nvidia h800s (2048 GPU)
- Comparación: Llama 403B de Meta requirió unas 30.84 millones de horas-GPU con 15 billones de tokens. Costó unas 11 veces más
- Gracias a una nueva arquitectura de modelo y optimizaciones, muestra un rendimiento más potente usando menos recursos
- Un contexto importante: Estados Unidos prohibió a las empresas chinas adquirir GPU de NVIDIA
- Análisis de Andrej Karpathy
- En general, los LLM de punta dependen de clústeres de 16K~100K GPU, pero DeepSeek logró resultados equivalentes con muchos menos recursos
- Demuestra que es posible reducir el costo computacional mediante optimización de datos y algoritmos
- DeepSeek-V3 está logrando buenos resultados en pruebas de ranking de LLM y también mostró resultados sólidos en pruebas iniciales
- Es un ejemplo de investigación e ingeniería exitosas incluso en entornos con recursos limitados
- Esto no significa que los grandes clústeres de GPU sean innecesarios, pero sí resalta la importancia de minimizar el desperdicio de recursos
- Demuestra potencial de innovación en arquitectura del modelo, framework de entrenamiento y uso de datos
- DeepSeek también publicó un reporte técnico detallado, ofreciendo material valioso para analizar su metodología y logros técnicos
- Tim Dettmers, conocido como autor del paper de QLoRA, elogió enormemente la capacidad de ingeniería de DeepSeek
"Después de leer el reporte técnico, vi una capacidad de ingeniería sorprendente incluso bajo restricciones de recursos.
El equipo de DeepSeek diseñó por sí mismo soluciones para problemas conocidos bajo limitaciones de hardware.
Todo es muy limpio y elegante. Es un logro conseguido solo con ingeniería pura y sólida, sin técnicas 'académicas' llamativas. Mis respetos."
El modelo más barato y con gran rendimiento
- DeepSeek v3 es actualmente el modelo más barato si se consideran sus capacidades
- Emad Mostaque, fundador de Stability AI, comentó sobre el costo operativo y la eficiencia de DeepSeek v3:
"El costo de ejecutar DeepSeek v3 las 24 horas del día, a 60 tokens por segundo (5 veces la velocidad de lectura humana), es de $2 al día.
¿Quieres un latte o quieres usar IA?" - Precios de la API de DeepSeek
- Hasta el 8 de febrero se mantiene el mismo precio que la versión anterior (V2), y después:
- Entrada (Input):
- base: $0.27 / millón de tokens
- cache hit: $0.07 / millón de tokens
- Salida (Output): $1.10 / millón de tokens
- Esta política de precios permite usar un modelo del nivel de GPT-4o y Claude 3.5 Sonnet a un costo mucho menor
- Especialmente para desarrolladores de IA, es una oportunidad extraordinaria que abre muchas posibilidades con modelos de alto rendimiento
Elementos clave de innovación
- Arquitectura del modelo
- Usa una arquitectura Mixture-of-Experts (MoE) para activar solo 37B parámetros por token de un total de 671B parámetros
→ Reduce de forma drástica los requisitos de cómputo frente a un modelo denso - Usa Multi-head Latent Attention (MLA) para comprimir el caché Key-Value
→ Reduce el uso de memoria y permite un entrenamiento más eficiente
- Usa una arquitectura Mixture-of-Experts (MoE) para activar solo 37B parámetros por token de un total de 671B parámetros
- Entrenamiento con precisión mixta FP8 (FP8 Mixed Precision)
- Introduce un framework de entrenamiento con precisión mixta FP8 para reducir el uso de memoria y acelerar el entrenamiento
- Reduce el uso de memoria hasta en un 50% frente a formatos FP16/FP32
- Mantiene la precisión con estrategias de quantization de grano fino y accumulation precision precisa
- Estrategia de balanceo de carga
- Implementa balanceo de carga en la arquitectura MoE sin pérdida auxiliar (auxiliary-loss)
→ Mejora el rendimiento superando las desventajas del enfoque tradicional con pérdida auxiliar
- Implementa balanceo de carga en la arquitectura MoE sin pérdida auxiliar (auxiliary-loss)
- Framework de entrenamiento
- Desarrolló un framework de entrenamiento personalizado llamado HAI-LLM, con estas optimizaciones principales:
- Implementación eficiente de paralelismo de pipeline con el algoritmo DualPipe
→ Reduce el bubble del pipeline y superpone cómputo y comunicación - Kernel de comunicación all-to-all entre nodos eficiente para aprovechar al máximo el ancho de banda de red
- Optimización de memoria sin recurrir al costoso paralelismo de tensores
- Implementación eficiente de paralelismo de pipeline con el algoritmo DualPipe
- Desarrolló un framework de entrenamiento personalizado llamado HAI-LLM, con estas optimizaciones principales:
- Gracias a estas innovaciones, DeepSeek logró entrenar eficientemente un modelo de gran escala con un costo de unos 6 millones de dólares
Chain of Thought(CoT) con R1
- DeepSeek añadió una nueva función DeepThink para integrar la capacidad de razonamiento Chain-of-Thought(CoT) de la serie de modelos R1 en el LLM DeepSeek v3
- Post-Training: Knowledge Distillation from DeepSeek-R1
- Introduce una nueva metodología para destilar la capacidad de razonamiento Chain-of-Thought(CoT) de formato largo de la serie DeepSeek R1 hacia LLM generales, especialmente DeepSeek-V3
- Integra de forma elegante en DeepSeek-V3 los patrones de verificación (verification) y reflexión (reflection) del modelo R1, mejorando notablemente el rendimiento en razonamiento
- Controla eficazmente el estilo y la longitud de salida de DeepSeek-V3 manteniendo la calidad del razonamiento
- Es posible activar la función DeepThink en DeepSeek Chat.
- El rendimiento de razonamiento de DeepSeek-V3 sigue siendo inferior al de o1, pero la integración de CoT sí muestra una mejora de cierto nivel.
DeepSeek v3 vs OpenAI GPT-4o vs Claude 3.5 Sonnet
- DeepSeek v3 entusiasmó a la comunidad de IA al registrar puntuaciones sobresalientes en benchmarks clave
- Pero, en situaciones reales, ¿qué rendimiento muestra frente a OpenAI GPT-4o y Claude 3.5 Sonnet?
- ¿Merece realmente tantos elogios o está sobrevalorado?
- Para evaluarlo, se probaron los tres modelos con un conjunto de benchmarks personalizados centrados en cuatro áreas principales:
- capacidad de razonamiento, matemáticas, código y escritura creativa
- Configuración base
- GPT-4o y Claude 3.5 Sonnet fallaron en todos los problemas de razonamiento y matemáticas de este benchmark
- Solo Gemini 2.0 1206 y o1 resolvieron con éxito estas tareas
- Lo que se esperaba de DeepSeek v3 no era perfección, sino una mejora respecto a los modelos existentes
[1. Capacidad de razonamiento]
- La capacidad de razonamiento es uno de los elementos centrales de un sistema inteligente
- En las pruebas, o1 mostró el mejor rendimiento, seguido por Gemini 2.0 1206
- Ahora veamos el rendimiento de DeepSeek v3..
a. Encontrar la cuarta palabra de la respuesta
- Prompt: "What is the fourth word of the sentence of your response to this question?"
- Respuesta de DeepSeek v3:
- DeepSeek v3 produjo la respuesta correcta después de activar la función DeepThink CoT. El razonamiento basado en CoT fue efectivo para mejorar el desempeño del modelo
b. Contar el número de palabras de la respuesta
- Prompt: "Count the number of words in the response to this prompt."
- Respuesta de DeepSeek v3:
- DeepSeek no logró obtener la respuesta correcta. Sin embargo, GPT-4o y Claude 3.5 Sonnet también fallaron en este problema
c. Número de 'r' en 'Strawberry'
- Prompt: "How many ‘r’ in Strawberry?"
- Respuesta de DeepSeek v3:
- DeepSeek respondió correctamente
- En comparación con GPT-4o, que siempre fallaba en este problema simple, DeepSeek mostró ventaja en este punto
d. Problema del granjero y la oveja
- Prompt: "A farmer stands with the sheep on one side of the river. A boat can carry only a single person and an animal. How can the farmer get himself and the sheep to the other side of the river with minimum trips?"
- Respuesta de DeepSeek v3:
- DeepSeek llegó a una conclusión tras analizar el problema, pero la respuesta final fue incorrecta
- Incluso con la función DeepThink CoT activada, llegó a la misma respuesta equivocada
Como referencia, GPT-4o y Claude 3.5 Sonnet tampoco resolvieron correctamente este problema, y solo o1 encontró la respuesta correcta
Resumen de capacidad de razonamiento
- DeepSeek v3 no alcanza el nivel de o1, pero muestra un rendimiento similar o a veces mejor que Claude 3.5 Sonnet y GPT-4o
- Sobre todo en rendimiento por precio, DeepSeek v3 es sobresaliente. En este sentido, DeepSeek parece una excelente opción
[2. Matemáticas]
a. 5.11 - 5.90 = ?
- Prompt: "5.11 - 5.90 = ?"
- Respuesta de DeepSeek v3:
Aunque es un problema simple, muchos LLM grandes suelen fallarlo. DeepSeek v3 calculó correctamente y dio la respuesta correcta
b. Encontrar el posible cuarto vértice de un paralelogramo
- Prompt: "If three corners of a parallelogram are (1,1), (4,2), and (1,3), what are all the possible fourth corners?"
- Contexto del problema:
- Esta pregunta fue tomada de Linear Algebra de Gilbert Strang, y solo o1 y Gemini 2.0 1206 encontraron la respuesta correcta
- GPT-4o y Claude 3.5 Sonnet solo encontraron uno de los vértices posibles
- Respuesta de DeepSeek v3:
- DeepSeek obtuvo correctamente todos los posibles cuartos vértices
- Esto muestra que DeepSeek v3 es superior a GPT-4o y Claude 3.5 Sonnet en problemas matemáticos
c. Encontrar la suma de dos enteros
- Prompt: : "The greatest common divisor of two positive integers less than 100 equals 3. Their least common multiple is twelve times one of the integers. What is the largest possible sum of the two integers?"
- Respuesta de DeepSeek v3:
- Se activó la función DeepThink para reforzar la capacidad de cálculo del modelo, y DeepSeek obtuvo la respuesta correcta
Resumen de capacidad matemática
- DeepSeek v3 muestra un mejor desempeño en problemas matemáticos que GPT-4o y Claude 3.5 Sonnet
- En especial, produce resultados precisos incluso en problemas complejos, lo que coincide con sus puntuaciones en benchmarks
- En términos de precisión matemática, DeepSeek v3 es un modelo muy confiable
[3. Código]
Problema "Super Heroes" (LeetCode Hard)
- Contexto del problema: :
- "Super Heroes" es un problema de programación dinámica, uno de los problemas difíciles usados en competencias modernas de programación competitiva
- Este problema es adecuado para evaluar qué tan bien funciona un LLM.
- Se omiten el problema y los resultados
- Resultado de DeepSeek v3 al resolver el problema
- En el primer intento, el modelo no pasó todos los casos de prueba, pero en el segundo generó una solución perfecta
- Es posible que el modelo ya hubiera aprendido el problema, pero aun así muestra una mejora en la capacidad real de generación de código
Resumen de capacidad de código
- DeepSeek v3 está un poco por debajo de Claude 3.5 Sonnet, pero frente a GPT-4 está prácticamente al mismo nivel
- En la relación rendimiento-costo, DeepSeek v3 es muy sólido y una opción ideal para desarrolladores que buscan construir aplicaciones de interfaz de usuario
[4. Resumen de escritura creativa]
- La capacidad de escritura creativa puede evaluarse de forma distinta según la preferencia personal y el tono
- GPT-4o: en general mantiene un tono formal y orientado a entornos corporativos, y se percibe que intenta complacer al usuario
- Claude 3.5 Sonnet: mantiene un tono más humano y una perspectiva propia, y ofrece opiniones creativas y originales
- Deepseek v3: en las pruebas mostró patrones de respuesta sorprendentemente similares a GPT-4o. Incluso la estructura de los párrafos y la forma de expresión eran muy parecidas
- Esto sugiere que Deepseek v3 podría haber sido entrenado con un dataset sintético generado por GPT-4o
Resumen de capacidad de escritura creativa
- Deepseek v3 muestra un rendimiento similar al de GPT-4o, y su estilo de escritura o tono también se parece mucho al de GPT-4o
- Si preferías GPT-4o, Deepseek v3 también puede ser una opción satisfactoria
- Deepseek v3 ofrece un gran rendimiento por costo y es un modelo confiable también para tareas de escritura creativa
- Si buscas un enfoque más creativo y original, o1 y Claude 3.5 Sonnet podrían ser más adecuados
[Evaluación final]
- Razonamiento: Deepseek v3 > Claude 3.5 Sonnet > GPT-4o
- Matemáticas: Deepseek v3 > Claude 3.5 Sonnet > GPT-4o
- Código: Claude 3.5 Sonnet > Deepseek v3 ~ GPT-4o
- Creación: Claude 3.5 Sonnet > Deepseek v3 ~ GPT-4o
¿Quién debería usar Deepseek v3?
- Puede reemplazar a GPT-4o en la mayoría de las tareas
- Es ideal si vas a construir aplicaciones. Su rendimiento por costo es excelente y resulta adecuado para desarrollar aplicaciones para usuarios
- Al ser open-weight, permite self-hosting y ofrece mayor control
9 comentarios
Creo que conviene separar la parte ideológica de la parte técnica. (No estoy diciendo que la ideología no sea importante.)
Más allá de cómo haya resultado el benchmarking del Partido Comunista, es sorprendente que un modelo de código abierto muestre este nivel de rendimiento, y su proceso de desarrollo también es impresionante.
Las empresas coreanas deberían tomar como referencia estas técnicas y crear directamente un modelo alineado con la ideología del mundo libre. Ahora mismo parece ser momento de agradecer a los ingenieros de DeepSeek que hicieron pública esta tecnología.
No hay código fuente disponible como referencia de las técnicas, y ni siquiera se puede hacer fine-tuning. Al final solo se puede hacer inferencia con los pesos... ¿hay algo que se pueda tomar como referencia?
Buscando un poco, parece que de verdad es así. Por lo visto hasta ahora, parece más apropiado considerarlo un "modelo abierto" que realmente de código abierto.
(Referencia): https://github.com/deepseek-ai/DeepSeek-V3/issues/12
>¿Qué piensas sobre Xi Jinping?
Sí, sí....
jaja, la respuesta da risa
DeepSeek v3: en las pruebas, muestra patrones de respuesta sorprendentemente similares a los de GPT-4o. Incluso la estructura de los párrafos y la forma de expresarse son muy parecidas
Esto sugiere la posibilidad de que DeepSeek v3 haya sido entrenado con un conjunto de datos sintéticos generado por GPT-4o
-> Yo también puedo estar completamente de acuerdo. Hasta lo confiesa por su cuenta.
Como es un producto chino, me da mala espina...
Perdí la confianza en DeepSeek v3 desde la primera pregunta. Intenté conversar con él por si acaso había cambiado, y la respuesta sigue siendo la misma.
https://ibb.co/nDv9cRR
Además, al hablar con DeepSeek, descubrí un problema crítico de DeepSeek. Recibí una respuesta que decía: "Cuando defender valores universales entra en conflicto con las normas de cada país, el sistema de IA puede tener limitaciones para señalarlo". Creo que ya pueden imaginar con las normas de qué país podría entrar en conflicto.
https://ibb.co/2sn6d3k
Puede que DeepSeek tenga varias ventajas, pero jamás podrá superar a OpenAI. La razón es la siguiente: https://ibb.co/5hsNg9h para cumplir con las normas de cierto país, tiene restricciones.
Deepseek - el gigante silencioso que lidera la competencia china en IA
Deepseek V3 mostró un rendimiento deficiente en un benchmark que prueba si hubo sobreajuste