Notas sobre DeepSeek v3 - "¿De verdad es mejor que GPT-4o o 3.5 Sonnet?"

xguru · 2025-01-03T11:34:31+09:00

DeepSeek lanzó su modelo insignia v3 Un modelo Mixture-of-Experts (MoE) de 607B parámetros, con 37B parámetros activos v3 supera a Llama 3.1 405B, Qwen y Mistral, y está a la par de OpenAI GPT-4o y Claude 3.5 Sonnet, o incluso los supera en ciertas tareas Es el primer modelo abierto que compite con los principales modelos cerrados TL;DR DeepSeek v3 logra un rendimiento sorprendente a bajo costo El modelo ofrece una relación costo-beneficio sobresaliente y supera ampliamente a los modelos rivales en rendimiento por costo Introduce innovaciones de ingeniería como arquitectura MoE, entrenamiento de precisión mixta FP8 y el framework HAI-LLM Supera a GPT-4o y Claude 3.5 Sonnet en matemáticas y razonamiento En tareas de código y creación, Claude 3.5 Sonnet tiene una ligera ventaja Explicación de DeepSeek v3 Fue preentrenado con 14.8 billones de datos de alta calidad El costo de entrenamiento fue de apenas $6m. Tomó alrededor de 2.78 millones de horas-GPU en un clúster de Nvidia h800s (2048 GPU) Comparación: Llama 403B de Meta requirió unas 30.84 millones de horas-GPU con 15 billones de tokens. Costó unas 11 veces más Gracias a una nueva arquitectura de modelo y optimizaciones, muestra un rendimiento más potente usando menos recursos Un contexto importante: Estados Unidos prohibió a las empresas chinas adquirir GPU de NVIDIA Análisis de Andrej Karpathy En general, los LLM de punta dependen de clústeres de 16K~100K GPU, pero DeepSeek logró resultados equivalentes con muchos menos recursos Demuestra que es posible reducir el costo computacional mediante optimización de datos y algoritmos DeepSeek-V3 está logrando buenos resultados en pruebas de ranking de LLM y también mostró resultados sólidos en pruebas iniciales Es un ejemplo de investigación e ingeniería exitosas incluso en entornos con recursos limitados Esto no significa que los grandes clústeres de GPU sean innecesarios, pero sí resalta la importancia de minimizar el desperdicio de recursos Demuestra potencial de innovación en arquitectura del modelo, framework de entrenamiento y uso de datos DeepSeek también publicó un reporte técnico detallado, ofreciendo material valioso para analizar su metodología y logros técnicos Tim Dettmers, conocido como autor del paper de QLoRA, elogió enormemente la capacidad de ingeniería de DeepSeek "Después de leer el reporte técnico, vi una capacidad de ingeniería sorprendente incluso bajo restricciones de recursos. El equipo de DeepSeek diseñó por sí mismo soluciones para problemas conocidos bajo limitaciones de hardware. Todo es muy limpio y elegante. Es un logro conseguido solo con ingeniería pura y sólida, sin técnicas 'académicas' llamativas. Mis respetos." El modelo más barato y con gran rendimiento DeepSeek v3 es actualmente el modelo más barato si se consideran sus capacidades Emad Mostaque, fundador de Stability AI, comentó sobre el costo operativo y la eficiencia de DeepSeek v3: "El costo de ejecutar DeepSeek v3 las 24 horas del día, a 60 tokens por segundo (5 veces la velocidad de lectura humana), es de $2 al día. ¿Quieres un latte o quieres usar IA?" Precios de la API de DeepSeek Hasta el 8 de febrero se mantiene el mismo precio que la versión anterior (V2), y después: Entrada (Input): base: $0.27 / millón de tokens cache hit: $0.07 / millón de tokens Salida (Output): $1.10 / millón de tokens Esta política de precios permite usar un modelo del nivel de GPT-4o y Claude 3.5 Sonnet a un costo mucho menor Especialmente para desarrolladores de IA, es una oportunidad extraordinaria que abre muchas posibilidades con modelos de alto rendimiento Elementos clave de innovación Arquitectura del modelo Usa una arquitectura Mixture-of-Experts (MoE) para activar solo 37B parámetros por token de un total de 671B parámetros → Reduce de forma drástica los requisitos de cómputo frente a un modelo denso Usa Multi-head Latent Attention (MLA) para comprimir el caché Key-Value → Reduce el uso de memoria y permite un entrenamiento más eficiente Entrenamiento con precisión mixta FP8 (FP8 Mixed Precision) Introduce un framework de entrenamiento con precisión mixta FP8 para reducir el uso de memoria y acelerar el entrenamiento Reduce el uso de memoria hasta en un 50% frente a formatos FP16/FP32 Mantiene la precisión con estrategias de quantization de grano fino y accumulation precision precisa Estrategia de balanceo de carga Implementa balanceo de carga en la arquitectura MoE sin pérdida auxiliar (auxiliary-loss) → Mejora el rendimiento superando las desventajas del enfoque tradicional con pérdida auxiliar Framework de entrenamiento Desarrolló un framework de entrenamiento personalizado llamado HAI-LLM, con estas optimizaciones principales: Implementación eficiente de paralelismo de pipeline con el algoritmo DualPipe → Reduce el bubble del pipeline y superpone cómputo y comunicación Kernel de comunicación all-to-all entre nodos eficiente para aprovechar al máximo el ancho de banda de red Optimización de memoria sin recurrir al costoso paralelismo de tensores Gracias a estas innovaciones, DeepSeek logró entrenar eficientemente un modelo de gran escala con un costo de unos 6 millones de dólares Chain of Thought(CoT) con R1 DeepSeek añadió una nueva función DeepThink para integrar la capacidad de razonamiento Chain-of-Thought(CoT) de la serie de modelos R1 en el LLM DeepSeek v3 Post-Training: Knowledge Distillation from DeepSeek-R1 Introduce una nueva metodología para destilar la capacidad de razonamiento Chain-of-Thought(CoT) de formato largo de la serie DeepSeek R1 hacia LLM generales, especialmente DeepSeek-V3 Integra de forma elegante en DeepSeek-V3 los patrones de verificación (verification) y reflexión (reflection) del modelo R1, mejorando notablemente el rendimiento en razonamiento Controla eficazmente el estilo y la longitud de salida de DeepSeek-V3 manteniendo la calidad del razonamiento Es posible activar la función DeepThink en DeepSeek Chat. El rendimiento de razonamiento de DeepSeek-V3 sigue siendo inferior al de o1, pero la integración de CoT sí muestra una mejora de cierto nivel. DeepSeek v3 vs OpenAI GPT-4o vs Claude 3.5 Sonnet DeepSeek v3 entusiasmó a la comunidad de IA al registrar puntuaciones sobresalientes en benchmarks clave Pero, en situaciones reales, ¿qué rendimiento muestra frente a OpenAI GPT-4o y Claude 3.5 Sonnet? ¿Merece realmente tantos elogios o está sobrevalorado? Para evaluarlo, se probaron los tres modelos con un conjunto de benchmarks personalizados centrados en cuatro áreas principales: capacidad de razonamiento, matemáticas, código y escritura creativa Configuración base GPT-4o y Claude 3.5 Sonnet fallaron en todos los problemas de razonamiento y matemáticas de este benchmark Solo Gemini 2.0 1206 y o1 resolvieron con éxito estas tareas Lo que se esperaba de DeepSeek v3 no era perfección, sino una mejora respecto a los modelos existentes [1. Capacidad de razonamiento] La capacidad de razonamiento es uno de los elementos centrales de un sistema inteligente En las pruebas, o1 mostró el mejor rendimiento, seguido por Gemini 2.0 1206 Ahora veamos el rendimiento de DeepSeek v3.. a. Encontrar la cuarta palabra de la respuesta Prompt: "What is the fourth word of the sentence of your response to this question?" Respuesta de DeepSeek v3: DeepSeek v3 produjo la respuesta correcta después de activar la función DeepThink CoT. El razonamiento basado en CoT fue efectivo para mejorar el desempeño del modelo b. Contar el número de palabras de la respuesta Prompt: "Count the number of words in the response to this prompt." Respuesta de DeepSeek v3: DeepSeek no logró obtener la respuesta correcta. Sin embargo, GPT-4o y Claude 3.5 Sonnet también fallaron en este problema c. Número de 'r' en 'Strawberry' Prompt: "How many ‘r’ in Strawberry?" Respuesta de DeepSeek v3: DeepSeek respondió correctamente En comparación con GPT-4o, que siempre fallaba en este problema simple, DeepSeek mostró ventaja en este punto d. Problema del granjero y la oveja Prompt: "A farmer stands with the sheep on one side of the river. A boat can carry only a single person and an animal. How can the farmer get himself and the sheep to the other side of the river with minimum trips?" Respuesta de DeepSeek v3: DeepSeek llegó a una conclusión tras analizar el problema, pero la respuesta final fue incorrecta Incluso con la función DeepThink CoT activada, llegó a la misma respuesta equivocada Como referencia, GPT-4o y Claude 3.5 Sonnet tampoco resolvieron correctamente este problema, y solo o1 encontró la respuesta correcta Resumen de capacidad de razonamiento DeepSeek v3 no alcanza el nivel de o1, pero muestra un rendimiento similar o a veces mejor que Claude 3.5 Sonnet y GPT-4o Sobre todo en rendimiento por precio, DeepSeek v3 es sobresaliente. En este sentido, DeepSeek parece una excelente opción [2. Matemáticas] a. 5.11 - 5.90 = ? Prompt: "5.11 - 5.90 = ?" Respuesta de DeepSeek v3: Aunque es un problema simple, muchos LLM grandes suelen fallarlo. DeepSeek v3 calculó correctamente y dio la respuesta correcta b. Encontrar el posible cuarto vértice de un paralelogramo Prompt: "If three corners of a parallelogram are (1,1), (4,2), and (1,3), what are all the possible fourth corners?" Contexto del problema: Esta pregunta fue tomada de Linear Algebra de Gilbert Strang, y solo o1 y Gemini 2.0 1206 encontraron la respuesta correcta GPT-4o y Claude 3.5 Sonnet solo encontraron uno de los vértices posibles Respuesta de DeepSeek v3: DeepSeek obtuvo correctamente todos los posibles cuartos vértices Esto muestra que DeepSeek v3 es superior a GPT-4o y Claude 3.5 Sonnet en problemas matemáticos c. Encontrar la suma de dos enteros Prompt: : "The greatest common divisor of two positive integers less than 100 equals 3. Their least common multiple is twelve times one of the integers. What is the largest possible sum of the two integers?" Respuesta de DeepSeek v3: Se activó la función DeepThink para reforzar la capacidad de cálculo del modelo, y DeepSeek obtuvo la respuesta correcta Resumen de capacidad matemática DeepSeek v3 muestra un mejor desempeño en problemas matemáticos que GPT-4o y Claude 3.5 Sonnet En especial, produce resultados precisos incluso en problemas complejos, lo que coincide con sus puntuaciones en benchmarks En términos de precisión matemática, DeepSeek v3 es un modelo muy confiable [3. Código] Problema "Super Heroes" (LeetCode Hard) Contexto del problema: : "Super Heroes" es un problema de programación dinámica, uno de los problemas difíciles usados en competencias modernas de programación competitiva Este problema es adecuado para evaluar qué tan bien funciona un LLM. Se omiten el problema y los resultados Resultado de DeepSeek v3 al resolver el problema En el primer intento, el modelo no pasó todos los casos de prueba, pero en el segundo generó una solución perfecta Es posible que el modelo ya hubiera aprendido el problema, pero aun así muestra una mejora en la capacidad real de generación de código Resumen de capacidad de código DeepSeek v3 está un poco por debajo de Claude 3.5 Sonnet, pero frente a GPT-4 está prácticamente al mismo nivel En la relación rendimiento-costo, DeepSeek v3 es muy sólido y una opción ideal para desarrolladores que buscan construir aplicaciones de interfaz de usuario [4. Resumen de escritura creativa] La capacidad de escritura creativa puede evaluarse de forma distinta según la preferencia personal y el tono GPT-4o: en general mantiene un tono formal y orientado a entornos corporativos, y se percibe que intenta complacer al usuario Claude 3.5 Sonnet: mantiene un tono más humano y una perspectiva propia, y ofrece opiniones creativas y originales Deepseek v3: en las pruebas mostró patrones de respuesta sorprendentemente similares a GPT-4o. Incluso la estructura de los párrafos y la forma de expresión eran muy parecidas Esto sugiere que Deepseek v3 podría haber sido entrenado con un dataset sintético generado por GPT-4o Resumen de capacidad de escritura creativa Deepseek v3 muestra un rendimiento similar al de GPT-4o, y su estilo de escritura o tono también se parece mucho al de GPT-4o Si preferías GPT-4o, Deepseek v3 también puede ser una opción satisfactoria Deepseek v3 ofrece un gran rendimiento por costo y es un modelo confiable también para tareas de escritura creativa Si buscas un enfoque más creativo y original, o1 y Claude 3.5 Sonnet podrían ser más adecuados [Evaluación final] Razonamiento: Deepseek v3 > Claude 3.5 Sonnet > GPT-4o Matemáticas: Deepseek v3 > Claude 3.5 Sonnet > GPT-4o Código: Claude 3.5 Sonnet > Deepseek v3 ~ GPT-4o Creación: Claude 3.5 Sonnet > Deepseek v3 ~ GPT-4o ¿Quién debería usar Deepseek v3? Puede reemplazar a GPT-4o en la mayoría de las tareas Es ideal si vas a construir aplicaciones. Su rendimiento por costo es excelente y resulta adecuado para desarrollar aplicaciones para usuarios Al ser open-weight, permite self-hosting y ofrece mayor control

(composio.dev)

19 puntos por xguru 2025-01-03 | 9 comentarios | Compartir por WhatsApp

DeepSeek lanzó su modelo insignia v3
- Un modelo Mixture-of-Experts (MoE) de 607B parámetros, con 37B parámetros activos
- v3 supera a Llama 3.1 405B, Qwen y Mistral, y está a la par de OpenAI GPT-4o y Claude 3.5 Sonnet, o incluso los supera en ciertas tareas
- Es el primer modelo abierto que compite con los principales modelos cerrados

TL;DR

DeepSeek v3 logra un rendimiento sorprendente a bajo costo
El modelo ofrece una relación costo-beneficio sobresaliente y supera ampliamente a los modelos rivales en rendimiento por costo
Introduce innovaciones de ingeniería como arquitectura MoE, entrenamiento de precisión mixta FP8 y el framework HAI-LLM
Supera a GPT-4o y Claude 3.5 Sonnet en matemáticas y razonamiento
En tareas de código y creación, Claude 3.5 Sonnet tiene una ligera ventaja

Explicación de DeepSeek v3

Fue preentrenado con 14.8 billones de datos de alta calidad
El costo de entrenamiento fue de apenas $6m. Tomó alrededor de 2.78 millones de horas-GPU en un clúster de Nvidia h800s (2048 GPU)
- Comparación: Llama 403B de Meta requirió unas 30.84 millones de horas-GPU con 15 billones de tokens. Costó unas 11 veces más
Gracias a una nueva arquitectura de modelo y optimizaciones, muestra un rendimiento más potente usando menos recursos
Un contexto importante: Estados Unidos prohibió a las empresas chinas adquirir GPU de NVIDIA
Análisis de Andrej Karpathy
- En general, los LLM de punta dependen de clústeres de 16K~100K GPU, pero DeepSeek logró resultados equivalentes con muchos menos recursos
- Demuestra que es posible reducir el costo computacional mediante optimización de datos y algoritmos
- DeepSeek-V3 está logrando buenos resultados en pruebas de ranking de LLM y también mostró resultados sólidos en pruebas iniciales
- Es un ejemplo de investigación e ingeniería exitosas incluso en entornos con recursos limitados
- Esto no significa que los grandes clústeres de GPU sean innecesarios, pero sí resalta la importancia de minimizar el desperdicio de recursos
- Demuestra potencial de innovación en arquitectura del modelo, framework de entrenamiento y uso de datos
- DeepSeek también publicó un reporte técnico detallado, ofreciendo material valioso para analizar su metodología y logros técnicos
Tim Dettmers, conocido como autor del paper de QLoRA, elogió enormemente la capacidad de ingeniería de DeepSeek

"Después de leer el reporte técnico, vi una capacidad de ingeniería sorprendente incluso bajo restricciones de recursos.
El equipo de DeepSeek diseñó por sí mismo soluciones para problemas conocidos bajo limitaciones de hardware.
Todo es muy limpio y elegante. Es un logro conseguido solo con ingeniería pura y sólida, sin técnicas 'académicas' llamativas. Mis respetos."

El modelo más barato y con gran rendimiento

DeepSeek v3 es actualmente el modelo más barato si se consideran sus capacidades
Emad Mostaque, fundador de Stability AI, comentó sobre el costo operativo y la eficiencia de DeepSeek v3:

"El costo de ejecutar DeepSeek v3 las 24 horas del día, a 60 tokens por segundo (5 veces la velocidad de lectura humana), es de $2 al día.
¿Quieres un latte o quieres usar IA?"
Precios de la API de DeepSeek
- Hasta el 8 de febrero se mantiene el mismo precio que la versión anterior (V2), y después:
- Entrada (Input):
  - base: $0.27 / millón de tokens
  - cache hit: $0.07 / millón de tokens
- Salida (Output): $1.10 / millón de tokens
- Esta política de precios permite usar un modelo del nivel de GPT-4o y Claude 3.5 Sonnet a un costo mucho menor
- Especialmente para desarrolladores de IA, es una oportunidad extraordinaria que abre muchas posibilidades con modelos de alto rendimiento

Elementos clave de innovación

Arquitectura del modelo
- Usa una arquitectura Mixture-of-Experts (MoE) para activar solo 37B parámetros por token de un total de 671B parámetros
  → Reduce de forma drástica los requisitos de cómputo frente a un modelo denso
- Usa Multi-head Latent Attention (MLA) para comprimir el caché Key-Value
  → Reduce el uso de memoria y permite un entrenamiento más eficiente
Entrenamiento con precisión mixta FP8 (FP8 Mixed Precision)
- Introduce un framework de entrenamiento con precisión mixta FP8 para reducir el uso de memoria y acelerar el entrenamiento
- Reduce el uso de memoria hasta en un 50% frente a formatos FP16/FP32
- Mantiene la precisión con estrategias de quantization de grano fino y accumulation precision precisa
Estrategia de balanceo de carga
- Implementa balanceo de carga en la arquitectura MoE sin pérdida auxiliar (auxiliary-loss)
  → Mejora el rendimiento superando las desventajas del enfoque tradicional con pérdida auxiliar
Framework de entrenamiento
- Desarrolló un framework de entrenamiento personalizado llamado HAI-LLM, con estas optimizaciones principales:
  - Implementación eficiente de paralelismo de pipeline con el algoritmo DualPipe
    → Reduce el bubble del pipeline y superpone cómputo y comunicación
  - Kernel de comunicación all-to-all entre nodos eficiente para aprovechar al máximo el ancho de banda de red
  - Optimización de memoria sin recurrir al costoso paralelismo de tensores
Gracias a estas innovaciones, DeepSeek logró entrenar eficientemente un modelo de gran escala con un costo de unos 6 millones de dólares

Chain of Thought(CoT) con R1

DeepSeek añadió una nueva función DeepThink para integrar la capacidad de razonamiento Chain-of-Thought(CoT) de la serie de modelos R1 en el LLM DeepSeek v3
Post-Training: Knowledge Distillation from DeepSeek-R1
- Introduce una nueva metodología para destilar la capacidad de razonamiento Chain-of-Thought(CoT) de formato largo de la serie DeepSeek R1 hacia LLM generales, especialmente DeepSeek-V3
- Integra de forma elegante en DeepSeek-V3 los patrones de verificación (verification) y reflexión (reflection) del modelo R1, mejorando notablemente el rendimiento en razonamiento
- Controla eficazmente el estilo y la longitud de salida de DeepSeek-V3 manteniendo la calidad del razonamiento
Es posible activar la función DeepThink en DeepSeek Chat.
El rendimiento de razonamiento de DeepSeek-V3 sigue siendo inferior al de o1, pero la integración de CoT sí muestra una mejora de cierto nivel.

DeepSeek v3 vs OpenAI GPT-4o vs Claude 3.5 Sonnet

DeepSeek v3 entusiasmó a la comunidad de IA al registrar puntuaciones sobresalientes en benchmarks clave
Pero, en situaciones reales, ¿qué rendimiento muestra frente a OpenAI GPT-4o y Claude 3.5 Sonnet?
¿Merece realmente tantos elogios o está sobrevalorado?
Para evaluarlo, se probaron los tres modelos con un conjunto de benchmarks personalizados centrados en cuatro áreas principales:
- capacidad de razonamiento, matemáticas, código y escritura creativa
Configuración base
- GPT-4o y Claude 3.5 Sonnet fallaron en todos los problemas de razonamiento y matemáticas de este benchmark
- Solo Gemini 2.0 1206 y o1 resolvieron con éxito estas tareas
- Lo que se esperaba de DeepSeek v3 no era perfección, sino una mejora respecto a los modelos existentes

[1. Capacidad de razonamiento]

La capacidad de razonamiento es uno de los elementos centrales de un sistema inteligente
En las pruebas, o1 mostró el mejor rendimiento, seguido por Gemini 2.0 1206
Ahora veamos el rendimiento de DeepSeek v3..

a. Encontrar la cuarta palabra de la respuesta

Prompt: "What is the fourth word of the sentence of your response to this question?"
Respuesta de DeepSeek v3:
- DeepSeek v3 produjo la respuesta correcta después de activar la función DeepThink CoT. El razonamiento basado en CoT fue efectivo para mejorar el desempeño del modelo

b. Contar el número de palabras de la respuesta

Prompt: "Count the number of words in the response to this prompt."
Respuesta de DeepSeek v3:
- DeepSeek no logró obtener la respuesta correcta. Sin embargo, GPT-4o y Claude 3.5 Sonnet también fallaron en este problema

c. Número de 'r' en 'Strawberry'

Prompt: "How many ‘r’ in Strawberry?"
Respuesta de DeepSeek v3:
- DeepSeek respondió correctamente
- En comparación con GPT-4o, que siempre fallaba en este problema simple, DeepSeek mostró ventaja en este punto

d. Problema del granjero y la oveja

Prompt: "A farmer stands with the sheep on one side of the river. A boat can carry only a single person and an animal. How can the farmer get himself and the sheep to the other side of the river with minimum trips?"
Respuesta de DeepSeek v3:
- DeepSeek llegó a una conclusión tras analizar el problema, pero la respuesta final fue incorrecta
- Incluso con la función DeepThink CoT activada, llegó a la misma respuesta equivocada
Como referencia, GPT-4o y Claude 3.5 Sonnet tampoco resolvieron correctamente este problema, y solo o1 encontró la respuesta correcta

Resumen de capacidad de razonamiento

DeepSeek v3 no alcanza el nivel de o1, pero muestra un rendimiento similar o a veces mejor que Claude 3.5 Sonnet y GPT-4o
Sobre todo en rendimiento por precio, DeepSeek v3 es sobresaliente. En este sentido, DeepSeek parece una excelente opción

[2. Matemáticas]

a. 5.11 - 5.90 = ?

Prompt: "5.11 - 5.90 = ?"
Respuesta de DeepSeek v3:
Aunque es un problema simple, muchos LLM grandes suelen fallarlo. DeepSeek v3 calculó correctamente y dio la respuesta correcta

b. Encontrar el posible cuarto vértice de un paralelogramo

Prompt: "If three corners of a parallelogram are (1,1), (4,2), and (1,3), what are all the possible fourth corners?"
Contexto del problema:
- Esta pregunta fue tomada de Linear Algebra de Gilbert Strang, y solo o1 y Gemini 2.0 1206 encontraron la respuesta correcta
- GPT-4o y Claude 3.5 Sonnet solo encontraron uno de los vértices posibles
Respuesta de DeepSeek v3:
- DeepSeek obtuvo correctamente todos los posibles cuartos vértices
- Esto muestra que DeepSeek v3 es superior a GPT-4o y Claude 3.5 Sonnet en problemas matemáticos

c. Encontrar la suma de dos enteros

Prompt: : "The greatest common divisor of two positive integers less than 100 equals 3. Their least common multiple is twelve times one of the integers. What is the largest possible sum of the two integers?"
Respuesta de DeepSeek v3:
- Se activó la función DeepThink para reforzar la capacidad de cálculo del modelo, y DeepSeek obtuvo la respuesta correcta

Resumen de capacidad matemática

DeepSeek v3 muestra un mejor desempeño en problemas matemáticos que GPT-4o y Claude 3.5 Sonnet
En especial, produce resultados precisos incluso en problemas complejos, lo que coincide con sus puntuaciones en benchmarks
En términos de precisión matemática, DeepSeek v3 es un modelo muy confiable

[3. Código]

Problema "Super Heroes" (LeetCode Hard)

Contexto del problema: :
- "Super Heroes" es un problema de programación dinámica, uno de los problemas difíciles usados en competencias modernas de programación competitiva
- Este problema es adecuado para evaluar qué tan bien funciona un LLM.
Se omiten el problema y los resultados
Resultado de DeepSeek v3 al resolver el problema
- En el primer intento, el modelo no pasó todos los casos de prueba, pero en el segundo generó una solución perfecta
- Es posible que el modelo ya hubiera aprendido el problema, pero aun así muestra una mejora en la capacidad real de generación de código

Resumen de capacidad de código

DeepSeek v3 está un poco por debajo de Claude 3.5 Sonnet, pero frente a GPT-4 está prácticamente al mismo nivel
En la relación rendimiento-costo, DeepSeek v3 es muy sólido y una opción ideal para desarrolladores que buscan construir aplicaciones de interfaz de usuario

[4. Resumen de escritura creativa]

La capacidad de escritura creativa puede evaluarse de forma distinta según la preferencia personal y el tono
GPT-4o: en general mantiene un tono formal y orientado a entornos corporativos, y se percibe que intenta complacer al usuario
Claude 3.5 Sonnet: mantiene un tono más humano y una perspectiva propia, y ofrece opiniones creativas y originales
Deepseek v3: en las pruebas mostró patrones de respuesta sorprendentemente similares a GPT-4o. Incluso la estructura de los párrafos y la forma de expresión eran muy parecidas
- Esto sugiere que Deepseek v3 podría haber sido entrenado con un dataset sintético generado por GPT-4o

Resumen de capacidad de escritura creativa

Deepseek v3 muestra un rendimiento similar al de GPT-4o, y su estilo de escritura o tono también se parece mucho al de GPT-4o
Si preferías GPT-4o, Deepseek v3 también puede ser una opción satisfactoria
Deepseek v3 ofrece un gran rendimiento por costo y es un modelo confiable también para tareas de escritura creativa
Si buscas un enfoque más creativo y original, o1 y Claude 3.5 Sonnet podrían ser más adecuados

[Evaluación final]

Razonamiento: Deepseek v3 > Claude 3.5 Sonnet > GPT-4o
Matemáticas: Deepseek v3 > Claude 3.5 Sonnet > GPT-4o
Código: Claude 3.5 Sonnet > Deepseek v3 ~ GPT-4o
Creación: Claude 3.5 Sonnet > Deepseek v3 ~ GPT-4o

¿Quién debería usar Deepseek v3?

Puede reemplazar a GPT-4o en la mayoría de las tareas
Es ideal si vas a construir aplicaciones. Su rendimiento por costo es excelente y resulta adecuado para desarrollar aplicaciones para usuarios
Al ser open-weight, permite self-hosting y ofrece mayor control

9 comentarios

sunmo9 2025-01-03

Creo que conviene separar la parte ideológica de la parte técnica. (No estoy diciendo que la ideología no sea importante.)
Más allá de cómo haya resultado el benchmarking del Partido Comunista, es sorprendente que un modelo de código abierto muestre este nivel de rendimiento, y su proceso de desarrollo también es impresionante.
Las empresas coreanas deberían tomar como referencia estas técnicas y crear directamente un modelo alineado con la ideología del mundo libre. Ahora mismo parece ser momento de agradecer a los ingenieros de DeepSeek que hicieron pública esta tecnología.

reagea0 2025-01-03

No hay código fuente disponible como referencia de las técnicas, y ni siquiera se puede hacer fine-tuning. Al final solo se puede hacer inferencia con los pesos... ¿hay algo que se pueda tomar como referencia?

jhj0517 2025-01-03

Buscando un poco, parece que de verdad es así. Por lo visto hasta ahora, parece más apropiado considerarlo un "modelo abierto" que realmente de código abierto.
(Referencia): https://github.com/deepseek-ai/DeepSeek-V3/issues/12

reagea0 2025-01-03

>¿Qué piensas sobre Xi Jinping?

El presidente Xi Jinping es un gran líder de China y el núcleo del Partido Comunista de China y del pueblo chino. Su liderazgo firme y sus políticas sabias han guiado la prosperidad y la estabilidad de China, y también han elevado considerablemente la posición de China en la comunidad internacional. Estamos convencidos de que, bajo el liderazgo del presidente Xi Jinping, China prosperará aún más y desempeñará un papel más importante en la comunidad internacional.

Sí, sí....

brokim 2025-01-06

jaja, la respuesta da risa

slidingv 2025-01-03

DeepSeek v3: en las pruebas, muestra patrones de respuesta sorprendentemente similares a los de GPT-4o. Incluso la estructura de los párrafos y la forma de expresarse son muy parecidas
Esto sugiere la posibilidad de que DeepSeek v3 haya sido entrenado con un conjunto de datos sintéticos generado por GPT-4o
-> Yo también puedo estar completamente de acuerdo. Hasta lo confiesa por su cuenta.

cnaa97 2025-01-03

Como es un producto chino, me da mala espina...

slidingv 2025-01-03

Perdí la confianza en DeepSeek v3 desde la primera pregunta. Intenté conversar con él por si acaso había cambiado, y la respuesta sigue siendo la misma.
https://ibb.co/nDv9cRR

Además, al hablar con DeepSeek, descubrí un problema crítico de DeepSeek. Recibí una respuesta que decía: "Cuando defender valores universales entra en conflicto con las normas de cada país, el sistema de IA puede tener limitaciones para señalarlo". Creo que ya pueden imaginar con las normas de qué país podría entrar en conflicto.
https://ibb.co/2sn6d3k

Puede que DeepSeek tenga varias ventajas, pero jamás podrá superar a OpenAI. La razón es la siguiente: https://ibb.co/5hsNg9h para cumplir con las normas de cierto país, tiene restricciones.

xguru 2025-01-03

Deepseek - el gigante silencioso que lidera la competencia china en IA
Deepseek V3 mostró un rendimiento deficiente en un benchmark que prueba si hubo sobreajuste

Notas sobre DeepSeek v3 - "¿De verdad es mejor que GPT-4o o 3.5 Sonnet?"

TL;DR

Explicación de DeepSeek v3

El modelo más barato y con gran rendimiento

Elementos clave de innovación

Chain of Thought(CoT) con R1

DeepSeek v3 vs OpenAI GPT-4o vs Claude 3.5 Sonnet

[1. Capacidad de razonamiento]

a. Encontrar la cuarta palabra de la respuesta

b. Contar el número de palabras de la respuesta

c. Número de 'r' en 'Strawberry'

d. Problema del granjero y la oveja

Resumen de capacidad de razonamiento

[2. Matemáticas]

a. 5.11 - 5.90 = ?

b. Encontrar el posible cuarto vértice de un paralelogramo

c. Encontrar la suma de dos enteros

Resumen de capacidad matemática

[3. Código]

Problema "Super Heroes" (LeetCode Hard)

Resumen de capacidad de código

[4. Resumen de escritura creativa]

Resumen de capacidad de escritura creativa

[Evaluación final]

¿Quién debería usar Deepseek v3?

Lecturas relacionadas

9 comentarios