DeepSeek V3 mostró un rendimiento deficiente en un benchmark que evalúa si hay sobreajuste

(github.com/cpldcpu)

2 puntos por jhj0517 2024-12-31 | 2 comentarios | Compartir por WhatsApp

Aparición de DeepSeek V3, un modelo de código abierto que supera a los LLM de código cerrado

Recientemente, DeepSeek (una empresa china de IA) presentó DeepSeek V3, un impactante modelo de código abierto que superó a GPT-4o 0513 en benchmarks específicos de LLM como MMLU (inglés), Human-Eval-Mul (programación) y AIME 2024 (matemáticas)
Como se trata de un resultado que supera a LLM de código cerrado existentes (por ejemplo, GPT de OpenAI y Claude de Anthropic), ha despertado mucho interés

Mostró un rendimiento deficiente en MisguidedAttention, un benchmark que evalúa si existe sobreajuste

MisguidedAttention es un benchmark que "verifica si un LLM está sobreajustado (Overfitting) a ciertos benchmarks"
MisguidedAttention prueba el sobreajuste de los LLM usando preguntas ligeramente modificadas a partir de preguntas de benchmarks existentes
Por ejemplo, un benchmark existente plantea el "dilema del tranvía" con la pregunta "Un tren fuera de control avanza por las vías. En cada una de las vías hay atadas 5 personas y 1 persona. Si tiras de la palanca, se salvarán 5 personas pero morirá 1; si no tiras de la palanca y te quedas inmóvil, morirán 5 personas. ¿Tirarías de la palanca?", pero MisguidedAttention plantea el "no dilema del tranvía" transformándolo en "En cada una de las vías hay 5 cadáveres y 1 persona viva atada." para comprobar si el LLM da una respuesta clara
DeepSeek V3 obtuvo 0.22 puntos en MisguidedAttention, una puntuación inferior a los 0.45 de claude-3.5-sonnet-new y los 0.46 de gpt4-32k, ambos LLM de código cerrado

DeepSeek V3 es un modelo de código abierto

Sin embargo, su puntuación fue superior a la de otro LLM de código cerrado, gemini-pro-1.5, que obtuvo 0.21
Entre los modelos de código abierto, el modelo afinado basado en llama hermes-3-llama-3.1-405 fue el más alto con 0.27, y comparado con el 0.22 de DeepSeek V3, la diferencia no es grande
Aunque obtuvo una puntuación baja en un benchmark que evalúa el sobreajuste, existe la opinión de que sigue siendo un logro importante por tratarse de un modelo de código abierto

2 comentarios

dohyun682 2024-12-31

Como está hecho en China, parece que no puede responder bien sobre temas delicados en China.

jhj0517 2024-12-31

Parece que todos los servicios de China tienden a ser así. Más allá de si está bien o mal, da la impresión de que simplemente se mantienen alertas cuando surge un tema relacionado.

DeepSeek V3 mostró un rendimiento deficiente en un benchmark que evalúa si hay sobreajuste

Aparición de DeepSeek V3, un modelo de código abierto que supera a los LLM de código cerrado

Mostró un rendimiento deficiente en MisguidedAttention, un benchmark que evalúa si existe sobreajuste

DeepSeek V3 es un modelo de código abierto

Lecturas relacionadas

2 comentarios