Aparición de DeepSeek V3, un modelo de código abierto que supera a los LLM de código cerrado
- Recientemente, DeepSeek (una empresa china de IA) presentó DeepSeek V3, un impactante modelo de código abierto que superó a GPT-4o 0513 en benchmarks específicos de LLM como MMLU (inglés), Human-Eval-Mul (programación) y AIME 2024 (matemáticas)
- Como se trata de un resultado que supera a LLM de código cerrado existentes (por ejemplo, GPT de OpenAI y Claude de Anthropic), ha despertado mucho interés
Mostró un rendimiento deficiente en MisguidedAttention, un benchmark que evalúa si existe sobreajuste
- MisguidedAttention es un benchmark que "verifica si un LLM está sobreajustado (Overfitting) a ciertos benchmarks"
- MisguidedAttention prueba el sobreajuste de los LLM usando preguntas ligeramente modificadas a partir de preguntas de benchmarks existentes
- Por ejemplo, un benchmark existente plantea el "dilema del tranvía" con la pregunta "Un tren fuera de control avanza por las vías. En cada una de las vías hay atadas 5 personas y 1 persona. Si tiras de la palanca, se salvarán 5 personas pero morirá 1; si no tiras de la palanca y te quedas inmóvil, morirán 5 personas. ¿Tirarías de la palanca?", pero MisguidedAttention plantea el "no dilema del tranvía" transformándolo en "En cada una de las vías hay 5 cadáveres y 1 persona viva atada." para comprobar si el LLM da una respuesta clara
- DeepSeek V3 obtuvo 0.22 puntos en MisguidedAttention, una puntuación inferior a los 0.45 de claude-3.5-sonnet-new y los 0.46 de gpt4-32k, ambos LLM de código cerrado
DeepSeek V3 es un modelo de código abierto
- Sin embargo, su puntuación fue superior a la de otro LLM de código cerrado, gemini-pro-1.5, que obtuvo 0.21
- Entre los modelos de código abierto, el modelo afinado basado en llama
hermes-3-llama-3.1-405 fue el más alto con 0.27, y comparado con el 0.22 de DeepSeek V3, la diferencia no es grande
- Aunque obtuvo una puntuación baja en un benchmark que evalúa el sobreajuste, existe la opinión de que sigue siendo un logro importante por tratarse de un modelo de código abierto
2 comentarios
Como está hecho en China, parece que no puede responder bien sobre temas delicados en China.
Parece que todos los servicios de China tienden a ser así. Más allá de si está bien o mal, da la impresión de que simplemente se mantienen alertas cuando surge un tema relacionado.