- Qwen2.5-Max es un modelo grande de Mixture-of-Experts (MoE) preentrenado con más de 20 billones (20T) de tokens
- El entrenamiento posterior se llevó a cabo mediante Supervised Fine-Tuning (SFT) y aprendizaje por refuerzo con retroalimentación humana (RLHF)
- Muestra un rendimiento sobresaliente y se coloca por delante en la mayoría de los benchmarks comparado con DeepSeek V3, GPT-4o, Claude-3.5-Sonnet y Llama-3.1-405B
- Supera a DeepSeek V3 en Arena-Hard, LiveBench, LiveCodeBench y GPQA-Diamond, y también muestra resultados competitivos en MMLU-Pro.
Principales resultados de benchmarks
- Arena-Hard: evaluación aproximada de preferencias humanas
Qwen2.5-Max obtuvo 89.4 puntos, mostrando el mejor rendimiento. Supera a DeepSeek V3 (85.5), GPT-4o (85.2) y Claude-3.5-Sonnet (77.9). Llama-3.1-405B obtuvo 69.3, mostrando un rendimiento relativamente menor.
- MMLU-Pro: evaluación de conocimientos de nivel universitario
Qwen2.5-Max obtuvo 76.1 puntos, mostrando un rendimiento casi equivalente al de DeepSeek V3 (75.9). GPT-4o (78.0) está ligeramente por encima, pero Qwen2.5-Max supera a Claude-3.5-Sonnet (77.0) y Llama-3.1-405B (73.3).
- GPQA-Diamond: evaluación de capacidad general de preguntas y respuestas
Qwen2.5-Max obtuvo 60.1 puntos, quedando apenas por delante de DeepSeek V3 (59.1), aunque ligeramente por debajo de GPT-4o (53.6), Claude-3.5-Sonnet (51.1) y Llama-3.1-405B (65.0).
- LiveCodeBench: evaluación de habilidades de programación
Qwen2.5-Max obtuvo 38.7 puntos, ligeramente por encima de DeepSeek V3 (37.6). Está en un nivel similar a GPT-4o (35.1), Claude-3.5-Sonnet (30.2) y Llama-3.1-405B (38.9).
- LiveBench: evaluación del rendimiento general del modelo
Qwen2.5-Max obtuvo la puntuación más alta con 62.2 puntos. Supera a DeepSeek V3 (60.5), GPT-4o (60.3), Claude-3.5-Sonnet (56.0) y Llama-3.1-405B (53.2).
Dirección futura
- La expansión de los datos y del tamaño del modelo muestra avances en la inteligencia del modelo, y se mantiene el compromiso con la investigación para mejorar las capacidades de pensamiento y razonamiento de los modelos de lenguaje a gran escala
- A través de aplicaciones innovadoras del aprendizaje por refuerzo, se abre la posibilidad de desarrollar modelos que superen la inteligencia humana y explorar nuevas áreas de conocimiento y comprensión
1 comentarios
2023-08-03 Alibaba publica el modelo de IA open source QWEN
2024-04-25 Qwen1.5-110B: el primer modelo de más de 100B de la serie LLM open source Qwen1.5 de Alibaba
2024-06-07 Alibaba presenta el modelo Qwen 2
2024-09-19 Qwen2.5 - presentación de varios modelos fundacionales
2024-11-28 QwQ - el LLM de razonamiento de Alibaba, similar a ChatGPT o1
2024-12-24 Experiencia de uso de QvQ, el nuevo modelo de razonamiento visual de Qwen
2025-01-27 Qwen2.5-1M - desplegar por cuenta propia Qwen con soporte de hasta 1 millón de tokens
Mientras DeepSeek está causando sensación, Qwen también está soltando resultados impresionantes a un ritmo de uno por día.
Las empresas chinas dan miedo.