Qwen2.5-Max: explorando la inteligencia de un modelo MoE a gran escala

(qwenlm.github.io)

1 puntos por GN⁺ 2025-01-29 | 2 comentarios | Compartir por WhatsApp

Qwen2.5-Max es un modelo MoE a gran escala, preentrenado con más de 20 billones de tokens, y fue publicado en Alibaba Cloud API y Qwen Chat tras el postentrenamiento con SFT y RLHF
La evaluación incluye MMLU-Pro, LiveCodeBench, LiveBench y Arena-Hard, y el modelo instruct se compara con enfoque en usos downstream reales como chat y programación
Qwen2.5-Max superó a DeepSeek V3 en Arena-Hard, LiveBench, LiveCodeBench y GPQA-Diamond, y también mostró resultados competitivos en MMLU-Pro y otras pruebas
En la comparación de modelos base, como no se puede acceder directamente a GPT-4o y Claude-3.5-Sonnet, los referentes de comparación fueron DeepSeek V3, Llama-3.1-405B y Qwen2.5-72B
El nombre del modelo en la API es qwen-max-2025-01-25 y usa un esquema compatible con OpenAI API, por lo que se puede aprovechar el flujo de llamadas existente basado en clientes de OpenAI

Escala del modelo y resultados de benchmarks

Qwen2.5-Max es un modelo MoE a gran escala desarrollado bajo la premisa de que escalar el tamaño de los datos y del modelo puede traducirse en una mejora de la inteligencia del modelo
El modelo fue preentrenado con más de 20 billones de tokens y luego pasó por postentrenamiento con Supervised Fine-Tuning (SFT) y Reinforcement Learning from Human Feedback (RLHF) seleccionados
La evaluación de desempeño utiliza en conjunto benchmarks clave de conocimiento, programación y capacidades generales
- MMLU-Pro: evaluación de conocimiento mediante problemas de nivel universitario
- LiveCodeBench: evaluación de capacidad de programación
- LiveBench: evaluación integral de capacidades generales
- Arena-Hard: evaluación más cercana a las preferencias humanas
En el modelo instruct se comparan Qwen2.5-Max, DeepSeek V3, GPT-4o y Claude-3.5-Sonnet
- Qwen2.5-Max supera a DeepSeek V3 en Arena-Hard, LiveBench, LiveCodeBench y GPQA-Diamond
- También muestra resultados competitivos en otras evaluaciones, incluido MMLU-Pro
En la comparación de modelos base, al no poder acceder a modelos propietarios como GPT-4o y Claude-3.5-Sonnet, la evaluación se centra en modelos de pesos abiertos
- Los modelos comparados son DeepSeek V3, Llama-3.1-405B y Qwen2.5-72B
- El modelo base Qwen2.5-Max muestra una ventaja significativa en la mayoría de los benchmarks
Las versiones futuras apuntan a un rendimiento aún mayor mediante mejoras en las técnicas de postentrenamiento

Uso de la API y próximos retos

Qwen2.5-Max puede usarse en Qwen Chat, donde se puede chatear directamente o usar artifacts, search y más
La API se ofrece a través de Alibaba Cloud
- El nombre del modelo es qwen-max-2025-01-25
- Se puede registrar una cuenta de Alibaba Cloud, activar el servicio Model Studio y luego crear una clave API desde la consola
La API de Qwen tiene un formato compatible con OpenAI API, así que puede invocarse con clientes de OpenAI

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.getenv("API_KEY"),
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1";,
)

completion = client.chat.completions.create(
    model="qwen-max-2025-01-25",
    messages=[
        {'role': 'system', 'content': 'You are a helpful assistant.'},
        {'role': 'user', 'content': 'Which number is larger, 9.11 or 9.8?'}
    ]
)

print(completion.choices[0].message)

El trabajo futuro se centra en aplicar aprendizaje por refuerzo ampliado para mejorar la capacidad de pensamiento y razonamiento de los modelos de lenguaje grandes
La información de cita relacionada con Qwen2.5 es el preprint de arXiv Qwen2.5 technical report, arXiv:2412.15115

2 comentarios

GN⁺ 2025-01-29

Opiniones de Hacker News

DeepSeek V3 se lanzó recientemente y mostró lo útiles que pueden ser los detalles clave del proceso de escalado, pero ellos mismos no están publicando su información de entrenamiento.
Si es una API privada y no hay más información, la afirmación de que está “casi al nivel de o1” no me interesa mucho.
- Ni siquiera es “casi al nivel de o1”. La comparación es solo contra el 4o, que es más antiguo.
  Es razonable asumir que Qwen2.5-Max tendrá puntajes más bajos que los modelos de razonamiento recientes (o1, DeepSeek-R1, Gemini 2.0 Flash Thinking).
  Si aplican aprendizaje por refuerzo para razonamiento, podría convertirse en un modelo muy fuerte, pero como todas las recetas exitosas son privadas, puede llevar tiempo. Mientras tanto, podrían hacer ajuste fino supervisado (SFT) con base en las cadenas de razonamiento de otros modelos, pero incluso el informe técnico de DeepSeek-R1 dice que no es tan bueno como el aprendizaje por refuerzo.
Pensé que había tres entradas sobre DeepSeek en la portada de HN, pero resulta que era la cuarta. Era porque el texto decía que el equipo de Qwen tenía una versión secreta de Qwen que es mejor que DeepSeek-V3.
No recuerdo cuándo fue la última vez que el 20% de la portada de HN trataba del mismo tema. Claro que tampoco se me viene fácilmente a la mente un precedente de una empresa que haya perdido 569 mil millones de dólares de capitalización de mercado como NVIDIA ayer.
- Se me pasó que 4 ÷ 30 no es 20%. En realidad está más cerca del 13%. Fue un error tonto.
Demo en HuggingFace: https://huggingface.co/spaces/Qwen/Qwen2.5-Max-Demo
Fuente: https://x.com/Alibaba_Qwen/status/1884263157574820053
Es bastante sorprendente que una empresa china haya anunciado esto la víspera del Año Nuevo Lunar. El lanzamiento de DeepSeek claramente parece haber encendido la mecha.
De por sí es inesperado que esté pasando algo en las empresas tecnológicas chinas ahora mismo.
- Los ingenieros de DeepSeek deben estar gestionando incidentes desesperadamente porque están muy por debajo de la capacidad necesaria. Parece que los competidores ya lanzaron algo a toda prisa, o decidieron publicar discretamente lo que tenían preparado. Se siente que todos están trabajando a full.
- Es similar a cuando Gemini llegó al primer puesto del ranking de Chatbot Arena y OpenAI lanzó un modelo al día siguiente.
Este parece ser el nuevo modelo de mayor rendimiento de Qwen, y por ahora es solo vía API. Dicen que es mejor que DeepSeek v3.
- Se puede usar desde el selector de modelo en https://chat.qwenlm.ai/.
Ejecuté mi benchmark de NYT Connections y obtuvo 18.6 puntos, por encima de los 14.8 de Qwen 2.5 72B. Más adelante correré otros benchmarks.
https://github.com/lechmazur/nyt-connections/
La mezcla de expertos (MoE) en la nube se siente un poco ambigua. Pero en equipos de escritorio realmente podría brillar.
La memoria se está volviendo cada vez más rápida, así que pronto puede que MoE ya no sea dolorosamente lento incluso con modelos relativamente grandes.
Sin pesos, no hay evidencia.
- ¿Vas a decir lo mismo cuando OpenAI lance un modelo nuevo?
Este no es un modelo de razonamiento. Si superó a DeepSeek V3 en los benchmarks, creo que una versión de modelo de razonamiento podría incluso superar a o1 Pro.

xguru 2025-01-29

2023-08-03 Alibaba publica el modelo de IA open source QWEN
2024-04-25 Qwen1.5-110B: el primer modelo de más de 100B de la serie LLM open source Qwen1.5 de Alibaba
2024-06-07 Alibaba presenta el modelo Qwen 2
2024-09-19 Qwen2.5 - presentación de varios modelos fundacionales
2024-11-28 QwQ - el LLM de razonamiento de Alibaba, similar a ChatGPT o1
2024-12-24 Experiencia de uso de QvQ, el nuevo modelo de razonamiento visual de Qwen
2025-01-27 Qwen2.5-1M - desplegar por cuenta propia Qwen con soporte de hasta 1 millón de tokens

Mientras DeepSeek está causando sensación, Qwen también está soltando resultados impresionantes a un ritmo de uno por día.
Las empresas chinas dan miedo.