- El modelo QwQ-32B tiene 32 mil millones de parámetros y muestra un rendimiento similar al de DeepSeek-R1
- Este modelo aprovecha el aprendizaje por refuerzo (RL) para potenciar la inteligencia de los modelos de lenguaje a gran escala
- Está disponible con licencia Apache 2.0 en Hugging Face y ModelScope, y se puede acceder a él a través de Qwen Chat
Rendimiento
- QwQ-32B fue probado en diversos benchmarks que evalúan razonamiento matemático, capacidad de programación y resolución general de problemas.
- Su rendimiento se evaluó en comparación con DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini y el DeepSeek-R1 original
- QwQ-32B registró el mejor rendimiento en LiveBench y BFCL, y en IFEval y AIME24 quedó en un nivel similar a DeepSeek-R1-671B
- En LiveCodeBench quedó ligeramente por debajo de DeepSeek-R1-671B, pero aun así superó a los demás modelos
- En general, demostró ser competitivo al ofrecer un rendimiento similar o mejor que DeepSeek-R1-671B usando muchos menos parámetros (32.5 mil millones vs. 671 mil millones)
- En otras palabras, el punto clave es que QwQ-32B es un modelo optimizado mediante aprendizaje por refuerzo que logró rendimiento de primer nivel pese a su escala mucho menor
Aprendizaje por refuerzo
- En la etapa inicial se introdujo un enfoque de escalado de aprendizaje por refuerzo (RL) para tareas de matemáticas y programación
- En lugar de modelos de recompensa tradicionales, se usaron verificadores de exactitud y un servidor de ejecución de código para garantizar la precisión de la solución final
- Hay una etapa adicional de RL para capacidades generales, que mejora el desempeño en habilidades generales como preferencias humanas y rendimiento de agentes
Trabajo futuro
- Qwen aún está en una etapa temprana de expansión del aprendizaje por refuerzo (RL) para mejorar las capacidades de razonamiento
- Al combinar modelos base reforzados con recursos de cómputo escalados, esperan acercarse al logro de la inteligencia artificial general (AGI)
- También están explorando habilitar razonamiento de largo plazo mediante la integración de agentes y RL para desplegar una inteligencia mayor
1 comentarios
Opiniones en Hacker News
Hay que tener cuidado con la longitud de contexto larga (130k tokens). Generar una CoT larga sin suficiente contexto no tiene sentido
El aprendizaje de matemáticas y programación mejora la capacidad general de razonamiento
Es 20 veces más pequeño que DeepSeek. Me pregunto en qué hardware puede ejecutarse
La estrategia de China es monetizar software de código abierto y robótica
Comparten un enlace para probar Qwen2.5-plus
Fue lanzado como "preview" en noviembre de 2024
Está justo por debajo de Deepseek-R1
En una experiencia personal, hicieron una prueba de leer al revés y responder la pregunta
Lo procesó de inmediato y fue una experiencia positiva