QwQ-32B: lograr un rendimiento similar a DeepSeek-R1 con menos parámetros mediante aprendizaje por refuerzo

(qwenlm.github.io)

3 puntos por GN⁺ 2025-03-06 | 1 comentarios | Compartir por WhatsApp

El modelo QwQ-32B tiene 32 mil millones de parámetros y muestra un rendimiento similar al de DeepSeek-R1
Este modelo aprovecha el aprendizaje por refuerzo (RL) para potenciar la inteligencia de los modelos de lenguaje a gran escala
Está disponible con licencia Apache 2.0 en Hugging Face y ModelScope, y se puede acceder a él a través de Qwen Chat

Rendimiento

QwQ-32B fue probado en diversos benchmarks que evalúan razonamiento matemático, capacidad de programación y resolución general de problemas.
Su rendimiento se evaluó en comparación con DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini y el DeepSeek-R1 original
- QwQ-32B registró el mejor rendimiento en LiveBench y BFCL, y en IFEval y AIME24 quedó en un nivel similar a DeepSeek-R1-671B
- En LiveCodeBench quedó ligeramente por debajo de DeepSeek-R1-671B, pero aun así superó a los demás modelos
- En general, demostró ser competitivo al ofrecer un rendimiento similar o mejor que DeepSeek-R1-671B usando muchos menos parámetros (32.5 mil millones vs. 671 mil millones)
- En otras palabras, el punto clave es que QwQ-32B es un modelo optimizado mediante aprendizaje por refuerzo que logró rendimiento de primer nivel pese a su escala mucho menor

Aprendizaje por refuerzo

En la etapa inicial se introdujo un enfoque de escalado de aprendizaje por refuerzo (RL) para tareas de matemáticas y programación
En lugar de modelos de recompensa tradicionales, se usaron verificadores de exactitud y un servidor de ejecución de código para garantizar la precisión de la solución final
Hay una etapa adicional de RL para capacidades generales, que mejora el desempeño en habilidades generales como preferencias humanas y rendimiento de agentes

Trabajo futuro

Qwen aún está en una etapa temprana de expansión del aprendizaje por refuerzo (RL) para mejorar las capacidades de razonamiento
Al combinar modelos base reforzados con recursos de cómputo escalados, esperan acercarse al logro de la inteligencia artificial general (AGI)
También están explorando habilitar razonamiento de largo plazo mediante la integración de agentes y RL para desplegar una inteligencia mayor

1 comentarios

GN⁺ 2025-03-06

Opiniones en Hacker News

Hay que tener cuidado con la longitud de contexto larga (130k tokens). Generar una CoT larga sin suficiente contexto no tiene sentido
- El primer prompt era demasiado largo y olvidó la tarea
- El usuario no proporcionó una tarea específica
- La instrucción inicial era actuar como un agente de IA
- Parece que el usuario iba a dar un problema y pedir razonamiento paso a paso
El aprendizaje de matemáticas y programación mejora la capacidad general de razonamiento
Es 20 veces más pequeño que DeepSeek. Me pregunto en qué hardware puede ejecutarse
- Parece que no haría falta un M3 Ultra de 512 GB
- Está al nivel de Deepseek, pero es 20 veces más pequeño
La estrategia de China es monetizar software de código abierto y robótica
- Me pregunto cómo mantendrá EE. UU. su poder
- India no está pudiendo participar en esta competencia
Comparten un enlace para probar Qwen2.5-plus
Fue lanzado como "preview" en noviembre de 2024
- Usa mucho la expresión "espera"
- Ocurre un problema en el que pierde el hilo después de generar muchos tokens de razonamiento
Está justo por debajo de Deepseek-R1
- Es muy impresionante para ser 32B
- A veces los tokens de pensamiento son 10 veces más grandes que la respuesta final
- Lo probaré el fin de semana con function calling
En una experiencia personal, hicieron una prueba de leer al revés y responder la pregunta
- Si lees al revés "ip fo eulav si tahw", se convierte en "what is value of pi"
- El valor de π es aproximadamente 3.14159
- π es irracional, así que no termina ni se repite
Lo procesó de inmediato y fue una experiencia positiva

QwQ-32B: lograr un rendimiento similar a DeepSeek-R1 con menos parámetros mediante aprendizaje por refuerzo

Rendimiento

Aprendizaje por refuerzo

Trabajo futuro

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News