3 puntos por GN⁺ 2025-03-06 | 1 comentarios | Compartir por WhatsApp
  • El modelo QwQ-32B tiene 32 mil millones de parámetros y muestra un rendimiento similar al de DeepSeek-R1
  • Este modelo aprovecha el aprendizaje por refuerzo (RL) para potenciar la inteligencia de los modelos de lenguaje a gran escala
  • Está disponible con licencia Apache 2.0 en Hugging Face y ModelScope, y se puede acceder a él a través de Qwen Chat

Rendimiento

  • QwQ-32B fue probado en diversos benchmarks que evalúan razonamiento matemático, capacidad de programación y resolución general de problemas.
  • Su rendimiento se evaluó en comparación con DeepSeek-R1-Distilled-Qwen-32B, DeepSeek-R1-Distilled-Llama-70B, o1-mini y el DeepSeek-R1 original
    • QwQ-32B registró el mejor rendimiento en LiveBench y BFCL, y en IFEval y AIME24 quedó en un nivel similar a DeepSeek-R1-671B
    • En LiveCodeBench quedó ligeramente por debajo de DeepSeek-R1-671B, pero aun así superó a los demás modelos
    • En general, demostró ser competitivo al ofrecer un rendimiento similar o mejor que DeepSeek-R1-671B usando muchos menos parámetros (32.5 mil millones vs. 671 mil millones)
    • En otras palabras, el punto clave es que QwQ-32B es un modelo optimizado mediante aprendizaje por refuerzo que logró rendimiento de primer nivel pese a su escala mucho menor

Aprendizaje por refuerzo

  • En la etapa inicial se introdujo un enfoque de escalado de aprendizaje por refuerzo (RL) para tareas de matemáticas y programación
  • En lugar de modelos de recompensa tradicionales, se usaron verificadores de exactitud y un servidor de ejecución de código para garantizar la precisión de la solución final
  • Hay una etapa adicional de RL para capacidades generales, que mejora el desempeño en habilidades generales como preferencias humanas y rendimiento de agentes

Trabajo futuro

  • Qwen aún está en una etapa temprana de expansión del aprendizaje por refuerzo (RL) para mejorar las capacidades de razonamiento
  • Al combinar modelos base reforzados con recursos de cómputo escalados, esperan acercarse al logro de la inteligencia artificial general (AGI)
  • También están explorando habilitar razonamiento de largo plazo mediante la integración de agentes y RL para desplegar una inteligencia mayor

1 comentarios

 
GN⁺ 2025-03-06
Opiniones en Hacker News
  • Hay que tener cuidado con la longitud de contexto larga (130k tokens). Generar una CoT larga sin suficiente contexto no tiene sentido

    • El primer prompt era demasiado largo y olvidó la tarea
    • El usuario no proporcionó una tarea específica
    • La instrucción inicial era actuar como un agente de IA
    • Parece que el usuario iba a dar un problema y pedir razonamiento paso a paso
  • El aprendizaje de matemáticas y programación mejora la capacidad general de razonamiento

  • Es 20 veces más pequeño que DeepSeek. Me pregunto en qué hardware puede ejecutarse

    • Parece que no haría falta un M3 Ultra de 512 GB
    • Está al nivel de Deepseek, pero es 20 veces más pequeño
  • La estrategia de China es monetizar software de código abierto y robótica

    • Me pregunto cómo mantendrá EE. UU. su poder
    • India no está pudiendo participar en esta competencia
  • Comparten un enlace para probar Qwen2.5-plus

  • Fue lanzado como "preview" en noviembre de 2024

    • Usa mucho la expresión "espera"
    • Ocurre un problema en el que pierde el hilo después de generar muchos tokens de razonamiento
  • Está justo por debajo de Deepseek-R1

    • Es muy impresionante para ser 32B
    • A veces los tokens de pensamiento son 10 veces más grandes que la respuesta final
    • Lo probaré el fin de semana con function calling
  • En una experiencia personal, hicieron una prueba de leer al revés y responder la pregunta

    • Si lees al revés "ip fo eulav si tahw", se convierte en "what is value of pi"
    • El valor de π es aproximadamente 3.14159
    • π es irracional, así que no termina ni se repite
  • Lo procesó de inmediato y fue una experiencia positiva