- El más reciente modelo centrado en razonamiento mejora su rendimiento en varias áreas, como conocimiento factual, razonamiento complejo y alineación con preferencias humanas, mediante aprendizaje por refuerzo a gran escala y expansión de parámetros
- En 19 benchmarks registró resultados similares o superiores en algunas áreas frente a GPT-5.2-Thinking, Claude-Opus-4.5 y Gemini 3 Pro
- Gracias a la función de uso adaptativo de herramientas, durante la conversación puede invocar automáticamente búsqueda, memoria e intérprete de código, lo que ayuda a reducir alucinaciones y acceder a información en tiempo real
- Con una estrategia de test-time scaling reduce cálculos repetitivos durante el razonamiento, y mejora la eficiencia mediante un mecanismo de acumulación de experiencia basado en autorreflexión
- Está disponible de inmediato a través de Qwen Chat y la API, y es compatible con las API de OpenAI y Anthropic, lo que facilita su integración en flujos de trabajo existentes
Resumen de Qwen3-Max-Thinking
- Qwen3-Max-Thinking es el más reciente modelo insignia de razonamiento de la serie Qwen, y amplía su rendimiento usando aprendizaje por refuerzo y recursos de cómputo a gran escala
- Presenta mejoras en múltiples dimensiones como conocimiento factual, razonamiento complejo, seguimiento de instrucciones, alineación con preferencias humanas y capacidades de agente
- En 19 benchmarks estándar logró un nivel de rendimiento comparable al de GPT-5.2-Thinking, Claude-Opus-4.5 y Gemini 3 Pro
- Se fortalece con dos innovaciones principales
- Uso adaptativo de herramientas (adaptive tool-use): invoca automáticamente búsqueda e intérprete de código cuando es necesario
- Test-time scaling avanzado: aprovecha de forma eficiente cómputo adicional durante el razonamiento para obtener un rendimiento que supera a Gemini 3 Pro
Resumen del rendimiento en benchmarks
- En el área de conocimiento (knowledge) obtuvo puntajes competitivos, como 85.7 en MMLU-Pro y 93.7 en C-Eval, cercanos a los de los modelos líderes
- En STEM registró 87.4 en GPQA y 30.2 en HLE; aunque queda por debajo de algunos modelos, mantiene un rendimiento equilibrado
- En benchmarks de razonamiento (reasoning) alcanzó valores altos, como 94.7 en HMMT Nov 25 y 85.9 en LiveCodeBench v6
- En seguimiento de instrucciones y alineación (instruction following & alignment) logró un nivel de primer orden con 90.2 en Arena-Hard v2
- También se observaron algunos resultados superiores frente a modelos competidores en uso de herramientas (tool use) y búsqueda agéntica (agentic search)
Función de uso adaptativo de herramientas
- Incluso sin que el usuario seleccione herramientas manualmente, el modelo puede aprovechar automáticamente Search, Memory y Code Interpreter
- Search y Memory reducen alucinaciones y permiten acceso a información en tiempo real y respuestas personalizadas
- Code Interpreter ayuda a resolver problemas complejos mediante ejecución de código y razonamiento basado en cálculos
- Estas capacidades se reforzaron mediante un proceso adicional de entrenamiento que combina retroalimentación basada en reglas y retroalimentación basada en modelos
- Como resultado, ofrece una experiencia conversacional natural y potente
Estrategia de test-time scaling
- Es un método para mejorar el rendimiento al distribuir cómputo adicional durante el razonamiento, y resulta más eficiente que el muestreo paralelo simple
- El enfoque propuesto usa una estrategia multi-ronda autorreflexiva basada en acumulación de experiencia (self-reflective multi-round)
- A través del mecanismo “take-experience” extrae las ideas clave de rondas anteriores
- Sin repetir conclusiones ya obtenidas, se enfoca en incertidumbres no resueltas
- Logra una mayor eficiencia de contexto con el mismo consumo de tokens
- Mejoras: GPQA 90.3→92.8, HLE 34.1→36.5, LiveCodeBench v6 88.0→91.4, IMO-AnswerBench 89.5→91.5, HLE(w/ tools) 55.8→58.3
Desarrollo e integración de API
- Ya está disponible en Qwen Chat, y el nombre del modelo es
qwen3-max-2026-01-23
- Puede usarse tras generar una API key a través de Alibaba Cloud Model Studio
- Es totalmente compatible con la API de OpenAI y se proporciona código de ejemplo en Python
- La opción
enable_thinking permite activar el modo de razonamiento
- También es compatible con el protocolo de la API de Anthropic, por lo que funciona igual en el entorno de Claude Code
- Tras configurar las variables de entorno, puede ejecutarse con el comando
claude
1 comentarios
Comentarios en Hacker News
Hubo una pregunta sobre una foto famosa, pero el sistema la detectó como "contenido inapropiado" y devolvió un error. El usuario se preguntaba por qué una imagen así es importante a nivel internacional
Últimamente surgió la curiosidad por el uso de tokens en los modelos. Mejoras como la "capacidad de razonamiento" o un mayor uso de herramientas parecen deberse más a guiar mejor al modelo usando más tokens que a una mejora del modelo en sí. O sea, no es "lograr más usando menos", sino "lograr más usando más"
Hubo curiosidad por saber por qué, con la búsqueda desactivada, rinde peor que Opus 4.5, pero al activarla rinde mejor. Alguien se preguntó si tal vez la calidad del contenido del internet chino es mejor
Había curiosidad por la política de precios de los modelos Qwen. Preguntaron si Qwen Max tiene la misma tarifa y por qué el precio dentro de China es mucho más bajo
Página de modelos de Alibaba Cloud
Artículo relacionado
En HN, Opus 4.5 se ha visto prácticamente como el modelo estándar, y se creía que los modelos chinos iban más de 8 meses atrás. Había curiosidad por saber si este modelo cerrará esa brecha
En cambio, Gemini 3 Pro/Flash sigue estando un escalón abajo, pero comparado con el año pasado es muy rápido y barato. Al final, los benchmarks son solo una referencia y la calidad percibida en uso real es subjetiva
El otoño pasado se usó Qwen3-coder en un proyecto de Rust mediante el agente CLI trae, y su capacidad de generar y refactorizar código fue mejor que la de Gemini 2.5 Pro o Claude Opus 3.5.
Incluso resolvió bien la incorporación de llamadas IPC de memoria compartida en Linux y optimizaciones SIMD para x86_64. Eso sí, usar caché de tokens y una ventana de contexto grande terminó costando varios cientos de dólares al mes
Como no se veía un enlace de Hugging Face, alguien preguntó si Qwen ya no está publicando modelos abiertos
También hubo quien preguntó si está disponible en Open Router. Había expectativa por una comparación con Gemini 3 Flash
Mafia Arena
lmarena.ai, panel de safe.ai,
Clock Draw Test, EQBench, OCR Arena
Los benchmarks de LLM se sienten un poco como una entrevista para desarrolladores. Resuelven muy bien problemas complejos de algoritmos distribuidos, pero en el trabajo real hay esa brecha donde agregan un botón y se les olvida reutilizar clases de Tailwind
Hubo una pregunta sobre el tamaño del modelo
Blog oficial