Qwen3.6-27B: rendimiento de programación de nivel flagship en un modelo denso de 27 mil millones
(qwen.ai)- Se presentó como un modelo multimodal denso de 27 mil millones de parámetros, con soporte conjunto para los modos thinking y non-thinking y para procesamiento de imágenes y video dentro de un único checkpoint integrado
- Su rendimiento en agentic coding supera al anterior flagship open source de la generación previa, Qwen3.5-397B-A17B, en los principales benchmarks de programación, e incluso supera modelos con hasta 15 veces más parámetros totales
- Registró 77.2 en SWE-bench Verified, 53.5 en SWE-bench Pro, 59.3 en Terminal-Bench 2.0 y 48.2 en SkillsBench; también se publicaron métricas de razonamiento en texto y evaluaciones STEM como 87.8 en GPQA Diamond y 94.1 en AIME26
- Gracias a su arquitectura densa, no tiene la complejidad de enrutamiento de MoE y su despliegue es más simple; además ofrece open weights, API, acceso inmediato en Qwen Studio y compatibilidad con integraciones como OpenClaw, Qwen Code y Claude Code
- Muestra que un modelo denso bien entrenado puede superar a una generación previa mucho más grande en tareas clave para desarrolladores, y además amplía el alcance de agentic coding dentro de la familia Qwen3.6
Resumen general
- Qwen3.6-27B se lanzó como un modelo multimodal denso de 27 mil millones de parámetros, con soporte tanto para modo multimodal thinking como non-thinking
- En agentic coding, supera al anterior flagship open source de la generación previa, Qwen3.5-397B-A17B, a lo largo de los principales benchmarks de programación
- Al adoptar una arquitectura densa sin la complejidad de enrutamiento de MoE, simplifica el despliegue y ofrece rendimiento de programación de primer nivel en una escala práctica y fácil de distribuir
- Está disponible de inmediato en Qwen Studio, y también se ofrecen open weights para la comunidad y acceso vía API
- Entre sus características clave están el agentic coding de nivel flagship, un sólido razonamiento en texto y capacidades de razonamiento multimodal
Rendimiento
- Para Qwen3.6-27B se presentó una evaluación integral frente a modelos de referencia dense y MoE, con mejoras notables en los benchmarks de agentic coding
- Se indica explícitamente que supera incluso a modelos con hasta 15 veces más parámetros totales
- Las categorías evaluadas incluyen lenguaje, conocimiento, STEM y razonamiento, visión-lenguaje, comprensión de documentos, comprensión de video y visual agent
-
Lenguaje
- Con solo 27 mil millones de parámetros, supera a Qwen3.5-397B-A17B en todos los principales benchmarks de programación
- SWE-bench Verified 77.2 vs 76.2
- SWE-bench Pro 53.5 vs 50.9
- Terminal-Bench 2.0 59.3 vs 52.5
- SkillsBench 48.2 vs 30.0
- También aventaja con amplio margen a otros modelos densos de tamaño similar
- En tareas de razonamiento registró 87.8 puntos en GPQA Diamond, una cifra capaz de competir con modelos de varias veces su tamaño
- La tabla detallada incluye comparaciones entre Qwen3.5-27B, Qwen3.5-397B-A17B, Gemma4-31B, Claude 4.5 Opus, Qwen3.6-35B-A3B y Qwen3.6-27B
- Principales métricas en Coding Agent
- SWE-bench Multilingual 71.3
- QwenWebBench 1487
- NL2Repo 36.2
- Claw-Eval Avg 72.4
- Claw-Eval Pass^3 60.6
- QwenClawBench 53.4
- Principales métricas en Knowledge
- MMLU-Pro 86.2
- MMLU-Redux 93.5
- SuperGPQA 66.0
- C-Eval 91.4
- Principales métricas en STEM y razonamiento
- HLE 24.0
- LiveCodeBench v6 83.9
- HMMT Feb 25 93.8
- HMMT Nov 25 90.7
- HMMT Feb 26 84.3
- IMOAnswerBench 80.8
- AIME26 94.1
- Con solo 27 mil millones de parámetros, supera a Qwen3.5-397B-A17B en todos los principales benchmarks de programación
-
Configuración de evaluación de lenguaje
- La serie SWE-Bench usa un agent scaffold interno junto con herramientas de bash y edición de archivos, con temp 1.0, top_p 0.95 y una ventana de contexto de 200K
- Todos los modelos de referencia fueron evaluados en un refined benchmark que corrige algunas tareas problemáticas del conjunto público SWE-bench Pro
- Terminal-Bench 2.0 usa el harness Harbor o Terminus-2
- timeout de 3 horas, 32 CPU, 48 GB de RAM
- temp 1.0, top_p 0.95, top_k 20, max_tokens 80K, ctx 256K
- Promedio de 5 ejecuciones
- SkillsBench evalúa 78 tareas con OpenCode
- Se usa un subconjunto self-contained que excluye tareas dependientes de API
- Promedio de 5 ejecuciones
- La evaluación de otros modelos en NL2Repo usa Claude Code
- temp 1.0, top_p 0.95, max_turns 900
- QwenClawBench es un benchmark del agente Claw basado en distribución real de usuarios
- temp 0.6, ctx 256K
- QwenWebBench es un benchmark interno de generación de código frontend
- Configuración bilingüe EN y CN
- 7 categorías: Web Design, Web Apps, Games, SVG, Data Visualization, Animation y 3D
- Evalúa código y alineación visual con auto-render y un judge multimodal
- Usa el sistema de rating BT o Elo
- AIME 26 usa por completo AIME 2026 I y II
- Se aclara que las puntuaciones pueden diferir de la nota de Qwen 3.5
- La serie SWE-Bench usa un agent scaffold interno junto con herramientas de bash y edición de archivos, con temp 1.0, top_p 0.95 y una ventana de contexto de 200K
-
Visión-lenguaje
- Qwen3.6-27B soporta tanto modo thinking como non-thinking en visión-lenguaje dentro de un único checkpoint unificado
- Puede procesar imágenes y video junto con texto
- Soporta tareas de razonamiento multimodal, comprensión de documentos y visual question answering
- La tabla comparativa se presenta frente a Qwen3.5-27B, Qwen3.5-397B-A17B, Gemma4-31B, Claude 4.5 Opus, Qwen3.6-35B-A3B y Qwen3.6-27B
-
STEM y acertijos
- MMMU 82.9
- MMMU-Pro 75.8
- MathVista mini 87.4
- DynaMath 85.6
- VlmsAreBlind 97.0
-
VQA general
- RealWorldQA 84.1
- MMStar 81.4
- MMBench EN-DEV-v1.1 92.3
- SimpleVQA 56.1
-
Comprensión de documentos
- CharXiv RQ 78.4
- CC-OCR 81.2
- OCRBench 89.4
-
Inteligencia espacial
- ERQA 62.5
- CountBench 97.8
- RefCOCO avg 92.5
- EmbSpatialBench 84.6
- RefSpatialBench 70.0
-
Comprensión de video
- VideoMME(w sub.) 87.7
- VideoMMMU 84.4
- MLVU 86.6
- MVBench 75.5
-
Visual Agent
- V* 94.7
- AndroidWorld 70.3
-
Nota
- Los espacios en blanco (--) de la tabla significan que la puntuación aún no existe o no aplica
Uso de Qwen3.6-27B
- Se indica que el soporte en Alibaba Cloud Model Studio estará disponible próximamente
- Hay open weights disponibles en Hugging Face y ModelScope, con opción de self-hosting
- También se ofrece acceso mediante la API de Alibaba Cloud Model Studio y una ruta de prueba inmediata en Qwen Studio
- Se soporta la integración con asistentes de programación de terceros como OpenClaw, Claude Code y Qwen Code
- Se menciona la simplificación del flujo de trabajo de desarrollo y una context-aware coding experience
-
Uso de API
- Esta versión soporta la función
preserve_thinking - Se describe como una función que preserva el contenido thinking generado en todos los turnos previos del mensaje, y se recomienda para agentic task
- Esta versión soporta la función
-
Alibaba Cloud Model Studio
- Soporta chat completions y responses API compatibles con la especificación de OpenAI
- También soporta una interfaz de API compatible con Anthropic
- Se proporcionan ejemplos de variables de entorno según la documentación oficial
DASHSCOPE_API_KEYDASHSCOPE_BASE_URLDASHSCOPE_MODEL
- También se indican regiones de ejemplo para Base URL
- En el código de ejemplo se usa
qwen3.6-27bcomo nombre de modelo por defecto - En
extra_bodyse incluyeenable_thinking: Truepreserve_thinking: Trueaparece como comentario
- También se incluye un ejemplo de respuesta en streaming que recopila por separado reasoning_content y answer content
- Para más información se indica consultar el enlace de API doc
-
Coding & Agents
- Qwen3.6-27B tiene capacidades de agentic coding y puede integrarse sin fricción con OpenClaw, Claude Code y Qwen Code
-
OpenClaw
- OpenClaw es un AI coding agent open source y self-hosted; antes se llamaba Moltbot o Clawdbot
- Al conectarse con Model Studio, ofrece una experiencia completa de agentic coding en la terminal
- El script de inicio incluye Node.js 22+, ejecución del script de instalación, configuración de
DASHSCOPE_API_KEYy ejecución deopenclaw dashboardoopenclaw tui - En el primer uso es necesario modificar
~/.openclaw/openclaw.json- Se indica explícitamente no sobrescribir el archivo completo
- Solo deben fusionarse los campos necesarios para preservar la configuración existente
- La configuración de ejemplo incluye el provider
modelstudioy el registro del modeloqwen3.6-27bapiesopenai-completions- El valor de
reasoninges true - Los tipos de entrada son
text,image contextWindowes 131072maxTokenses 16384- El modelo primary por defecto es
modelstudio/qwen3.6-27b
-
Qwen Code
- Qwen Code es un AI agent open source para terminal y una herramienta profundamente optimizada para la serie Qwen
- El script de inicio incluye Node.js 20+, instalación de
@qwen-code/qwen-code@latesty ejecución deqwen - Se muestran ejemplos de uso de los comandos
/helpy/authdentro de la sesión - En el primer uso aparece un prompt de inicio de sesión, y con
/authse puede cambiar el método de autenticación
-
Claude Code
- Las Qwen APIs también soportan el protocolo de API de Anthropic
- Se indica que puede usarse con herramientas como Claude Code
- El ejemplo de configuración incluye las siguientes variables de entorno
ANTHROPIC_MODEL="qwen3.6-27b"ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-27b"ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropicANTHROPIC_AUTH_TOKEN=<your_api_key>
- El comando de ejecución es
claude
Cierre
- Qwen3.6-27B demuestra que un modelo denso bien entrenado puede superar a una generación previa mucho más grande en tareas importantes para desarrolladores
- Con una escala de 27 mil millones de parámetros, supera a Qwen3.5-397B-A17B en todos los principales benchmarks de agentic coding
- Su estructura simplifica el despliegue y el servicio, y la familia open source Qwen3.6 ahora cubre una gama más amplia de configuraciones de modelo con la incorporación de Qwen3.6-27B
Aún no hay comentarios.