Qwen3.6-27B: rendimiento de programación de nivel flagship en un modelo denso de 27 mil millones
(qwen.ai)- Se presentó como un modelo multimodal denso de 27 mil millones de parámetros, con soporte conjunto para los modos thinking y non-thinking y para procesamiento de imágenes y video dentro de un único checkpoint integrado
- Su rendimiento en agentic coding supera al anterior flagship open source de la generación previa, Qwen3.5-397B-A17B, en los principales benchmarks de programación, e incluso supera modelos con hasta 15 veces más parámetros totales
- Registró 77.2 en SWE-bench Verified, 53.5 en SWE-bench Pro, 59.3 en Terminal-Bench 2.0 y 48.2 en SkillsBench; también se publicaron métricas de razonamiento en texto y evaluaciones STEM como 87.8 en GPQA Diamond y 94.1 en AIME26
- Gracias a su arquitectura densa, no tiene la complejidad de enrutamiento de MoE y su despliegue es más simple; además ofrece open weights, API, acceso inmediato en Qwen Studio y compatibilidad con integraciones como OpenClaw, Qwen Code y Claude Code
- Muestra que un modelo denso bien entrenado puede superar a una generación previa mucho más grande en tareas clave para desarrolladores, y además amplía el alcance de agentic coding dentro de la familia Qwen3.6
Resumen general
- Qwen3.6-27B se lanzó como un modelo multimodal denso de 27 mil millones de parámetros, con soporte tanto para modo multimodal thinking como non-thinking
- En agentic coding, supera al anterior flagship open source de la generación previa, Qwen3.5-397B-A17B, a lo largo de los principales benchmarks de programación
- Al adoptar una arquitectura densa sin la complejidad de enrutamiento de MoE, simplifica el despliegue y ofrece rendimiento de programación de primer nivel en una escala práctica y fácil de distribuir
- Está disponible de inmediato en Qwen Studio, y también se ofrecen open weights para la comunidad y acceso vía API
- Entre sus características clave están el agentic coding de nivel flagship, un sólido razonamiento en texto y capacidades de razonamiento multimodal
Rendimiento
- Para Qwen3.6-27B se presentó una evaluación integral frente a modelos de referencia dense y MoE, con mejoras notables en los benchmarks de agentic coding
- Se indica explícitamente que supera incluso a modelos con hasta 15 veces más parámetros totales
- Las categorías evaluadas incluyen lenguaje, conocimiento, STEM y razonamiento, visión-lenguaje, comprensión de documentos, comprensión de video y visual agent
-
Lenguaje
- Con solo 27 mil millones de parámetros, supera a Qwen3.5-397B-A17B en todos los principales benchmarks de programación
- SWE-bench Verified 77.2 vs 76.2
- SWE-bench Pro 53.5 vs 50.9
- Terminal-Bench 2.0 59.3 vs 52.5
- SkillsBench 48.2 vs 30.0
- También aventaja con amplio margen a otros modelos densos de tamaño similar
- En tareas de razonamiento registró 87.8 puntos en GPQA Diamond, una cifra capaz de competir con modelos de varias veces su tamaño
- La tabla detallada incluye comparaciones entre Qwen3.5-27B, Qwen3.5-397B-A17B, Gemma4-31B, Claude 4.5 Opus, Qwen3.6-35B-A3B y Qwen3.6-27B
- Principales métricas en Coding Agent
- SWE-bench Multilingual 71.3
- QwenWebBench 1487
- NL2Repo 36.2
- Claw-Eval Avg 72.4
- Claw-Eval Pass^3 60.6
- QwenClawBench 53.4
- Principales métricas en Knowledge
- MMLU-Pro 86.2
- MMLU-Redux 93.5
- SuperGPQA 66.0
- C-Eval 91.4
- Principales métricas en STEM y razonamiento
- HLE 24.0
- LiveCodeBench v6 83.9
- HMMT Feb 25 93.8
- HMMT Nov 25 90.7
- HMMT Feb 26 84.3
- IMOAnswerBench 80.8
- AIME26 94.1
- Con solo 27 mil millones de parámetros, supera a Qwen3.5-397B-A17B en todos los principales benchmarks de programación
-
Configuración de evaluación de lenguaje
- La serie SWE-Bench usa un agent scaffold interno junto con herramientas de bash y edición de archivos, con temp 1.0, top_p 0.95 y una ventana de contexto de 200K
- Todos los modelos de referencia fueron evaluados en un refined benchmark que corrige algunas tareas problemáticas del conjunto público SWE-bench Pro
- Terminal-Bench 2.0 usa el harness Harbor o Terminus-2
- timeout de 3 horas, 32 CPU, 48 GB de RAM
- temp 1.0, top_p 0.95, top_k 20, max_tokens 80K, ctx 256K
- Promedio de 5 ejecuciones
- SkillsBench evalúa 78 tareas con OpenCode
- Se usa un subconjunto self-contained que excluye tareas dependientes de API
- Promedio de 5 ejecuciones
- La evaluación de otros modelos en NL2Repo usa Claude Code
- temp 1.0, top_p 0.95, max_turns 900
- QwenClawBench es un benchmark del agente Claw basado en distribución real de usuarios
- temp 0.6, ctx 256K
- QwenWebBench es un benchmark interno de generación de código frontend
- Configuración bilingüe EN y CN
- 7 categorías: Web Design, Web Apps, Games, SVG, Data Visualization, Animation y 3D
- Evalúa código y alineación visual con auto-render y un judge multimodal
- Usa el sistema de rating BT o Elo
- AIME 26 usa por completo AIME 2026 I y II
- Se aclara que las puntuaciones pueden diferir de la nota de Qwen 3.5
- La serie SWE-Bench usa un agent scaffold interno junto con herramientas de bash y edición de archivos, con temp 1.0, top_p 0.95 y una ventana de contexto de 200K
-
Visión-lenguaje
- Qwen3.6-27B soporta tanto modo thinking como non-thinking en visión-lenguaje dentro de un único checkpoint unificado
- Puede procesar imágenes y video junto con texto
- Soporta tareas de razonamiento multimodal, comprensión de documentos y visual question answering
- La tabla comparativa se presenta frente a Qwen3.5-27B, Qwen3.5-397B-A17B, Gemma4-31B, Claude 4.5 Opus, Qwen3.6-35B-A3B y Qwen3.6-27B
-
STEM y acertijos
- MMMU 82.9
- MMMU-Pro 75.8
- MathVista mini 87.4
- DynaMath 85.6
- VlmsAreBlind 97.0
-
VQA general
- RealWorldQA 84.1
- MMStar 81.4
- MMBench EN-DEV-v1.1 92.3
- SimpleVQA 56.1
-
Comprensión de documentos
- CharXiv RQ 78.4
- CC-OCR 81.2
- OCRBench 89.4
-
Inteligencia espacial
- ERQA 62.5
- CountBench 97.8
- RefCOCO avg 92.5
- EmbSpatialBench 84.6
- RefSpatialBench 70.0
-
Comprensión de video
- VideoMME(w sub.) 87.7
- VideoMMMU 84.4
- MLVU 86.6
- MVBench 75.5
-
Visual Agent
- V* 94.7
- AndroidWorld 70.3
-
Nota
- Los espacios en blanco (--) de la tabla significan que la puntuación aún no existe o no aplica
Uso de Qwen3.6-27B
- Se indica que el soporte en Alibaba Cloud Model Studio estará disponible próximamente
- Hay open weights disponibles en Hugging Face y ModelScope, con opción de self-hosting
- También se ofrece acceso mediante la API de Alibaba Cloud Model Studio y una ruta de prueba inmediata en Qwen Studio
- Se soporta la integración con asistentes de programación de terceros como OpenClaw, Claude Code y Qwen Code
- Se menciona la simplificación del flujo de trabajo de desarrollo y una context-aware coding experience
-
Uso de API
- Esta versión soporta la función
preserve_thinking - Se describe como una función que preserva el contenido thinking generado en todos los turnos previos del mensaje, y se recomienda para agentic task
- Esta versión soporta la función
-
Alibaba Cloud Model Studio
- Soporta chat completions y responses API compatibles con la especificación de OpenAI
- También soporta una interfaz de API compatible con Anthropic
- Se proporcionan ejemplos de variables de entorno según la documentación oficial
DASHSCOPE_API_KEYDASHSCOPE_BASE_URLDASHSCOPE_MODEL
- También se indican regiones de ejemplo para Base URL
- En el código de ejemplo se usa
qwen3.6-27bcomo nombre de modelo por defecto - En
extra_bodyse incluyeenable_thinking: Truepreserve_thinking: Trueaparece como comentario
- También se incluye un ejemplo de respuesta en streaming que recopila por separado reasoning_content y answer content
- Para más información se indica consultar el enlace de API doc
-
Coding & Agents
- Qwen3.6-27B tiene capacidades de agentic coding y puede integrarse sin fricción con OpenClaw, Claude Code y Qwen Code
-
OpenClaw
- OpenClaw es un AI coding agent open source y self-hosted; antes se llamaba Moltbot o Clawdbot
- Al conectarse con Model Studio, ofrece una experiencia completa de agentic coding en la terminal
- El script de inicio incluye Node.js 22+, ejecución del script de instalación, configuración de
DASHSCOPE_API_KEYy ejecución deopenclaw dashboardoopenclaw tui - En el primer uso es necesario modificar
~/.openclaw/openclaw.json- Se indica explícitamente no sobrescribir el archivo completo
- Solo deben fusionarse los campos necesarios para preservar la configuración existente
- La configuración de ejemplo incluye el provider
modelstudioy el registro del modeloqwen3.6-27bapiesopenai-completions- El valor de
reasoninges true - Los tipos de entrada son
text,image contextWindowes 131072maxTokenses 16384- El modelo primary por defecto es
modelstudio/qwen3.6-27b
-
Qwen Code
- Qwen Code es un AI agent open source para terminal y una herramienta profundamente optimizada para la serie Qwen
- El script de inicio incluye Node.js 20+, instalación de
@qwen-code/qwen-code@latesty ejecución deqwen - Se muestran ejemplos de uso de los comandos
/helpy/authdentro de la sesión - En el primer uso aparece un prompt de inicio de sesión, y con
/authse puede cambiar el método de autenticación
-
Claude Code
- Las Qwen APIs también soportan el protocolo de API de Anthropic
- Se indica que puede usarse con herramientas como Claude Code
- El ejemplo de configuración incluye las siguientes variables de entorno
ANTHROPIC_MODEL="qwen3.6-27b"ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-27b"ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropicANTHROPIC_AUTH_TOKEN=<your_api_key>
- El comando de ejecución es
claude
Cierre
- Qwen3.6-27B demuestra que un modelo denso bien entrenado puede superar a una generación previa mucho más grande en tareas importantes para desarrolladores
- Con una escala de 27 mil millones de parámetros, supera a Qwen3.5-397B-A17B en todos los principales benchmarks de agentic coding
- Su estructura simplifica el despliegue y el servicio, y la familia open source Qwen3.6 ahora cubre una gama más amplia de configuraciones de modelo con la incorporación de Qwen3.6-27B
4 comentarios
Tendría que ser A3B para que al menos se pueda correr un poco en local jaja
Dicen que en los benchmarks sale bien, pero en uso real todavía no me parece que esté a un nivel como para usarlo como agente de programación.
Lo he probado y no hay grandes problemas para la codificación agéntica. Eso sí, como dices, en uso real y programación general inevitablemente rinde peor que los modelos con más parámetros. Ten en cuenta que los valores de configuración son distintos a los de 3.5 y que también se añadió el modo
preserve_thinking. Con una cuantización 4bit del 27B, no hubo problema para usarlo en local.Comentarios en Hacker News
unsloth/Qwen3.6-27B-GGUF:Q4_K_Mconllama-server, y el modelo 35B-A3B daba unos 25 t/s. Para comparar, en una A100 eran unos 41 t/s y 97 t/s respectivamente. Todavía no he probado mucho el 27B, pero el 35B-A3B se descarrilaba seguido cuando el contexto pasaba de 15k~20k tokens. Para tareas básicas se puede usar con estabilidad, pero no me parece justo decir que esto ya está al nivel de los modelos frontier