Qwen3.6-27B: rendimiento de programación de nivel flagship en un modelo denso de 27 mil millones

(qwen.ai)

7 puntos por GN⁺ 14 일 전 | Aún no hay comentarios. | Compartir por WhatsApp

Se presentó como un modelo multimodal denso de 27 mil millones de parámetros, con soporte conjunto para los modos thinking y non-thinking y para procesamiento de imágenes y video dentro de un único checkpoint integrado
Su rendimiento en agentic coding supera al anterior flagship open source de la generación previa, Qwen3.5-397B-A17B, en los principales benchmarks de programación, e incluso supera modelos con hasta 15 veces más parámetros totales
Registró 77.2 en SWE-bench Verified, 53.5 en SWE-bench Pro, 59.3 en Terminal-Bench 2.0 y 48.2 en SkillsBench; también se publicaron métricas de razonamiento en texto y evaluaciones STEM como 87.8 en GPQA Diamond y 94.1 en AIME26
Gracias a su arquitectura densa, no tiene la complejidad de enrutamiento de MoE y su despliegue es más simple; además ofrece open weights, API, acceso inmediato en Qwen Studio y compatibilidad con integraciones como OpenClaw, Qwen Code y Claude Code
Muestra que un modelo denso bien entrenado puede superar a una generación previa mucho más grande en tareas clave para desarrolladores, y además amplía el alcance de agentic coding dentro de la familia Qwen3.6

Resumen general

Qwen3.6-27B se lanzó como un modelo multimodal denso de 27 mil millones de parámetros, con soporte tanto para modo multimodal thinking como non-thinking
En agentic coding, supera al anterior flagship open source de la generación previa, Qwen3.5-397B-A17B, a lo largo de los principales benchmarks de programación
Al adoptar una arquitectura densa sin la complejidad de enrutamiento de MoE, simplifica el despliegue y ofrece rendimiento de programación de primer nivel en una escala práctica y fácil de distribuir
Está disponible de inmediato en Qwen Studio, y también se ofrecen open weights para la comunidad y acceso vía API
Entre sus características clave están el agentic coding de nivel flagship, un sólido razonamiento en texto y capacidades de razonamiento multimodal

Rendimiento

Para Qwen3.6-27B se presentó una evaluación integral frente a modelos de referencia dense y MoE, con mejoras notables en los benchmarks de agentic coding
Se indica explícitamente que supera incluso a modelos con hasta 15 veces más parámetros totales
Las categorías evaluadas incluyen lenguaje, conocimiento, STEM y razonamiento, visión-lenguaje, comprensión de documentos, comprensión de video y visual agent
Lenguaje
- Con solo 27 mil millones de parámetros, supera a Qwen3.5-397B-A17B en todos los principales benchmarks de programación
  - SWE-bench Verified 77.2 vs 76.2
  - SWE-bench Pro 53.5 vs 50.9
  - Terminal-Bench 2.0 59.3 vs 52.5
  - SkillsBench 48.2 vs 30.0
- También aventaja con amplio margen a otros modelos densos de tamaño similar
- En tareas de razonamiento registró 87.8 puntos en GPQA Diamond, una cifra capaz de competir con modelos de varias veces su tamaño
- La tabla detallada incluye comparaciones entre Qwen3.5-27B, Qwen3.5-397B-A17B, Gemma4-31B, Claude 4.5 Opus, Qwen3.6-35B-A3B y Qwen3.6-27B
- Principales métricas en Coding Agent
  - SWE-bench Multilingual 71.3
  - QwenWebBench 1487
  - NL2Repo 36.2
  - Claw-Eval Avg 72.4
  - Claw-Eval Pass^3 60.6
  - QwenClawBench 53.4
- Principales métricas en Knowledge
  - MMLU-Pro 86.2
  - MMLU-Redux 93.5
  - SuperGPQA 66.0
  - C-Eval 91.4
- Principales métricas en STEM y razonamiento
  - HLE 24.0
  - LiveCodeBench v6 83.9
  - HMMT Feb 25 93.8
  - HMMT Nov 25 90.7
  - HMMT Feb 26 84.3
  - IMOAnswerBench 80.8
  - AIME26 94.1
Configuración de evaluación de lenguaje
- La serie SWE-Bench usa un agent scaffold interno junto con herramientas de bash y edición de archivos, con temp 1.0, top_p 0.95 y una ventana de contexto de 200K
  - Todos los modelos de referencia fueron evaluados en un refined benchmark que corrige algunas tareas problemáticas del conjunto público SWE-bench Pro
- Terminal-Bench 2.0 usa el harness Harbor o Terminus-2
  - timeout de 3 horas, 32 CPU, 48 GB de RAM
  - temp 1.0, top_p 0.95, top_k 20, max_tokens 80K, ctx 256K
  - Promedio de 5 ejecuciones
- SkillsBench evalúa 78 tareas con OpenCode
  - Se usa un subconjunto self-contained que excluye tareas dependientes de API
  - Promedio de 5 ejecuciones
- La evaluación de otros modelos en NL2Repo usa Claude Code
  - temp 1.0, top_p 0.95, max_turns 900
- QwenClawBench es un benchmark del agente Claw basado en distribución real de usuarios
  - temp 0.6, ctx 256K
- QwenWebBench es un benchmark interno de generación de código frontend
  - Configuración bilingüe EN y CN
  - 7 categorías: Web Design, Web Apps, Games, SVG, Data Visualization, Animation y 3D
  - Evalúa código y alineación visual con auto-render y un judge multimodal
  - Usa el sistema de rating BT o Elo
- AIME 26 usa por completo AIME 2026 I y II
  - Se aclara que las puntuaciones pueden diferir de la nota de Qwen 3.5
Visión-lenguaje
- Qwen3.6-27B soporta tanto modo thinking como non-thinking en visión-lenguaje dentro de un único checkpoint unificado
- Puede procesar imágenes y video junto con texto
- Soporta tareas de razonamiento multimodal, comprensión de documentos y visual question answering
- La tabla comparativa se presenta frente a Qwen3.5-27B, Qwen3.5-397B-A17B, Gemma4-31B, Claude 4.5 Opus, Qwen3.6-35B-A3B y Qwen3.6-27B
- STEM y acertijos
  - MMMU 82.9
  - MMMU-Pro 75.8
  - MathVista mini 87.4
  - DynaMath 85.6
  - VlmsAreBlind 97.0
- VQA general
  - RealWorldQA 84.1
  - MMStar 81.4
  - MMBench EN-DEV-v1.1 92.3
  - SimpleVQA 56.1
- Comprensión de documentos
  - CharXiv RQ 78.4
  - CC-OCR 81.2
  - OCRBench 89.4
- Inteligencia espacial
  - ERQA 62.5
  - CountBench 97.8
  - RefCOCO avg 92.5
  - EmbSpatialBench 84.6
  - RefSpatialBench 70.0
- Comprensión de video
  - VideoMME(w sub.) 87.7
  - VideoMMMU 84.4
  - MLVU 86.6
  - MVBench 75.5
- Visual Agent
  - V* 94.7
  - AndroidWorld 70.3
- Nota
  - Los espacios en blanco (--) de la tabla significan que la puntuación aún no existe o no aplica

Uso de Qwen3.6-27B

Se indica que el soporte en Alibaba Cloud Model Studio estará disponible próximamente
Hay open weights disponibles en Hugging Face y ModelScope, con opción de self-hosting
También se ofrece acceso mediante la API de Alibaba Cloud Model Studio y una ruta de prueba inmediata en Qwen Studio
Se soporta la integración con asistentes de programación de terceros como OpenClaw, Claude Code y Qwen Code
Se menciona la simplificación del flujo de trabajo de desarrollo y una context-aware coding experience
Uso de API
- Esta versión soporta la función preserve_thinking
- Se describe como una función que preserva el contenido thinking generado en todos los turnos previos del mensaje, y se recomienda para agentic task
Alibaba Cloud Model Studio
- Soporta chat completions y responses API compatibles con la especificación de OpenAI
- También soporta una interfaz de API compatible con Anthropic
- Se proporcionan ejemplos de variables de entorno según la documentación oficial
  - DASHSCOPE_API_KEY
  - DASHSCOPE_BASE_URL
  - DASHSCOPE_MODEL
- También se indican regiones de ejemplo para Base URL
  - Beijing https://dashscope.aliyuncs.com/compatible-mode/v1
  - Singapore https://dashscope-intl.aliyuncs.com/compatible-mode/v1
  - US Virginia https://dashscope-us.aliyuncs.com/compatible-mode/v1
- En el código de ejemplo se usa qwen3.6-27b como nombre de modelo por defecto
- En extra_body se incluye enable_thinking: True
  - preserve_thinking: True aparece como comentario
- También se incluye un ejemplo de respuesta en streaming que recopila por separado reasoning_content y answer content
- Para más información se indica consultar el enlace de API doc
Coding & Agents
- Qwen3.6-27B tiene capacidades de agentic coding y puede integrarse sin fricción con OpenClaw, Claude Code y Qwen Code
- OpenClaw
  - OpenClaw es un AI coding agent open source y self-hosted; antes se llamaba Moltbot o Clawdbot
  - Al conectarse con Model Studio, ofrece una experiencia completa de agentic coding en la terminal
  - El script de inicio incluye Node.js 22+, ejecución del script de instalación, configuración de DASHSCOPE_API_KEY y ejecución de openclaw dashboard o openclaw tui
  - En el primer uso es necesario modificar ~/.openclaw/openclaw.json
    - Se indica explícitamente no sobrescribir el archivo completo
    - Solo deben fusionarse los campos necesarios para preservar la configuración existente
  - La configuración de ejemplo incluye el provider modelstudio y el registro del modelo qwen3.6-27b
    - api es openai-completions
    - El valor de reasoning es true
    - Los tipos de entrada son text, image
    - contextWindow es 131072
    - maxTokens es 16384
    - El modelo primary por defecto es modelstudio/qwen3.6-27b
- Qwen Code
  - Qwen Code es un AI agent open source para terminal y una herramienta profundamente optimizada para la serie Qwen
  - El script de inicio incluye Node.js 20+, instalación de @qwen-code/qwen-code@latest y ejecución de qwen
  - Se muestran ejemplos de uso de los comandos /help y /auth dentro de la sesión
  - En el primer uso aparece un prompt de inicio de sesión, y con /auth se puede cambiar el método de autenticación
- Claude Code
  - Las Qwen APIs también soportan el protocolo de API de Anthropic
  - Se indica que puede usarse con herramientas como Claude Code
  - El ejemplo de configuración incluye las siguientes variables de entorno
    - ANTHROPIC_MODEL="qwen3.6-27b"
    - ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-27b"
    - ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
    - ANTHROPIC_AUTH_TOKEN=<your_api_key>
  - El comando de ejecución es claude

Cierre

Qwen3.6-27B demuestra que un modelo denso bien entrenado puede superar a una generación previa mucho más grande en tareas importantes para desarrolladores
Con una escala de 27 mil millones de parámetros, supera a Qwen3.5-397B-A17B en todos los principales benchmarks de agentic coding
Su estructura simplifica el despliegue y el servicio, y la familia open source Qwen3.6 ahora cubre una gama más amplia de configuraciones de modelo con la incorporación de Qwen3.6-27B

Qwen3.6-27B: rendimiento de programación de nivel flagship en un modelo denso de 27 mil millones

Resumen general

Rendimiento

Lenguaje

Configuración de evaluación de lenguaje

Visión-lenguaje

STEM y acertijos

VQA general

Comprensión de documentos

Inteligencia espacial

Comprensión de video

Visual Agent

Nota

Uso de Qwen3.6-27B

Uso de API

Alibaba Cloud Model Studio

Coding & Agents

OpenClaw

Qwen Code

Claude Code

Cierre

Lecturas relacionadas

Aún no hay comentarios.