7 puntos por GN⁺ 14 일 전 | Aún no hay comentarios. | Compartir por WhatsApp
  • Se presentó como un modelo multimodal denso de 27 mil millones de parámetros, con soporte conjunto para los modos thinking y non-thinking y para procesamiento de imágenes y video dentro de un único checkpoint integrado
  • Su rendimiento en agentic coding supera al anterior flagship open source de la generación previa, Qwen3.5-397B-A17B, en los principales benchmarks de programación, e incluso supera modelos con hasta 15 veces más parámetros totales
  • Registró 77.2 en SWE-bench Verified, 53.5 en SWE-bench Pro, 59.3 en Terminal-Bench 2.0 y 48.2 en SkillsBench; también se publicaron métricas de razonamiento en texto y evaluaciones STEM como 87.8 en GPQA Diamond y 94.1 en AIME26
  • Gracias a su arquitectura densa, no tiene la complejidad de enrutamiento de MoE y su despliegue es más simple; además ofrece open weights, API, acceso inmediato en Qwen Studio y compatibilidad con integraciones como OpenClaw, Qwen Code y Claude Code
  • Muestra que un modelo denso bien entrenado puede superar a una generación previa mucho más grande en tareas clave para desarrolladores, y además amplía el alcance de agentic coding dentro de la familia Qwen3.6

Resumen general

  • Qwen3.6-27B se lanzó como un modelo multimodal denso de 27 mil millones de parámetros, con soporte tanto para modo multimodal thinking como non-thinking
  • En agentic coding, supera al anterior flagship open source de la generación previa, Qwen3.5-397B-A17B, a lo largo de los principales benchmarks de programación
  • Al adoptar una arquitectura densa sin la complejidad de enrutamiento de MoE, simplifica el despliegue y ofrece rendimiento de programación de primer nivel en una escala práctica y fácil de distribuir
  • Está disponible de inmediato en Qwen Studio, y también se ofrecen open weights para la comunidad y acceso vía API
  • Entre sus características clave están el agentic coding de nivel flagship, un sólido razonamiento en texto y capacidades de razonamiento multimodal

Rendimiento

  • Para Qwen3.6-27B se presentó una evaluación integral frente a modelos de referencia dense y MoE, con mejoras notables en los benchmarks de agentic coding
  • Se indica explícitamente que supera incluso a modelos con hasta 15 veces más parámetros totales
  • Las categorías evaluadas incluyen lenguaje, conocimiento, STEM y razonamiento, visión-lenguaje, comprensión de documentos, comprensión de video y visual agent
  • Lenguaje

    • Con solo 27 mil millones de parámetros, supera a Qwen3.5-397B-A17B en todos los principales benchmarks de programación
      • SWE-bench Verified 77.2 vs 76.2
      • SWE-bench Pro 53.5 vs 50.9
      • Terminal-Bench 2.0 59.3 vs 52.5
      • SkillsBench 48.2 vs 30.0
    • También aventaja con amplio margen a otros modelos densos de tamaño similar
    • En tareas de razonamiento registró 87.8 puntos en GPQA Diamond, una cifra capaz de competir con modelos de varias veces su tamaño
    • La tabla detallada incluye comparaciones entre Qwen3.5-27B, Qwen3.5-397B-A17B, Gemma4-31B, Claude 4.5 Opus, Qwen3.6-35B-A3B y Qwen3.6-27B
    • Principales métricas en Coding Agent
      • SWE-bench Multilingual 71.3
      • QwenWebBench 1487
      • NL2Repo 36.2
      • Claw-Eval Avg 72.4
      • Claw-Eval Pass^3 60.6
      • QwenClawBench 53.4
    • Principales métricas en Knowledge
      • MMLU-Pro 86.2
      • MMLU-Redux 93.5
      • SuperGPQA 66.0
      • C-Eval 91.4
    • Principales métricas en STEM y razonamiento
      • HLE 24.0
      • LiveCodeBench v6 83.9
      • HMMT Feb 25 93.8
      • HMMT Nov 25 90.7
      • HMMT Feb 26 84.3
      • IMOAnswerBench 80.8
      • AIME26 94.1
  • Configuración de evaluación de lenguaje

    • La serie SWE-Bench usa un agent scaffold interno junto con herramientas de bash y edición de archivos, con temp 1.0, top_p 0.95 y una ventana de contexto de 200K
      • Todos los modelos de referencia fueron evaluados en un refined benchmark que corrige algunas tareas problemáticas del conjunto público SWE-bench Pro
    • Terminal-Bench 2.0 usa el harness Harbor o Terminus-2
      • timeout de 3 horas, 32 CPU, 48 GB de RAM
      • temp 1.0, top_p 0.95, top_k 20, max_tokens 80K, ctx 256K
      • Promedio de 5 ejecuciones
    • SkillsBench evalúa 78 tareas con OpenCode
      • Se usa un subconjunto self-contained que excluye tareas dependientes de API
      • Promedio de 5 ejecuciones
    • La evaluación de otros modelos en NL2Repo usa Claude Code
      • temp 1.0, top_p 0.95, max_turns 900
    • QwenClawBench es un benchmark del agente Claw basado en distribución real de usuarios
      • temp 0.6, ctx 256K
    • QwenWebBench es un benchmark interno de generación de código frontend
      • Configuración bilingüe EN y CN
      • 7 categorías: Web Design, Web Apps, Games, SVG, Data Visualization, Animation y 3D
      • Evalúa código y alineación visual con auto-render y un judge multimodal
      • Usa el sistema de rating BT o Elo
    • AIME 26 usa por completo AIME 2026 I y II
      • Se aclara que las puntuaciones pueden diferir de la nota de Qwen 3.5
  • Visión-lenguaje

    • Qwen3.6-27B soporta tanto modo thinking como non-thinking en visión-lenguaje dentro de un único checkpoint unificado
    • Puede procesar imágenes y video junto con texto
    • Soporta tareas de razonamiento multimodal, comprensión de documentos y visual question answering
    • La tabla comparativa se presenta frente a Qwen3.5-27B, Qwen3.5-397B-A17B, Gemma4-31B, Claude 4.5 Opus, Qwen3.6-35B-A3B y Qwen3.6-27B
    • STEM y acertijos

      • MMMU 82.9
      • MMMU-Pro 75.8
      • MathVista mini 87.4
      • DynaMath 85.6
      • VlmsAreBlind 97.0
    • VQA general

      • RealWorldQA 84.1
      • MMStar 81.4
      • MMBench EN-DEV-v1.1 92.3
      • SimpleVQA 56.1
    • Comprensión de documentos

      • CharXiv RQ 78.4
      • CC-OCR 81.2
      • OCRBench 89.4
    • Inteligencia espacial

      • ERQA 62.5
      • CountBench 97.8
      • RefCOCO avg 92.5
      • EmbSpatialBench 84.6
      • RefSpatialBench 70.0
    • Comprensión de video

      • VideoMME(w sub.) 87.7
      • VideoMMMU 84.4
      • MLVU 86.6
      • MVBench 75.5
    • Visual Agent

      • V* 94.7
      • AndroidWorld 70.3
    • Nota

      • Los espacios en blanco (--) de la tabla significan que la puntuación aún no existe o no aplica

Uso de Qwen3.6-27B

  • Se indica que el soporte en Alibaba Cloud Model Studio estará disponible próximamente
  • Hay open weights disponibles en Hugging Face y ModelScope, con opción de self-hosting
  • También se ofrece acceso mediante la API de Alibaba Cloud Model Studio y una ruta de prueba inmediata en Qwen Studio
  • Se soporta la integración con asistentes de programación de terceros como OpenClaw, Claude Code y Qwen Code
  • Se menciona la simplificación del flujo de trabajo de desarrollo y una context-aware coding experience
  • Uso de API

    • Esta versión soporta la función preserve_thinking
    • Se describe como una función que preserva el contenido thinking generado en todos los turnos previos del mensaje, y se recomienda para agentic task
  • Alibaba Cloud Model Studio

    • Soporta chat completions y responses API compatibles con la especificación de OpenAI
    • También soporta una interfaz de API compatible con Anthropic
    • Se proporcionan ejemplos de variables de entorno según la documentación oficial
      • DASHSCOPE_API_KEY
      • DASHSCOPE_BASE_URL
      • DASHSCOPE_MODEL
    • También se indican regiones de ejemplo para Base URL
    • En el código de ejemplo se usa qwen3.6-27b como nombre de modelo por defecto
    • En extra_body se incluye enable_thinking: True
      • preserve_thinking: True aparece como comentario
    • También se incluye un ejemplo de respuesta en streaming que recopila por separado reasoning_content y answer content
    • Para más información se indica consultar el enlace de API doc
  • Coding & Agents

    • Qwen3.6-27B tiene capacidades de agentic coding y puede integrarse sin fricción con OpenClaw, Claude Code y Qwen Code
    • OpenClaw

      • OpenClaw es un AI coding agent open source y self-hosted; antes se llamaba Moltbot o Clawdbot
      • Al conectarse con Model Studio, ofrece una experiencia completa de agentic coding en la terminal
      • El script de inicio incluye Node.js 22+, ejecución del script de instalación, configuración de DASHSCOPE_API_KEY y ejecución de openclaw dashboard o openclaw tui
      • En el primer uso es necesario modificar ~/.openclaw/openclaw.json
        • Se indica explícitamente no sobrescribir el archivo completo
        • Solo deben fusionarse los campos necesarios para preservar la configuración existente
      • La configuración de ejemplo incluye el provider modelstudio y el registro del modelo qwen3.6-27b
        • api es openai-completions
        • El valor de reasoning es true
        • Los tipos de entrada son text, image
        • contextWindow es 131072
        • maxTokens es 16384
        • El modelo primary por defecto es modelstudio/qwen3.6-27b
    • Qwen Code

      • Qwen Code es un AI agent open source para terminal y una herramienta profundamente optimizada para la serie Qwen
      • El script de inicio incluye Node.js 20+, instalación de @qwen-code/qwen-code@latest y ejecución de qwen
      • Se muestran ejemplos de uso de los comandos /help y /auth dentro de la sesión
      • En el primer uso aparece un prompt de inicio de sesión, y con /auth se puede cambiar el método de autenticación
    • Claude Code

      • Las Qwen APIs también soportan el protocolo de API de Anthropic
      • Se indica que puede usarse con herramientas como Claude Code
      • El ejemplo de configuración incluye las siguientes variables de entorno
      • El comando de ejecución es claude

Cierre

  • Qwen3.6-27B demuestra que un modelo denso bien entrenado puede superar a una generación previa mucho más grande en tareas importantes para desarrolladores
  • Con una escala de 27 mil millones de parámetros, supera a Qwen3.5-397B-A17B en todos los principales benchmarks de agentic coding
  • Su estructura simplifica el despliegue y el servicio, y la familia open source Qwen3.6 ahora cubre una gama más amplia de configuraciones de modelo con la incorporación de Qwen3.6-27B

Aún no hay comentarios.

Aún no hay comentarios.