- Es un modelo de código abierto con una arquitectura sparse Mixture-of-Experts (MoE) en la que solo se activan 3 mil millones de parámetros de un total de 35 mil millones, logrando eficiencia y rendimiento al mismo tiempo
- Frente a la generación anterior, su capacidad de codificación agéntica mejoró de forma notable, alcanzando un nivel capaz de competir con grandes modelos densos como Qwen3.5-27B o Gemma4-31B
- Registró puntajes altos en los principales benchmarks de codificación como SWE-bench, Terminal-Bench y Claw-Eval, y también alcanzó un rendimiento al nivel de Claude Sonnet 4.5 en tareas multimodales
- Ofrece pesos abiertos y acceso por API a través de Alibaba Cloud Model Studio API, Hugging Face y ModelScope, además de integración con diversas herramientas de codificación como OpenClaw y Claude Code
- Con 3 mil millones de parámetros activos, establece un nuevo estándar para modelos abiertos eficientes comparables a modelos grandes
Resumen de Qwen3.6-35B-A3B
- Qwen3.6-35B-A3B es un modelo sparse Mixture-of-Experts (MoE) en el que solo se activan 3 mil millones de parámetros de un total de 35 mil millones, un modelo de código abierto que combina eficiencia y rendimiento
- En comparación con la versión anterior, Qwen3.5-35B-A3B, mejoró de forma considerable su rendimiento en codificación agéntica (agentic coding), hasta un nivel capaz de competir con grandes modelos densos como Qwen3.5-27B o Gemma4-31B
- También admite tanto razonamiento multimodal como modo sin razonamiento, y está disponible a través de Qwen Studio, API, Hugging Face y ModelScope
- El modelo puede usarse de forma interactiva en Qwen Studio, llamarse mediante Alibaba Cloud Model Studio API (
qwen3.6-flash) o alojarse directamente
Evaluación de rendimiento
-
Rendimiento en lenguaje y codificación
- Qwen3.6-35B-A3B supera a Qwen3.5-27B (modelo denso de 27 mil millones de parámetros) en varios benchmarks clave de codificación usando solo 3 mil millones de parámetros activos
- Obtuvo puntajes altos como 73.4 en SWE-bench Verified, 51.5 en Terminal-Bench y un promedio de 68.7 en Claw-Eval
- En QwenWebBench (benchmark de generación de código web) registró 1397 puntos, uno de los mejores niveles dentro de su categoría
- También mostró resultados sobresalientes frente a modelos competidores en benchmarks agénticos generales como MCPMark, MCP-Atlas y WideSearch
- Mantuvo una alta precisión también en pruebas de conocimiento y razonamiento como MMLU-Pro, GPQA y AIME26
-
Entorno de evaluación
- La serie SWE-Bench se evaluó en una ventana de contexto de 200K basada en un scaffold agéntico interno (herramientas bash + file-edit)
- Terminal-Bench 2.0 se evaluó con un límite de 3 horas, en un entorno de 32 CPU/48GB RAM, promediando 5 ejecuciones
- SkillsBench se evaluó en 78 tareas, excluyendo trabajos dependientes de API
- QwenClawBench y QwenWebBench son benchmarks internos basados en distribución de uso real, reflejando entornos reales de usuarios
-
Rendimiento visión-lenguaje
- Qwen3.6-35B-A3B es un modelo multimodal nativo que logra un rendimiento al nivel de Claude Sonnet 4.5 usando solo 3 mil millones de parámetros activos
- Mostró fortalezas en inteligencia espacial con 92.0 en RefCOCO (percepción espacial) y 50.8 en ODInW13
- Obtuvo puntajes altos en diversas tareas visión-lenguaje como RealWorldQA 85.3, MMBench EN-DEV 92.8 y OmniDocBench1.5 89.9
- También mantuvo un rendimiento estable con puntajes en el rango de 80 a 86 en benchmarks de comprensión de video como VideoMME, VideoMMMU y MLVU
Uso de Qwen3.6-35B-A3B
-
Despliegue y acceso
- Puede usarse mediante Alibaba Cloud Model Studio API (
qwen3.6-flash), y sus pesos abiertos pueden descargarse desde Hugging Face y ModelScope - También puede probarse de inmediato en Qwen Studio, con integración compatible con asistentes de codificación de terceros como OpenClaw, Claude Code y Qwen Code
- Puede usarse mediante Alibaba Cloud Model Studio API (
-
Uso de API
- Admite la función
preserve_thinking, que conserva el contenido de thinking de conversaciones anteriores, por lo que resulta adecuada para tareas agénticas - Alibaba Cloud Model Studio ofrece una chat completions API compatible con las especificaciones de las API de OpenAI y Anthropic
- En el código de ejemplo, la opción
enable_thinkingpermite mostrar por separado el proceso de razonamiento (reasoning trace) y la respuesta final
- Admite la función
-
Integración con OpenClaw
- Qwen3.6-35B-A3B es compatible con OpenClaw (antes Moltbot/Clawdbot) y, al conectarse con Model Studio, ofrece un entorno de codificación agéntica basado en terminal
- Se utiliza fusionando la información de la API de Model Studio en el archivo de configuración (
~/.openclaw/openclaw.json) - Puede instalarse y ejecutarse en entornos con Node.js 22 o superior
-
Integración con Qwen Code
- Es totalmente compatible con Qwen Code (agente de IA de código abierto para terminal) optimizado para la serie Qwen
- Tras instalarlo en Node.js 20 o superior, el procedimiento de autenticación se realiza con el comando
/auth
-
Integración con Claude Code
- Como admite el protocolo de la API de Anthropic, también puede usarse directamente en Claude Code
- Basta con establecer la variable de entorno
ANTHROPIC_MODEL="qwen3.6-flash"y luego ejecutar el CLI
Resumen y perspectiva
- Qwen3.6-35B-A3B demuestra que incluso con una arquitectura sparse MoE puede ofrecer capacidades de codificación agéntica y razonamiento comparables a las de grandes modelos densos
- Con 3 mil millones de parámetros activos, logra tanto eficiencia como rendimiento, y también muestra resultados sobresalientes en benchmarks multimodales
- Al publicarse como un checkpoint totalmente de código abierto, presenta un nuevo estándar para modelos abiertos eficientes
- El equipo de Qwen planea seguir ampliando la familia de código abierto Qwen3.6 y espera la retroalimentación y el uso por parte de la comunidad
Información de cita
@misc{qwen36_35b_a3b, title = {Qwen3.6-35B-A3B: Agentic Coding Power, Now Open to All}, url = {https://qwen.ai/blog?id=qwen3.6-35b-a3b}, author = {Qwen Team}, month = {April}, year = {2026}}
1 comentarios
Comentarios en Hacker News
Probé la versión Unsloth 20.9GB GGUF en mi laptop con LM Studio
Enlace del modelo
Sorprendentemente, dibujó un pelícano en bicicleta mejor que Opus 4.7
Vale la pena ver la publicación comparativa de Simon Willison
Mi resultado tenía sol y nubes en el cielo, pasto como líneas verdes delgadas y también un efecto de sol con halo
También había una expresión similar del “flujo de aire” como en el resultado de Simon, pero al final lo importante es el pelícano y la bicicleta
Lo usé en el proyecto Shoggoth.db para tareas de exploración de wiki + construcción automática de BD
Sentí que mejoró la capacidad de explorar criaturas nuevas frente a Qwen3.5
La velocidad también subió a unos 140 token/s y funcionó de forma estable en una RTX 4090 sin offload de memoria
Eso sí, tuve que usar la opción
--no-mmproj-offloadpara evitar conflictos multimodalesOriginalmente la idea era evaluar la creatividad del modelo con prompts raros que a nadie se le habían ocurrido, pero ahora ya se siente casi como un benchmark interno
Está sentado sobre la llanta, la posición del pico es rara y la proporción entre los rayos de la rueda y las patas se ve extraña
Los lentes de sol también son semitransparentes, así que solo se ve un ojo
Está tierno, pero creo que el moño y los accesorios no solicitados más bien le restan puntos
El resultado de Opus era menos vistoso, pero más preciso
Al final, me da la impresión de que los modelos actuales no son más que generadores probabilísticos de oraciones
Me da gusto ver que el equipo de Qwen sigue publicando pesos abiertos
Noticia relacionada 1, noticia 2
Es impresionante que el proyecto siga adelante incluso después de la salida de gente clave como Junyang Lin
Es probable que los modelos más pequeños se publiquen pronto, pero parece que el modelo principal 397A17B quedó fuera
Unsloth ya tiene una versión con cuantización y conversión hechas
Enlace de Hugging Face
Conviene revisarlo otra vez como una semana después para bajar una versión estable
A veces un buen modelo queda subestimado por bugs iniciales
Creo que el proceso de cuantización es complejo y existe riesgo de pérdida de calidad, así que sería mejor que lo hiciera el desarrollador original
Una versión quant mal hecha podría arruinar la reputación del modelo
y cuáles son las ventajas de un buen formato
También estaría bien una explicación del concepto mismo de quantization
ollama run claudeMe alegra este lanzamiento del equipo de Qwen
Los modelos pequeños de código con pesos abiertos son útiles para crear agentes personalizados en industrias específicas (por ejemplo, finanzas o salud)
para equipos de desarrollo con acceso restringido a la nube
En Occidente casi nadie atiende este mercado; Mistral parece ser la única excepción
Las demás compañías de IA dan la impresión de buscar solo ganancias de corto plazo
Si el trabajo es serio, hay que invertir en hardware que pueda correr modelos más grandes directamente
Incluso con equipo de unos 100 mil dólares se pueden correr modelos más grandes on-premise
Son interesantes las características de embedding de lenguaje de Qwen
Tuit de análisis relacionado
Según eso, a diferencia de otros modelos, Qwen está ubicado en una cuenca de distribución centrada en exámenes
Un ejecutivo de Qwen publicó en Twitter una encuesta preguntando qué modelo querían ver como open source,
y aunque la versión 27B fue la más popular, no se publicó
Como la arquitectura A3B tiene distillation rápida, quizá salga pronto
Este último se siente más rápido y más “inteligente”
Con la misma VRAM, un modelo dense de 27B podría manejar más contexto y dar mejor calidad
He usado bastante Qwen3.5-35B-A3B en pruebas locales,
y fue el modelo más potente que ha corrido en mi equipo
En especial me impresionaron las versiones quant Mudler APEX-I-Quality y Byteshape Q3_K_S-3.40bpw
En un entorno con RTX 3060 12GB, quedó margen de memoria y la velocidad también mejoró a más de 40 t/s
Incluso logró por sí solo mejorar proyectos donde antes se atascaba
Este tipo de lanzamientos de software de IA es lo que más espero
Sin marketing exagerado sobre riesgos, sin suscripciones, y simplemente un modelo que dan ganas de probar
como para volverse prácticos en la mayoría de los casos de uso
Me pregunto cómo usa realmente la gente estos modelos locales
Quisiera saber qué valor tienen frente a rentar tokens de Anthropic u OpenAI
Como los formatos de documento varían mucho, antes usaba un pipeline complicado basado en reglas,
pero ahora la capacidad multimodal permite extraer combinando lenguaje + visión
Sirve bastante bien para análisis de video, y para resumen de texto o traducción uso modelos más grandes
Si no es tiempo real, la calidad importa más que la velocidad, así que es ideal para procesamiento por lotes
Quiero un modelo completamente privado y autohospedado
Estoy cansado de que los servicios SaaS desaparezcan, y creo que los LLM al final también deben ir hacia el self-hosting
Pude usar el 100% de la GPU sin límites de tokens ni de velocidad
Por ejemplo, uso Gemma 4 como traductor offline en iPhone,
y es más rápido y preciso que Apple Translate
Para cosas pequeñas como edición de JSON, un modelo local es mucho más eficiente