Qwen3.6-35B-A3B: potencia de codificación agéntica, ahora abierta para todos

(qwen.ai)

25 puntos por ragingwind 13 일 전 | 2 comentarios | Compartir por WhatsApp

Es un modelo de lenguaje de gran escala que el equipo Qwen de Alibaba publicó como open source en abril de 2026. Usa una arquitectura MoE (Mixture-of-Experts). MoE es un enfoque en el que el modelo contiene varias “redes expertas” internas y, cada vez que entra una entrada, solo se selecciona y activa una parte de ellas. Aunque tiene 35 mil millones de parámetros en total, durante la inferencia solo utiliza 3 mil millones, por lo que funciona con apenas alrededor del 8.6% de su capacidad total. Es un modelo multimodal que entiende no solo texto, sino también imágenes y video, y además admite tanto el modo Thinking, que muestra el proceso de razonamiento, como el modo Non-thinking, que responde directamente.

Contenido clave

Frente a su versión anterior, Qwen3.5-35B-A3B, mejora de forma considerable en codificación agéntica (un estilo de programación autónoma en el que la IA explora archivos por sí sola, ejecuta la terminal y diagnostica y corrige errores)
Obtiene 73.4 puntos en SWE-bench Verified (evaluación de corrección de bugs de software reales) y 51.5 puntos en Terminal-Bench 2.0, superando en muchos apartados a Qwen3.5-27B, un modelo Dense mucho más grande en parámetros (estructura tradicional que usa todos los parámetros)
Logra 92.7 puntos en la competencia matemática AIME 2026 y 80.4 puntos en codificación en tiempo real (LiveCodeBench v6), quedando al nivel del modelo Dense de 27B
En el área multimodal registra 81.7 puntos en MMMU y 85.3 en RealWorldQA, superando a Claude Sonnet 4.5 (modelo comercial de pago), y destaca especialmente en inteligencia espacial, como el reconocimiento de la ubicación de objetos en imágenes (RefCOCO 92.0)
Puede integrarse de inmediato con herramientas de codificación de terceros como OpenClaw, Claude Code y Qwen Code, y también es compatible con el protocolo de la API de Anthropic

Ventajas

Con 3B de parámetros activos ofrece un rendimiento comparable al de modelos Dense de 27~31B, por lo que requiere menos memoria de GPU y consume menos energía, permitiendo su operación incluso en entornos pequeños
Se sitúa entre los mejores de su categoría en benchmarks de codificación agéntica en general
Procesa texto, imágenes, video y documentos en un solo modelo
Es completamente open source, así que cualquiera puede descargarlo, seguir entrenándolo y personalizarlo

Desventajas

En tareas de agente de propósito general (VITA-Bench 35.6 puntos) queda por debajo del modelo Dense 27B anterior (41.8 puntos), así que todavía hay margen de mejora
También se queda atrás frente a grandes modelos Dense en razonamiento académico de máxima dificultad (HLE 21.4 puntos frente a 24.3)
Presenta una ligera desventaja en el benchmark de conocimiento MMLU-Pro
La API todavía está en estado de “coming soon”, lo que dificulta su aplicación inmediata en servicios a gran escala

Diferenciadores

Supera con amplitud en casi todos los benchmarks a Google Gemma4-26B-A4B, que usa una estructura MoE similar
En tareas de agente, la función preserve_thinking, que conserva el contenido de razonamiento de los turnos previos de conversación, le da ventaja para mantener contexto a largo plazo
Al ser compatible incluso con el protocolo de la API de Anthropic, puede entrar de inmediato al ecosistema de Claude Code

Implicaciones

Que 3B de parámetros activos logren resultados comparables a un modelo de 27B muestra que la arquitectura MoE se está convirtiendo en un nuevo estándar de eficiencia en IA
Al superar en varios apartados a modelos de pago como Claude Sonnet 4.5, los modelos open source están reforzando el incentivo para que las empresas cambien APIs costosas por hosting propio
Como la composición de los benchmarks da un peso muy alto a la codificación agéntica, esto sugiere que la industria está considerando la capacidad de desarrollo autónomo de software de la IA como el criterio de evaluación más importante

2 comentarios

jeeeyul 11 일 전

Según los resultados de los experimentos de nuestro laboratorio, es un modelo que el equipo de Qwen, sin el verdadero equipo de Qwen, lanzó apresuradamente solo para ajustarse a los benchmarks e intentar manejar la ansiedad del mercado. Tiene una obsesión muy fuerte con las herramientas. Creemos que es un retroceso frente a la 3.5.

woung717 12 일 전

He estado probando la versión Q3.5 en Mac, y de verdad me ha impresionado la mejora en inteligencia en comparación con las generaciones anteriores. Con que ya alcanzó incluso a Oss 120b, ya está todo dicho.