25 puntos por ragingwind 13 일 전 | 2 comentarios | Compartir por WhatsApp

Es un modelo de lenguaje de gran escala que el equipo Qwen de Alibaba publicó como open source en abril de 2026. Usa una arquitectura MoE (Mixture-of-Experts). MoE es un enfoque en el que el modelo contiene varias “redes expertas” internas y, cada vez que entra una entrada, solo se selecciona y activa una parte de ellas. Aunque tiene 35 mil millones de parámetros en total, durante la inferencia solo utiliza 3 mil millones, por lo que funciona con apenas alrededor del 8.6% de su capacidad total. Es un modelo multimodal que entiende no solo texto, sino también imágenes y video, y además admite tanto el modo Thinking, que muestra el proceso de razonamiento, como el modo Non-thinking, que responde directamente.

Contenido clave

  • Frente a su versión anterior, Qwen3.5-35B-A3B, mejora de forma considerable en codificación agéntica (un estilo de programación autónoma en el que la IA explora archivos por sí sola, ejecuta la terminal y diagnostica y corrige errores)
  • Obtiene 73.4 puntos en SWE-bench Verified (evaluación de corrección de bugs de software reales) y 51.5 puntos en Terminal-Bench 2.0, superando en muchos apartados a Qwen3.5-27B, un modelo Dense mucho más grande en parámetros (estructura tradicional que usa todos los parámetros)
  • Logra 92.7 puntos en la competencia matemática AIME 2026 y 80.4 puntos en codificación en tiempo real (LiveCodeBench v6), quedando al nivel del modelo Dense de 27B
  • En el área multimodal registra 81.7 puntos en MMMU y 85.3 en RealWorldQA, superando a Claude Sonnet 4.5 (modelo comercial de pago), y destaca especialmente en inteligencia espacial, como el reconocimiento de la ubicación de objetos en imágenes (RefCOCO 92.0)
  • Puede integrarse de inmediato con herramientas de codificación de terceros como OpenClaw, Claude Code y Qwen Code, y también es compatible con el protocolo de la API de Anthropic

Ventajas

  • Con 3B de parámetros activos ofrece un rendimiento comparable al de modelos Dense de 27~31B, por lo que requiere menos memoria de GPU y consume menos energía, permitiendo su operación incluso en entornos pequeños
  • Se sitúa entre los mejores de su categoría en benchmarks de codificación agéntica en general
  • Procesa texto, imágenes, video y documentos en un solo modelo
  • Es completamente open source, así que cualquiera puede descargarlo, seguir entrenándolo y personalizarlo

Desventajas

  • En tareas de agente de propósito general (VITA-Bench 35.6 puntos) queda por debajo del modelo Dense 27B anterior (41.8 puntos), así que todavía hay margen de mejora
  • También se queda atrás frente a grandes modelos Dense en razonamiento académico de máxima dificultad (HLE 21.4 puntos frente a 24.3)
  • Presenta una ligera desventaja en el benchmark de conocimiento MMLU-Pro
  • La API todavía está en estado de “coming soon”, lo que dificulta su aplicación inmediata en servicios a gran escala

Diferenciadores

  • Supera con amplitud en casi todos los benchmarks a Google Gemma4-26B-A4B, que usa una estructura MoE similar
  • En tareas de agente, la función preserve_thinking, que conserva el contenido de razonamiento de los turnos previos de conversación, le da ventaja para mantener contexto a largo plazo
  • Al ser compatible incluso con el protocolo de la API de Anthropic, puede entrar de inmediato al ecosistema de Claude Code

Implicaciones

  • Que 3B de parámetros activos logren resultados comparables a un modelo de 27B muestra que la arquitectura MoE se está convirtiendo en un nuevo estándar de eficiencia en IA
  • Al superar en varios apartados a modelos de pago como Claude Sonnet 4.5, los modelos open source están reforzando el incentivo para que las empresas cambien APIs costosas por hosting propio
  • Como la composición de los benchmarks da un peso muy alto a la codificación agéntica, esto sugiere que la industria está considerando la capacidad de desarrollo autónomo de software de la IA como el criterio de evaluación más importante

2 comentarios

 
jeeeyul 11 일 전

Según los resultados de los experimentos de nuestro laboratorio, es un modelo que el equipo de Qwen, sin el verdadero equipo de Qwen, lanzó apresuradamente solo para ajustarse a los benchmarks e intentar manejar la ansiedad del mercado. Tiene una obsesión muy fuerte con las herramientas. Creemos que es un retroceso frente a la 3.5.

 
woung717 12 일 전

He estado probando la versión Q3.5 en Mac, y de verdad me ha impresionado la mejora en inteligencia en comparación con las generaciones anteriores. Con que ya alcanzó incluso a Oss 120b, ya está todo dicho.