Qwen3.6-Plus: hacia agentes para el mundo real

(qwen.ai)

7 puntos por GN⁺ 28 일 전 | 1 comentarios | Compartir por WhatsApp

Qwen3.6-Plus es un modelo con una gran actualización lanzado después de Qwen3.5, que refuerza de forma importante sus capacidades de codificación orientadas a agentes y su rendimiento de razonamiento multimodal
Soporta una ventana de contexto de 1M tokens y está disponible de inmediato a través de la API de Alibaba Cloud Model Studio
Registra un rendimiento de nivel líder en la industria en benchmarks de codificación, lenguaje, multimodalidad y agentes, y mejora su capacidad para gestionar código complejo y ejecutar planes de largo plazo
Mediante la opción preserve_thinking, conserva el contexto de razonamiento y admite integración con diversos agentes de codificación como OpenClaw, Claude Code y Qwen Code
Evoluciona hacia una IA multimodal orientada a agentes capaz de ir desde la percepción visual hasta la toma de decisiones de acción, con el objetivo futuro de expandirse hacia modelos pequeños de código abierto y superagentes de alta autonomía

Resumen de funciones y rendimiento principales de Qwen3.6-Plus

Qwen3.6-Plus es una versión con una gran actualización presentada después de la serie Qwen3.5, un modelo que fortalece notablemente sus capacidades de codificación orientadas a agentes y su rendimiento de razonamiento multimodal
Está disponible de inmediato vía API mediante Alibaba Cloud Model Studio y ofrece por defecto una ventana de contexto de 1M tokens
Refleja comentarios de la comunidad para mejorar la estabilidad y confiabilidad, y apunta a una experiencia de “vibe coding” en entornos reales de desarrollo

Evaluación de rendimiento

Registra rendimiento de primer nivel en su categoría en diversos benchmarks de lenguaje, codificación, multimodalidad y agentes
En el área de agentes de codificación, logra resultados comparables o superiores a los de modelos líderes del sector en benchmarks clave como SWE-bench, Terminal-Bench y Claw-Eval
En agentes generales y uso de herramientas, muestra mejoras generales en TAU3-Bench, DeepPlanning y MCPMark
También alcanza nuevos récords en razonamiento STEM, extracción de información en textos muy largos y adaptación multilingüe
El modelo integra de forma orgánica razonamiento lógico, memoria y ejecución de herramientas, reforzando su capacidad para resolver problemas del mundo real como la gestión de código complejo o la planificación a largo plazo

Rendimiento multimodal

Gracias a su razonamiento multimodal avanzado, logra grandes avances en comprensión de documentos, análisis del mundo físico, razonamiento sobre video y codificación visual
En términos de aplicabilidad en el mundo real, ofrece un rendimiento estable en entornos empresariales reales, como reconocimiento de texto y objetos y percepción visual precisa
Mediante la integración visión-lenguaje, evoluciona más allá del rendimiento en tareas individuales hacia una IA orientada a agentes centrada en flujos de trabajo
En varios benchmarks como RealWorldQA, OmniDocBench, CountBench y VideoMME, muestra resultados competitivos frente a GPT5.2, Claude 4.5 y Gemini-3 Pro

API e integración para desarrollo

La API de Alibaba Cloud Model Studio admite protocolos compatibles con OpenAI y Anthropic
Se agrega la nueva opción de API preserve_thinking
- Mantiene el contenido de razonamiento de conversaciones anteriores para mejorar la consistencia en tareas orientadas a agentes y la eficiencia de tokens
- El valor predeterminado es desactivado (false), y al activarse conserva el contexto completo de razonamiento
La API puede usarse mediante el endpoint compatible con OpenAI chat.completions, y se proporciona código de ejemplo

Integración de codificación y agentes

Qwen3.6-Plus puede integrarse con asistentes de codificación de terceros como OpenClaw, Claude Code, Qwen Code, Kilo Code, Cline y OpenCode
Refuerza su capacidad para manejar proyectos complejos en desarrollo frontend, como escenas 3D, juegos y diseño web
Integración con OpenClaw
- Como agente de codificación de IA open source autoalojado, al conectarse con Model Studio ofrece un entorno de codificación orientado a agentes basado en terminal
- Puede usarse agregando el modelo Qwen3.6-Plus al archivo de configuración (openclaw.json)
- El modelo admite reasoning activado, entrada de texto e imagen y ventana de contexto de 1M
Integración con Qwen Code
- Agente open source de codificación con terminal optimizado para la serie Qwen
- Soporta comprensión de codebases complejas, automatización de tareas repetitivas y despliegue rápido
- Tras instalarse en un entorno Node.js, puede autenticarse con el comando /auth
Integración con Claude Code
- Gracias a la compatibilidad con el protocolo de API de Anthropic, también es posible usar Qwen3.6-Plus desde Claude Code CLI
- Se ejecuta tras configurar mediante variables de entorno el nombre del modelo (qwen3.6-plus) y el endpoint de la API

Agentes visuales y expansión multimodal

Sigue reforzando la ruta de evolución que va de percepción visual → razonamiento multimodal → ejecución de agentes
Va más allá del reconocimiento simple y puede realizar análisis de relaciones en información visual y toma de decisiones de acción
Soporta tareas visuales prácticas como comprensión de documentos, análisis de gráficos, reconocimiento de UI y localización precisa
En el área de comprensión de video, puede analizar contenido dinámico procesando información temporal y relaciones entre fotogramas
En escenarios de agentes GUI, reconoce el estado de la pantalla y ejecuta planificación y ejecución en múltiples pasos

Planes a futuro

Qwen3.6-Plus es una versión que logra avances reales en codificación orientada a agentes e IA multimodal, reforzando la base del ecosistema de desarrolladores
Próximamente se prevé la presentación completa de la serie Qwen3.6 y la liberación como open source de modelos pequeños
A largo plazo, apunta a evolucionar hacia superagentes de alta autonomía capaces de ejecutar tareas complejas de largo plazo a nivel de repositorio

1 comentarios

GN⁺ 28 일 전

Opiniones en Hacker News

Este modelo es solo alojado, así que no tiene pesos abiertos (open weight)
Antes se ganó una buena reputación con modelos abiertos, pero ahora le costará cambiar esa percepción y ser visto como competidor de Claude o ChatGPT
En realidad, haber liberado gratis modelos pequeños no fue generosidad, sino una estrategia publicitaria
Además, compararlo con Opus 4.5 en vez de 4.6 parece una forma deliberada de inducir a confusión
Aun así, aunque no sea de nivel SOTA, el mercado de modelos baratos es bastante grande
Pero ese mercado también tiene baja lealtad de marca, así que en cuanto aparece un modelo un poco mejor, la gente se cambia enseguida
- Dijeron que más adelante publicarían “pequeñas variantes del modelo”, pero no dieron detalles concretos
  Tampoco está claro si habrá una variante de unos 300B como en Qwen 3.5. Ni siquiera se menciona en el blog oficial
- Ah, con razón hubo recientemente salidas de miembros del equipo de Qwen
- Últimamente más bien me da curiosidad la rentabilidad de este tipo de modelos
  Siguen aumentando los modelos abiertos y además corren en hardware barato, así que queda la duda de cómo podrán las empresas de IA defender sus márgenes
- En la práctica siento que Opus 4.5 es mejor que 4.6
  4.6 fue simplemente una actualización para reducir costos, ajustada para que en benchmarks se viera mejor de lo que realmente es
- Cuando usas varios modelos en producción, la “personalidad” del modelo importa mucho
  Por ejemplo, que siga bien las instrucciones, no desperdicie tokens y no se salga del guion
  En eso los modelos chinos son muy competitivos y ofrecen una calidad parecida por un precio 70~90% más barato
Entiendo que Qwen se compare con Opus 4.5 o Gemini Pro 3.0
Pero me parece exagerado llamarlo engañoso
Los modelos de IA sacan nuevas versiones cada trimestre, pero eso no significa que ya nadie recuerde cómo rendían las generaciones anteriores
Probé GLM-5 y Kimi K2.5, y me parecieron bastante buenos. Si este nuevo modelo de Qwen está en ese nivel, sería impresionante
Qwen 3.5-plus y 3-Max ya eran modelos cerrados, así que no es la primera vez
Es una pena que sea cerrado, pero al final la competencia por el SOTA beneficia al consumidor
- El problema no es solo con qué se compara, sino la sinceridad de la comparación
  Se siente como si Apple lanzara un iPhone nuevo y lo comparara con un Android viejo, y eso hace que uno confíe menos
- Opus 4.5 ya era suficientemente bueno
  Además, Opus 4.5 cuesta $25 por token de salida, mientras que este modelo está en torno a $6, o sea una cuarta parte del precio
Obtuve resultados bastante buenos con Pelican
Los generé con la API de Alibaba Cloud Model Studio, aunque tuve que registrar una cuenta y vincular PayPal
Pero ahora también se puede usar gratis en OpenRouter
- Hubo una broma sobre que Pelican estaba alcanzando al pelotón de persecución (drafting peloton)
- También salió el chiste de que pronto van a entrenar un pelícano que monta bicicleta. Dizque para el “benchmark global”
A quienes creen que los laboratorios chinos van a dejar de hacer open source, les diría que no va a pasar
Por ejemplo, intenten suscribirse al plan de código de Z.ai: es casi imposible
Tienen muy poca capacidad de marketing, así que fuera de liberar modelos abiertos no tienen otra forma de mantener presencia
También dependen de canales de distribución como OpenRouter u OpenCode para vender
Al final, abrir el código no es una estrategia nacional, sino su único camino de comercialización
- También hubo la broma de: “¿entonces por qué no hacen que el modelo se promocione solo?”
  Si ni siquiera puede promocionarse a sí mismo, quizá eso sea una señal de sus límites de rendimiento
A diferencia de la mayoría de los modelos de Qwen, este tiene pesos cerrados y ni siquiera se reveló la cantidad de parámetros
Además, es raro que comparen con Opus 4.5 cuando Opus 4.6 salió hace dos meses
- En el último párrafo del blog dicen que pronto publicarán como open source variantes pequeñas del modelo
  Fuente
- Si Opus 4.6 salió hace dos meses, también es posible que Qwen todavía no haya terminado las pruebas comparativas
- En realidad, los modelos -MAX y -Omni de Qwen siempre han sido cerrados
No me parece tan problemático que lo hayan comparado con Opus 4.5
De hecho, me resulta más útil compararlo con modelos que ya conozco
Si quisiera el mejor rendimiento usaría otro modelo, pero si busco una opción barata con calidad similar, la comparación sí tiene sentido
- Si se pudiera obtener un rendimiento de nivel Opus 4.5 gratis, sería algo digno de atención
  Aunque no lo usaría para la función principal de una app, sí serviría bastante bien para partes menos importantes
- Sinceramente, con Opus 4.6 o GPT 5.4 casi no sentí diferencia perceptible frente a la generación anterior
  Si puedo usar rendimiento de nivel 4.5 por 1/10 del precio, elegiría eso
Los resultados del benchmark de agentes son interesantes, pero me da curiosidad saber qué tan buena es la capacidad de recuperación de errores de Qwen3.6-Plus
La mayoría de las pruebas solo cubren el happy path,
pero en la práctica lo importante es si se equivoca en el paso 3 y aun así puede retomar el camino en el paso 15
Me pregunto si alguien ya hizo este tipo de pruebas de estrés en flujos reales de desarrollo
Ojalá los proveedores de IA dejaran de hacer marketing comparándose con modelos de generaciones anteriores de la competencia
Nadie se lo cree, y al final solo termina dañando la confianza en la marca
El modelo de Qwen en sí es excelente, por eso da lástima que su reputación se vea afectada por esta estrategia de comparación
En realidad, Qwen ya venía manejando las versiones Plus y Max como cerradas desde antes
Así que esta forma de lanzamiento no es nada nuevo
Qwen 3.6 Plus parece simplemente una versión refinada de 3.5 Plus
Enlace de comparación

Qwen3.6-Plus: hacia agentes para el mundo real

Resumen de funciones y rendimiento principales de Qwen3.6-Plus

Evaluación de rendimiento

Rendimiento multimodal

API e integración para desarrollo

Integración de codificación y agentes

Integración con OpenClaw

Integración con Qwen Code

Integración con Claude Code

Agentes visuales y expansión multimodal

Planes a futuro

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News