7 puntos por GN⁺ 27 일 전 | 1 comentarios | Compartir por WhatsApp
  • Qwen3.6-Plus es un modelo con una gran actualización lanzado después de Qwen3.5, que refuerza de forma importante sus capacidades de codificación orientadas a agentes y su rendimiento de razonamiento multimodal
  • Soporta una ventana de contexto de 1M tokens y está disponible de inmediato a través de la API de Alibaba Cloud Model Studio
  • Registra un rendimiento de nivel líder en la industria en benchmarks de codificación, lenguaje, multimodalidad y agentes, y mejora su capacidad para gestionar código complejo y ejecutar planes de largo plazo
  • Mediante la opción preserve_thinking, conserva el contexto de razonamiento y admite integración con diversos agentes de codificación como OpenClaw, Claude Code y Qwen Code
  • Evoluciona hacia una IA multimodal orientada a agentes capaz de ir desde la percepción visual hasta la toma de decisiones de acción, con el objetivo futuro de expandirse hacia modelos pequeños de código abierto y superagentes de alta autonomía

Resumen de funciones y rendimiento principales de Qwen3.6-Plus

  • Qwen3.6-Plus es una versión con una gran actualización presentada después de la serie Qwen3.5, un modelo que fortalece notablemente sus capacidades de codificación orientadas a agentes y su rendimiento de razonamiento multimodal
  • Está disponible de inmediato vía API mediante Alibaba Cloud Model Studio y ofrece por defecto una ventana de contexto de 1M tokens
  • Refleja comentarios de la comunidad para mejorar la estabilidad y confiabilidad, y apunta a una experiencia de “vibe coding” en entornos reales de desarrollo

Evaluación de rendimiento

  • Registra rendimiento de primer nivel en su categoría en diversos benchmarks de lenguaje, codificación, multimodalidad y agentes
  • En el área de agentes de codificación, logra resultados comparables o superiores a los de modelos líderes del sector en benchmarks clave como SWE-bench, Terminal-Bench y Claw-Eval
  • En agentes generales y uso de herramientas, muestra mejoras generales en TAU3-Bench, DeepPlanning y MCPMark
  • También alcanza nuevos récords en razonamiento STEM, extracción de información en textos muy largos y adaptación multilingüe
  • El modelo integra de forma orgánica razonamiento lógico, memoria y ejecución de herramientas, reforzando su capacidad para resolver problemas del mundo real como la gestión de código complejo o la planificación a largo plazo

Rendimiento multimodal

  • Gracias a su razonamiento multimodal avanzado, logra grandes avances en comprensión de documentos, análisis del mundo físico, razonamiento sobre video y codificación visual
  • En términos de aplicabilidad en el mundo real, ofrece un rendimiento estable en entornos empresariales reales, como reconocimiento de texto y objetos y percepción visual precisa
  • Mediante la integración visión-lenguaje, evoluciona más allá del rendimiento en tareas individuales hacia una IA orientada a agentes centrada en flujos de trabajo
  • En varios benchmarks como RealWorldQA, OmniDocBench, CountBench y VideoMME, muestra resultados competitivos frente a GPT5.2, Claude 4.5 y Gemini-3 Pro

API e integración para desarrollo

  • La API de Alibaba Cloud Model Studio admite protocolos compatibles con OpenAI y Anthropic
  • Se agrega la nueva opción de API preserve_thinking
    • Mantiene el contenido de razonamiento de conversaciones anteriores para mejorar la consistencia en tareas orientadas a agentes y la eficiencia de tokens
    • El valor predeterminado es desactivado (false), y al activarse conserva el contexto completo de razonamiento
  • La API puede usarse mediante el endpoint compatible con OpenAI chat.completions, y se proporciona código de ejemplo

Integración de codificación y agentes

  • Qwen3.6-Plus puede integrarse con asistentes de codificación de terceros como OpenClaw, Claude Code, Qwen Code, Kilo Code, Cline y OpenCode
  • Refuerza su capacidad para manejar proyectos complejos en desarrollo frontend, como escenas 3D, juegos y diseño web
  • Integración con OpenClaw

    • Como agente de codificación de IA open source autoalojado, al conectarse con Model Studio ofrece un entorno de codificación orientado a agentes basado en terminal
    • Puede usarse agregando el modelo Qwen3.6-Plus al archivo de configuración (openclaw.json)
    • El modelo admite reasoning activado, entrada de texto e imagen y ventana de contexto de 1M
  • Integración con Qwen Code

    • Agente open source de codificación con terminal optimizado para la serie Qwen
    • Soporta comprensión de codebases complejas, automatización de tareas repetitivas y despliegue rápido
    • Tras instalarse en un entorno Node.js, puede autenticarse con el comando /auth
  • Integración con Claude Code

    • Gracias a la compatibilidad con el protocolo de API de Anthropic, también es posible usar Qwen3.6-Plus desde Claude Code CLI
    • Se ejecuta tras configurar mediante variables de entorno el nombre del modelo (qwen3.6-plus) y el endpoint de la API

Agentes visuales y expansión multimodal

  • Sigue reforzando la ruta de evolución que va de percepción visual → razonamiento multimodal → ejecución de agentes
  • Va más allá del reconocimiento simple y puede realizar análisis de relaciones en información visual y toma de decisiones de acción
  • Soporta tareas visuales prácticas como comprensión de documentos, análisis de gráficos, reconocimiento de UI y localización precisa
  • En el área de comprensión de video, puede analizar contenido dinámico procesando información temporal y relaciones entre fotogramas
  • En escenarios de agentes GUI, reconoce el estado de la pantalla y ejecuta planificación y ejecución en múltiples pasos

Planes a futuro

  • Qwen3.6-Plus es una versión que logra avances reales en codificación orientada a agentes e IA multimodal, reforzando la base del ecosistema de desarrolladores
  • Próximamente se prevé la presentación completa de la serie Qwen3.6 y la liberación como open source de modelos pequeños
  • A largo plazo, apunta a evolucionar hacia superagentes de alta autonomía capaces de ejecutar tareas complejas de largo plazo a nivel de repositorio

1 comentarios

 
GN⁺ 27 일 전
Opiniones en Hacker News
  • Este modelo es solo alojado, así que no tiene pesos abiertos (open weight)
    Antes se ganó una buena reputación con modelos abiertos, pero ahora le costará cambiar esa percepción y ser visto como competidor de Claude o ChatGPT
    En realidad, haber liberado gratis modelos pequeños no fue generosidad, sino una estrategia publicitaria
    Además, compararlo con Opus 4.5 en vez de 4.6 parece una forma deliberada de inducir a confusión
    Aun así, aunque no sea de nivel SOTA, el mercado de modelos baratos es bastante grande
    Pero ese mercado también tiene baja lealtad de marca, así que en cuanto aparece un modelo un poco mejor, la gente se cambia enseguida

    • Dijeron que más adelante publicarían “pequeñas variantes del modelo”, pero no dieron detalles concretos
      Tampoco está claro si habrá una variante de unos 300B como en Qwen 3.5. Ni siquiera se menciona en el blog oficial
    • Ah, con razón hubo recientemente salidas de miembros del equipo de Qwen
    • Últimamente más bien me da curiosidad la rentabilidad de este tipo de modelos
      Siguen aumentando los modelos abiertos y además corren en hardware barato, así que queda la duda de cómo podrán las empresas de IA defender sus márgenes
    • En la práctica siento que Opus 4.5 es mejor que 4.6
      4.6 fue simplemente una actualización para reducir costos, ajustada para que en benchmarks se viera mejor de lo que realmente es
    • Cuando usas varios modelos en producción, la “personalidad” del modelo importa mucho
      Por ejemplo, que siga bien las instrucciones, no desperdicie tokens y no se salga del guion
      En eso los modelos chinos son muy competitivos y ofrecen una calidad parecida por un precio 70~90% más barato
  • Entiendo que Qwen se compare con Opus 4.5 o Gemini Pro 3.0
    Pero me parece exagerado llamarlo engañoso
    Los modelos de IA sacan nuevas versiones cada trimestre, pero eso no significa que ya nadie recuerde cómo rendían las generaciones anteriores
    Probé GLM-5 y Kimi K2.5, y me parecieron bastante buenos. Si este nuevo modelo de Qwen está en ese nivel, sería impresionante
    Qwen 3.5-plus y 3-Max ya eran modelos cerrados, así que no es la primera vez
    Es una pena que sea cerrado, pero al final la competencia por el SOTA beneficia al consumidor

    • El problema no es solo con qué se compara, sino la sinceridad de la comparación
      Se siente como si Apple lanzara un iPhone nuevo y lo comparara con un Android viejo, y eso hace que uno confíe menos
    • Opus 4.5 ya era suficientemente bueno
      Además, Opus 4.5 cuesta $25 por token de salida, mientras que este modelo está en torno a $6, o sea una cuarta parte del precio
  • Obtuve resultados bastante buenos con Pelican
    Los generé con la API de Alibaba Cloud Model Studio, aunque tuve que registrar una cuenta y vincular PayPal
    Pero ahora también se puede usar gratis en OpenRouter

    • Hubo una broma sobre que Pelican estaba alcanzando al pelotón de persecución (drafting peloton)
    • También salió el chiste de que pronto van a entrenar un pelícano que monta bicicleta. Dizque para el “benchmark global”
  • A quienes creen que los laboratorios chinos van a dejar de hacer open source, les diría que no va a pasar
    Por ejemplo, intenten suscribirse al plan de código de Z.ai: es casi imposible
    Tienen muy poca capacidad de marketing, así que fuera de liberar modelos abiertos no tienen otra forma de mantener presencia
    También dependen de canales de distribución como OpenRouter u OpenCode para vender
    Al final, abrir el código no es una estrategia nacional, sino su único camino de comercialización

    • También hubo la broma de: “¿entonces por qué no hacen que el modelo se promocione solo?”
      Si ni siquiera puede promocionarse a sí mismo, quizá eso sea una señal de sus límites de rendimiento
  • A diferencia de la mayoría de los modelos de Qwen, este tiene pesos cerrados y ni siquiera se reveló la cantidad de parámetros
    Además, es raro que comparen con Opus 4.5 cuando Opus 4.6 salió hace dos meses

    • En el último párrafo del blog dicen que pronto publicarán como open source variantes pequeñas del modelo
      Fuente
    • Si Opus 4.6 salió hace dos meses, también es posible que Qwen todavía no haya terminado las pruebas comparativas
    • En realidad, los modelos -MAX y -Omni de Qwen siempre han sido cerrados
  • No me parece tan problemático que lo hayan comparado con Opus 4.5
    De hecho, me resulta más útil compararlo con modelos que ya conozco
    Si quisiera el mejor rendimiento usaría otro modelo, pero si busco una opción barata con calidad similar, la comparación sí tiene sentido

    • Si se pudiera obtener un rendimiento de nivel Opus 4.5 gratis, sería algo digno de atención
      Aunque no lo usaría para la función principal de una app, sí serviría bastante bien para partes menos importantes
    • Sinceramente, con Opus 4.6 o GPT 5.4 casi no sentí diferencia perceptible frente a la generación anterior
      Si puedo usar rendimiento de nivel 4.5 por 1/10 del precio, elegiría eso
  • Los resultados del benchmark de agentes son interesantes, pero me da curiosidad saber qué tan buena es la capacidad de recuperación de errores de Qwen3.6-Plus
    La mayoría de las pruebas solo cubren el happy path,
    pero en la práctica lo importante es si se equivoca en el paso 3 y aun así puede retomar el camino en el paso 15
    Me pregunto si alguien ya hizo este tipo de pruebas de estrés en flujos reales de desarrollo

  • Ojalá los proveedores de IA dejaran de hacer marketing comparándose con modelos de generaciones anteriores de la competencia
    Nadie se lo cree, y al final solo termina dañando la confianza en la marca
    El modelo de Qwen en sí es excelente, por eso da lástima que su reputación se vea afectada por esta estrategia de comparación

  • En realidad, Qwen ya venía manejando las versiones Plus y Max como cerradas desde antes
    Así que esta forma de lanzamiento no es nada nuevo

  • Qwen 3.6 Plus parece simplemente una versión refinada de 3.5 Plus
    Enlace de comparación