4 puntos por GN⁺ 14 일 전 | 1 comentarios | Compartir por WhatsApp
  • Es un modelo de código abierto con una arquitectura sparse Mixture-of-Experts (MoE) en la que solo se activan 3 mil millones de parámetros de un total de 35 mil millones, logrando eficiencia y rendimiento al mismo tiempo
  • Frente a la generación anterior, su capacidad de codificación agéntica mejoró de forma notable, alcanzando un nivel capaz de competir con grandes modelos densos como Qwen3.5-27B o Gemma4-31B
  • Registró puntajes altos en los principales benchmarks de codificación como SWE-bench, Terminal-Bench y Claw-Eval, y también alcanzó un rendimiento al nivel de Claude Sonnet 4.5 en tareas multimodales
  • Ofrece pesos abiertos y acceso por API a través de Alibaba Cloud Model Studio API, Hugging Face y ModelScope, además de integración con diversas herramientas de codificación como OpenClaw y Claude Code
  • Con 3 mil millones de parámetros activos, establece un nuevo estándar para modelos abiertos eficientes comparables a modelos grandes

Resumen de Qwen3.6-35B-A3B

  • Qwen3.6-35B-A3B es un modelo sparse Mixture-of-Experts (MoE) en el que solo se activan 3 mil millones de parámetros de un total de 35 mil millones, un modelo de código abierto que combina eficiencia y rendimiento
  • En comparación con la versión anterior, Qwen3.5-35B-A3B, mejoró de forma considerable su rendimiento en codificación agéntica (agentic coding), hasta un nivel capaz de competir con grandes modelos densos como Qwen3.5-27B o Gemma4-31B
  • También admite tanto razonamiento multimodal como modo sin razonamiento, y está disponible a través de Qwen Studio, API, Hugging Face y ModelScope
  • El modelo puede usarse de forma interactiva en Qwen Studio, llamarse mediante Alibaba Cloud Model Studio API (qwen3.6-flash) o alojarse directamente

Evaluación de rendimiento

  • Rendimiento en lenguaje y codificación

    • Qwen3.6-35B-A3B supera a Qwen3.5-27B (modelo denso de 27 mil millones de parámetros) en varios benchmarks clave de codificación usando solo 3 mil millones de parámetros activos
    • Obtuvo puntajes altos como 73.4 en SWE-bench Verified, 51.5 en Terminal-Bench y un promedio de 68.7 en Claw-Eval
    • En QwenWebBench (benchmark de generación de código web) registró 1397 puntos, uno de los mejores niveles dentro de su categoría
    • También mostró resultados sobresalientes frente a modelos competidores en benchmarks agénticos generales como MCPMark, MCP-Atlas y WideSearch
    • Mantuvo una alta precisión también en pruebas de conocimiento y razonamiento como MMLU-Pro, GPQA y AIME26
  • Entorno de evaluación

    • La serie SWE-Bench se evaluó en una ventana de contexto de 200K basada en un scaffold agéntico interno (herramientas bash + file-edit)
    • Terminal-Bench 2.0 se evaluó con un límite de 3 horas, en un entorno de 32 CPU/48GB RAM, promediando 5 ejecuciones
    • SkillsBench se evaluó en 78 tareas, excluyendo trabajos dependientes de API
    • QwenClawBench y QwenWebBench son benchmarks internos basados en distribución de uso real, reflejando entornos reales de usuarios
  • Rendimiento visión-lenguaje

    • Qwen3.6-35B-A3B es un modelo multimodal nativo que logra un rendimiento al nivel de Claude Sonnet 4.5 usando solo 3 mil millones de parámetros activos
    • Mostró fortalezas en inteligencia espacial con 92.0 en RefCOCO (percepción espacial) y 50.8 en ODInW13
    • Obtuvo puntajes altos en diversas tareas visión-lenguaje como RealWorldQA 85.3, MMBench EN-DEV 92.8 y OmniDocBench1.5 89.9
    • También mantuvo un rendimiento estable con puntajes en el rango de 80 a 86 en benchmarks de comprensión de video como VideoMME, VideoMMMU y MLVU

Uso de Qwen3.6-35B-A3B

  • Despliegue y acceso

    • Puede usarse mediante Alibaba Cloud Model Studio API (qwen3.6-flash), y sus pesos abiertos pueden descargarse desde Hugging Face y ModelScope
    • También puede probarse de inmediato en Qwen Studio, con integración compatible con asistentes de codificación de terceros como OpenClaw, Claude Code y Qwen Code
  • Uso de API

    • Admite la función preserve_thinking, que conserva el contenido de thinking de conversaciones anteriores, por lo que resulta adecuada para tareas agénticas
    • Alibaba Cloud Model Studio ofrece una chat completions API compatible con las especificaciones de las API de OpenAI y Anthropic
    • En el código de ejemplo, la opción enable_thinking permite mostrar por separado el proceso de razonamiento (reasoning trace) y la respuesta final
  • Integración con OpenClaw

    • Qwen3.6-35B-A3B es compatible con OpenClaw (antes Moltbot/Clawdbot) y, al conectarse con Model Studio, ofrece un entorno de codificación agéntica basado en terminal
    • Se utiliza fusionando la información de la API de Model Studio en el archivo de configuración (~/.openclaw/openclaw.json)
    • Puede instalarse y ejecutarse en entornos con Node.js 22 o superior
  • Integración con Qwen Code

    • Es totalmente compatible con Qwen Code (agente de IA de código abierto para terminal) optimizado para la serie Qwen
    • Tras instalarlo en Node.js 20 o superior, el procedimiento de autenticación se realiza con el comando /auth
  • Integración con Claude Code

    • Como admite el protocolo de la API de Anthropic, también puede usarse directamente en Claude Code
    • Basta con establecer la variable de entorno ANTHROPIC_MODEL="qwen3.6-flash" y luego ejecutar el CLI

Resumen y perspectiva

  • Qwen3.6-35B-A3B demuestra que incluso con una arquitectura sparse MoE puede ofrecer capacidades de codificación agéntica y razonamiento comparables a las de grandes modelos densos
  • Con 3 mil millones de parámetros activos, logra tanto eficiencia como rendimiento, y también muestra resultados sobresalientes en benchmarks multimodales
  • Al publicarse como un checkpoint totalmente de código abierto, presenta un nuevo estándar para modelos abiertos eficientes
  • El equipo de Qwen planea seguir ampliando la familia de código abierto Qwen3.6 y espera la retroalimentación y el uso por parte de la comunidad

Información de cita

1 comentarios

 
GN⁺ 14 일 전
Comentarios en Hacker News
  • Probé la versión Unsloth 20.9GB GGUF en mi laptop con LM Studio
    Enlace del modelo
    Sorprendentemente, dibujó un pelícano en bicicleta mejor que Opus 4.7
    Vale la pena ver la publicación comparativa de Simon Willison

    • Lo reproduje con el mismo modelo (M1 Max 64GB, menos de 90 segundos) — imagen del resultado
      Mi resultado tenía sol y nubes en el cielo, pasto como líneas verdes delgadas y también un efecto de sol con halo
      También había una expresión similar del “flujo de aire” como en el resultado de Simon, pero al final lo importante es el pelícano y la bicicleta
    • Lo probé gracias al enlace GGUF
      Lo usé en el proyecto Shoggoth.db para tareas de exploración de wiki + construcción automática de BD
      Sentí que mejoró la capacidad de explorar criaturas nuevas frente a Qwen3.5
      La velocidad también subió a unos 140 token/s y funcionó de forma estable en una RTX 4090 sin offload de memoria
      Eso sí, tuve que usar la opción --no-mmproj-offload para evitar conflictos multimodales
    • Me pregunto cuándo dejarán de ser útiles pruebas como la del “pelícano en bicicleta”
      Originalmente la idea era evaluar la creatividad del modelo con prompts raros que a nadie se le habían ocurrido, pero ahora ya se siente casi como un benchmark interno
    • No entiendo por qué ganó el dibujo del flamenco de Qwen
      Está sentado sobre la llanta, la posición del pico es rara y la proporción entre los rayos de la rueda y las patas se ve extraña
      Los lentes de sol también son semitransparentes, así que solo se ve un ojo
      Está tierno, pero creo que el moño y los accesorios no solicitados más bien le restan puntos
      El resultado de Opus era menos vistoso, pero más preciso
    • Mientras más veo las imágenes, más siento que el world model sigue siendo la pieza faltante del rompecabezas
      Al final, me da la impresión de que los modelos actuales no son más que generadores probabilísticos de oraciones
  • Me da gusto ver que el equipo de Qwen sigue publicando pesos abiertos
    Noticia relacionada 1, noticia 2
    Es impresionante que el proyecto siga adelante incluso después de la salida de gente clave como Junyang Lin

    • Es solo uno de la serie Qwen 3.6
      Es probable que los modelos más pequeños se publiquen pronto, pero parece que el modelo principal 397A17B quedó fuera
    • Personalmente, espero que publiquen los pesos abiertos de qwen-image 2.0
  • Unsloth ya tiene una versión con cuantización y conversión hechas
    Enlace de Hugging Face

    • Unsloth suele subir rápido quants experimentales, pero las versiones justo después del lanzamiento a menudo se corrigen
      Conviene revisarlo otra vez como una semana después para bajar una versión estable
      A veces un buen modelo queda subestimado por bugs iniciales
    • Me pregunto por qué Qwen no publica directamente modelos quantized
      Creo que el proceso de cuantización es complejo y existe riesgo de pérdida de calidad, así que sería mejor que lo hiciera el desarrollador original
      Una versión quant mal hecha podría arruinar la reputación del modelo
    • Me da curiosidad el requisito de VRAM. Quisiera saber si se puede correr incluso en una GPU de 16GB
    • Quisiera entender por qué la quantization base de Qwen es mala, quién es Unsloth,
      y cuáles son las ventajas de un buen formato
      También estaría bien una explicación del concepto mismo de quantization
    • Me pregunto si este modelo también se puede usar con el comando ollama run claude
  • Me alegra este lanzamiento del equipo de Qwen
    Los modelos pequeños de código con pesos abiertos son útiles para crear agentes personalizados en industrias específicas (por ejemplo, finanzas o salud)
    para equipos de desarrollo con acceso restringido a la nube
    En Occidente casi nadie atiende este mercado; Mistral parece ser la única excepción

    • Mistral parece ser la única empresa que persigue un modelo de negocio sostenible
      Las demás compañías de IA dan la impresión de buscar solo ganancias de corto plazo
    • Los modelos abiertos pequeños son divertidos, pero están en otra liga frente a los grandes modelos alojados
      Si el trabajo es serio, hay que invertir en hardware que pueda correr modelos más grandes directamente
    • Estoy de acuerdo, pero para uso industrial real estos modelos pequeños se quedan cortos
      Incluso con equipo de unos 100 mil dólares se pueden correr modelos más grandes on-premise
    • Hacer modelos competidores de pesos abiertos es genial, pero cuesta demasiado
    • En industrias reguladas, me pregunto cómo se puede verificar que el modelo no fue entrenado con datos maliciosos
  • Son interesantes las características de embedding de lenguaje de Qwen
    Tuit de análisis relacionado
    Según eso, a diferencia de otros modelos, Qwen está ubicado en una cuenca de distribución centrada en exámenes

  • Un ejecutivo de Qwen publicó en Twitter una encuesta preguntando qué modelo querían ver como open source,
    y aunque la versión 27B fue la más popular, no se publicó

    • Como pasó con 3.5, podría publicarse gradualmente mediante un proceso de distillation
      Como la arquitectura A3B tiene distillation rápida, quizá salga pronto
    • 27B es un modelo dense, así que en marketing resulta menos atractivo que 35A3B
      Este último se siente más rápido y más “inteligente”
    • Probablemente lo publiquen pronto
    • Personalmente creo que la arquitectura MoE es ineficiente
      Con la misma VRAM, un modelo dense de 27B podría manejar más contexto y dar mejor calidad
  • He usado bastante Qwen3.5-35B-A3B en pruebas locales,
    y fue el modelo más potente que ha corrido en mi equipo
    En especial me impresionaron las versiones quant Mudler APEX-I-Quality y Byteshape Q3_K_S-3.40bpw
    En un entorno con RTX 3060 12GB, quedó margen de memoria y la velocidad también mejoró a más de 40 t/s

    • Después de probar varias tareas, Qwen3.6 es un salto mucho mayor que 3.5
      Incluso logró por sí solo mejorar proyectos donde antes se atascaba
    • Me pregunto cuál versión quant es la mejor
  • Este tipo de lanzamientos de software de IA es lo que más espero
    Sin marketing exagerado sobre riesgos, sin suscripciones, y simplemente un modelo que dan ganas de probar

    • Pienso igual. Ojalá en el futuro cercano los modelos locales y el hardware mejoren lo suficiente
      como para volverse prácticos en la mayoría de los casos de uso
  • Me pregunto cómo usa realmente la gente estos modelos locales
    Quisiera saber qué valor tienen frente a rentar tokens de Anthropic u OpenAI

    • Estoy usando Qwen3.5-9B para extracción local de tablas con OCR
      Como los formatos de documento varían mucho, antes usaba un pipeline complicado basado en reglas,
      pero ahora la capacidad multimodal permite extraer combinando lenguaje + visión
    • Yo uso Qwen3.5-4B junto con Frigate, un NVR FOSS
      Sirve bastante bien para análisis de video, y para resumen de texto o traducción uso modelos más grandes
      Si no es tiempo real, la calidad importa más que la velocidad, así que es ideal para procesamiento por lotes
    • Yo no quiero usar para siempre el modelo de renta de tokens
      Quiero un modelo completamente privado y autohospedado
      Estoy cansado de que los servicios SaaS desaparezcan, y creo que los LLM al final también deben ir hacia el self-hosting
    • Procesé por lotes millones de documentos con vLLM + qwen3-coder-next
      Pude usar el 100% de la GPU sin límites de tokens ni de velocidad
    • No todas las tareas necesitan modelos SOTA
      Por ejemplo, uso Gemma 4 como traductor offline en iPhone,
      y es más rápido y preciso que Apple Translate
      Para cosas pequeñas como edición de JSON, un modelo local es mucho más eficiente