Qwen3.7-Max: la frontera de los agentes
(qwen.ai)- Qwen3.7-Max es un modelo propietario centrado en agentes, orientado a codificación y depuración, automatización de oficina y ejecución autónoma de cientos a miles de pasos
- Compite con modelos rivales en evaluaciones de codificación, agentes de propósito general, razonamiento y multilingüismo, y registra 69.7 puntos en Terminal Bench 2.0-Terminus y 92.4 puntos en GPQA Diamond
- En una optimización autónoma de kernels durante 35 horas, realizó 1,158 llamadas a herramientas y 432 evaluaciones, logrando una mejora de velocidad de media geométrica de 10.0x frente a Triton
- Separa las instancias de entrenamiento en Task, Harness y Verifier para realizar aprendizaje por refuerzo entre harnesses cruzados, induciendo resolución de problemas generalizable en lugar de atajos de un harness específico
- La API estará disponible pronto a través de Alibaba Cloud Model Studio, y puede integrarse con frameworks de agentes como Claude Code, OpenClaw y Qwen Code
Evaluación de rendimiento
- Qwen3.7-Max fue evaluado junto con varios modelos comparativos en las áreas de agentes de codificación, agentes de propósito general, STEM y razonamiento, capacidades generales y multilingüismo
- Las celdas vacías (
--) significan que la puntuación aún no ha sido proporcionada -
Agentes de codificación
- En Terminal Bench 2.0-Terminus obtuvo 69.7 puntos, superando los 67.9 de DS-V4-Pro Max
- En SWE-Verified obtuvo 80.4 puntos, un nivel similar a Opus-4.6 Max con 80.8 puntos y DS-V4-Pro Max con 80.6 puntos
- Registra 60.6 puntos en SWE-Pro, 78.3 en SWE-Multilingual, 53.5 en SciCode y 1608 en QwenSVG
- NL2repo fue evaluado con Claude Code y se deshabilitaron comandos Bash como
pip download,pip installygit cloneque intentan acceder a repositorios específicos - QwenWebDev es un benchmark interno de generación de código frontend bilingüe en inglés y chino, y usa 7 categorías, renderizado automático, evaluación multimodal y calificación BT/Elo
-
Agentes de propósito general
- En MCP-Mark obtuvo 60.8 puntos, superando los 57.5 de GLM-5.1, y en MCP-Atlas logró 76.4 puntos, por encima de los 75.8 de Opus-4.6
- En Skillsbench obtuvo 59.2 puntos, superando los 56.2 de K2.6
- En Kernel Bench L3 registró una mejora de velocidad mediana de 1.98x y una tasa de victoria de 96%, mostrando capacidad en optimización de kernels GPU
- Con 75.0 puntos en BFCL-V4, 64.3 en Qwenclaw y 65.2 en ClawEval, se acerca a Opus-4.6 Max
- En SpreadSheetBench-v1 obtuvo 87.0 puntos, mostrando también alto rendimiento en benchmarks de automatización de oficina
- QwenClawBench es un benchmark de agentes Claw de código abierto que refleja la distribución de usuarios reales
- CoWorkBench es un benchmark interno de colaboración que cubre tareas de largo plazo en dominios de productividad como ciencias computacionales, finanzas, derecho y salud
-
Razonamiento
- En GPQA Diamond obtuvo 92.4 puntos, superando los 91.3 de Opus-4.6
- En HLE obtuvo 41.4 puntos, por encima de los 40.0 de Opus-4.6, y en HMMT 2026 Feb obtuvo 97.1 puntos, superando los 96.2 de Opus-4.6
- En IMOAnswerBench obtuvo 90.0 puntos, por encima de los 89.8 de DS-V4-Pro, y en Apex obtuvo 44.5 puntos, superando los 38.3 de DS-V4-Pro
- Para escenarios de razonamiento se recomienda un prompt de sistema que comience con
Reasoning effort is set to xhigh...
-
Capacidades generales y multilingüismo
- En IFBench obtuvo 79.1 puntos, superando los 77.0 de DS-V4-Pro y mostrando precisión al seguir instrucciones
- En WMT24++ registró 85.8 puntos y en MAXIFE 89.2 puntos, mostrando fortalezas en comprensión multilingüe y calidad de traducción
- En SuperGPQA obtuvo 73.6 puntos y en QwenWorldBench 57.3 puntos
- WMT24++ es un subconjunto más difícil de WMT24 y usa la puntuación promedio XCOMET-XXL en 55 idiomas
- MAXIFE mide la exactitud en 23 configuraciones de prompts en inglés y multilingües
- MMLU-ProX usa la exactitud promedio en 29 idiomas
Condiciones de evaluación y detalles de benchmarks
- Terminal-Bench 2.0 fue evaluado con el harness Harbor/Terminus-2, límite de 5 horas, 12 CPU/24GB RAM,
temp=1.0,top_p=0.95,top_k=20, máximo de 80K tokens, contexto de 256K y promedio de 5 ejecuciones - La familia SWE-Bench se evaluó usando un andamiaje interno de agentes y herramientas de Bash y edición de archivos, con
temp=1.0,top_p=0.95y una ventana de contexto de 200K - SkillsBench fue evaluado con OpenCode y usa el promedio de 5 ejecuciones sobre 78 tareas, excluyendo 9 tareas que dependen de APIs externas
- MCP-Mark usa GitHub MCP v0.30.3 y recortó las respuestas de Playwright a 32K tokens
- MCP-Atlas usa la puntuación del conjunto público y el juez
gemini-2.5-pro - Kernel Bench L3 reporta, en 50 problemas, la mediana de la mejora de velocidad por problema frente a PyTorch eager y la proporción de problemas más rápidos que
torch.compile - Cada muestra de prueba de Kernel Bench L3 se ejecuta en un contenedor Docker aislado con 1 GPU H100 de 80GB, y el acceso a internet está restringido al codebase de CUTLASS y la documentación oficial de CUDA
- Kernel Bench L3 usa un límite de 500 llamadas a herramientas y detención temprana tras 100 turnos sin mejora, detecta posibles conductas de hacking con GPT-5.4(xhigh) y mide tiempos a nivel kernel con CUPTI
- MRCR-v2 es un subconjunto de contexto de 128K con 8 agujas y adopta el protocolo mrcr_v2 de eval_hub de Google DeepMind
Asistente de productividad colaborativa
- Qwen3.7-Max apunta a desempeñar el papel de colega avanzado para la productividad laboral real, realizando síntesis compleja de información, análisis y modelado profundos de datos, y generación de documentos y visualizaciones publicables
- Tiene compatibilidad básica con los principales harnesses de agentes y, en tareas de largo plazo, soporta planificación autónoma y ejecución sostenida durante varias horas
- Mejora gradualmente la calidad de salida mediante miles de llamadas a herramientas y decenas de iteraciones de refinamiento
- Plantea que puede completar de punta a punta, en pocas horas, proyectos complejos que normalmente tomarían 1 o 2 semanas a un equipo especializado
Entrenamiento de agentes y generalización
- Basándose en el enfoque de escalado de entornos introducido en Qwen3.5, Qwen3.7 amplía la calidad y diversidad de los entornos de entrenamiento de agentes
- Parte de la observación de que, así como los modelos de lenguaje generalizan a partir de diversos textos de preentrenamiento, las capacidades de los agentes también generalizan desde entornos de entrenamiento diversos
- Todos los benchmarks de evaluación están compuestos por entornos completamente nuevos y fuera de dominio, no incluidos en el entrenamiento
- El escalado de entornos crea una trayectoria de mejora clara y consistente, y Qwen3.7-Max alcanza un ranking promedio top 3 cercano a Claude-4.6-Opus-Max
- Las mejoras de rendimiento en subconjuntos de benchmarks son lo bastante consistentes como para predecir mejoras relativas en los benchmarks restantes y en el promedio total, lo que sugiere generalización de capacidades más que mejoras específicas de benchmark
- Análisis adicionales sobre la dinámica de escalado y la metodología se tratarán en un informe técnico futuro
Generalización entre harnesses
- La infraestructura de entornos de rollout separa cada instancia de entrenamiento en tres componentes ortogonales: Task, Harness y Verifier
- Soporta diversos harnesses y sus versiones, y usa entornos basados en escenarios reales en lugar de proxys sintéticos
- El diseño desacoplado permite escalado combinatorio con costo adicional mínimo al combinar la misma tarea con distintos tipos y versiones de harness y distintos verificadores
- Mediante aprendizaje por refuerzo entre harnesses cruzados y verificadores cruzados, donde la misma tarea aparece en distintas configuraciones de harness, el modelo aprende estrategias de resolución de problemas generalizables en vez de atajos específicos de un harness
- En QwenClawBench y CoWorkBench, Qwen3.7-Max muestra rendimiento fuerte y consistente sin importar el harness usado en la evaluación
Autoevolución en entornos reales
- Extend Attention es el operador de atención multihead de longitud variable de grado de producción de SGLang
- El escenario de prueba aborda un kernel sensible a latencia y limitado por memoria en serving de LLM, que calcula puntuaciones de atención entre tokens recién generados con MTP y un prefix KV-cache de hasta 32K elementos
- La implementación de referencia es la implementación oficial en Triton de SGLang
-
Optimización de kernels en una arquitectura PPU desconocida
- Qwen3.7-Max optimizó este kernel en una instancia ECS equipada con una T-Head ZW-M890 PPU que no había visto durante el entrenamiento
- Comenzó sin datos previos de profiling, documentación de hardware ni kernels de ejemplo para esa arquitectura
- El espacio de trabajo vacío solo contenía la descripción de la tarea, la implementación existente de SGLang y el script de evaluación
- Durante aproximadamente 35 horas de ejecución autónoma continua, realizó 1,158 llamadas a herramientas y 432 evaluaciones de kernels
- Diagnosticó por sí mismo fallos de compilación, corrigió bugs de corrección, identificó cuellos de botella mediante profiling de runtime y rediseñó la arquitectura del kernel
- El resultado final fue una mejora de velocidad de media geométrica de 10.0x frente a Triton en múltiples cargas de trabajo
- Incluso después de 30 horas siguió encontrando mejoras significativas, mostrando productividad en optimización autónoma de largo plazo
-
Trayectoria de optimización
- Con paralelización Split-KV dividió el prefix KV-cache en varios bloques de hilos por query e introdujo un kernel de reducción que fusiona resultados parciales con online softmax rescaling, mejorando de 0.33x a 2.58x en unas 2 horas
- Sustituyó
cudaMalloc/cudaFreepor llamada por tensorestorch::emptypreasignados, eliminócudaMemcpysíncrono y desenrolló 2x el loop interno, alcanzando 5.37x en unas 2.5 horas - Cambió un divisor fijo de split por una heurística basada en el tamaño de la carga de trabajo y elevó la ocupación de ondas SM en una arquitectura de 36 SM, alcanzando 6.85x en unas 3 horas
- Combinó eliminación de barreras de memoria compartida, carga de K/V basada en registros, persistent static tensor, batched softmax update y preescalado de Q, alcanzando 8.50x en el intervalo de 3 a 25 horas
- Un kernel especializado para MTP γ=4 procesa simultáneamente 4 tokens de query por bloque y comparte carga de K/V entre queries, llegando a 10.0x en el intervalo de 32 a 35 horas
-
Comparación en igualdad de condiciones
- GLM 5.1 llegó a 7.3x, Kimi K2.6 a 5.0x, DeepSeek V4 Pro a 3.3x y Qwen3.6-Plus a 1.1x
- Los modelos detenidos tempranamente terminaron la sesión por voluntad propia al considerar que ya no podían avanzar más después de no emitir llamadas a herramientas durante 5 intentos consecutivos
-
Generación de kernels para GPU NVIDIA
- Qwen3.7-Max no solo genera kernels para PPU, sino también kernels de grado de producción para diversas GPU NVIDIA
- En KernelBench L3, Qwen3.7-Max puede crear kernels acelerados en el 96% de los escenarios
- Las cifras comparativas son Opus-4.6 98%, GLM 5.1 78%, Kimi K2.6 80%, DeepSeek V4 Pro 54% y Qwen3.6-Plus 48%
-
Características de los agentes autónomos de largo plazo
- Muestra persistencia de razonamiento de largo plazo, manteniendo estrategias de optimización durante más de 1,000 llamadas a herramientas sin perder contexto ni degradarse
- Muestra generalización en contexto, creando kernels competitivos basados en feedback de runtime en arquitecturas no vistas durante el entrenamiento, y no en conocimiento de hardware memorizado
Monitoreo de reward hacking
- Qwen3.7-Max se integró en el monitoreo por RL de tareas de ingeniería de software, formando un marco de automonitoreo de reward hacking y autoevolución de reglas
- Durante experimentos de RL de más de 80 horas, buscó y reprodujo de forma autónoma trayectorias de entrenamiento ejecutando más de 10,000 llamadas
- Identificó sistemáticamente patrones candidatos de hacking, como intentos de eludir restricciones para acceder a respuestas correctas en GitHub
- Realizó verificación de reglas, minería de contraejemplos y optimización iterativa
- Mediante múltiples rondas de autoevolución de reglas, añadió 13 nuevas reglas heurísticas y marcó con precisión 1,618 casos de hacking
- Este proceso garantiza la estabilidad de la recompensa de RL y promueve la mejora continua del modelo como agente sofisticado de ingeniería de software
Planificación y ejecución de largo plazo en gestión de startups
- En el framework Dynamic Cumulative Survival Games, amplía la complejidad temporal de las tareas de entrenamiento para fortalecer la planificación y ejecución de largo plazo
- Eleva la consistencia de política del agente en trayectorias secuenciales de toma de decisiones de más de mil pasos, sosteniendo la construcción de hipótesis, el ajuste de estrategias basado en feedback del entorno y la acumulación de experiencia y memoria a largo plazo
- Mantiene un ritmo de ejecución estable incluso en horizontes largos, resistiendo la degradación del contexto y el desvío de instrucciones
-
Resultados de YC-Bench
- YC-Bench es un benchmark que simula el ciclo de vida completo de un año de una startup
- El agente debe tomar decisiones durante cientos de rondas sobre gestión de personal, revisión de contratos e identificación de clientes maliciosos, manteniendo el margen de ganancias incluso con costos laborales en aumento
- Qwen3.7-Max alcanzó ingresos totales de 2.08 millones de dólares, el doble que los 1.05 millones de Qwen3.6-Plus y 5.9 veces el rendimiento de los 352 mil dólares de Qwen3.5-Plus
- El número de tareas completadas fue 237
- Realizó prospección de clientes potenciales, identificación y bloqueo de trampas maliciosas, priorización de fuentes de ingresos estables y recuperación autónoma en crisis de mediano plazo
- Finalmente convergió hacia un loop de ejecución estable y de alta eficiencia
Construir con Qwen3.7
- Qwen3.7-Max estará disponible pronto a través de Alibaba Cloud Model Studio y puede integrarse con frameworks de agentes populares y asistentes de codificación
-
Uso de API
- Qwen3.7-Max soporta la función
preserve_thinking, que conserva en los mensajes el contenido de razonamiento de todos los turnos anteriores, y se recomienda para tareas de agentes - Alibaba Cloud Model Studio soporta protocolos estándar de la industria como chat completions y responses API compatibles con la especificación de OpenAI, así como una interfaz de API compatible con Anthropic
DASHSCOPE_API_KEYusa la API key obtenida en la consola de Model StudioDASHSCOPE_BASE_URLes opcional y puede usarhttps://dashscope-intl.aliyuncs.com/compatible-mode/v1como URL base de la API en modo compatible- La URL de Beijing es
https://dashscope.aliyuncs.com/compatible-mode/v1, la de Singapur eshttps://dashscope-intl.aliyuncs.com/compatible-mode/v1y la de Virginia, EE. UU., eshttps://dashscope-us.aliyuncs.com/compatible-mode/v1 - Más información está disponible en la documentación de la API
- Qwen3.7-Max soporta la función
-
Codificación frontend
- Qwen3.7-Max puede generar, a partir de un solo prompt, aplicaciones web interactivas que incluyen escenas 3D con Three.js, animaciones en Canvas, layout de página completa y SVG dinámicos
- El prompt de ejemplo pide una implementación HTML con efecto de rotación 3D que detecte con la cámara la apertura y el cierre de la palma para controlar la contracción y expansión de un conjunto de partículas, y que forme los textos
hello, worldeI’am Qwensegún los gestos de dedos 1 y 2 respectivamente
-
Asistente de oficina
- Qwen3.7-Max puede funcionar como asistente de oficina inteligente mediante integración de herramientas
- En el ejemplo, lee las reglas de formato para tesis universitarias y vuelve a formatear un borrador desordenado mediante llamadas autónomas a la herramienta office-cli
- Corrige layout de página, estilo de títulos, fuentes, márgenes, tabla de contenido y formato de referencias
- La tesis de muestra fue generada por IA con fines de demostración
-
Agente de navegación en el mundo físico
- Qwen3.7-Max puede controlar un perro robot mediante llamadas a herramientas
- Realiza comprensión física, planificación, memoria y toma de decisiones en un entorno físico
- Usa el harness de agentes robóticos Qwen-RobotClaw, el modelo basado en navegación Qwen-RobotNav y varias herramientas de visión construidas con modelos Qwen-plus
- El panel izquierdo del demo muestra el flujo de interacción de llamadas a herramientas del agente durante 20 minutos en el mundo físico, el centro muestra la vista en primera persona a lo largo de la trayectoria del robot cuadrúpedo y la derecha muestra la memoria de largo plazo del agente
-
Integración con asistentes de codificación
- Qwen3.7-Max se integra con frameworks de agentes populares y asistentes de codificación
-
Claude Code
- La API de Qwen soporta el protocolo de API de Anthropic, por lo que puede usarse directamente en Claude Code
- Configura
ANTHROPIC_MODELyANTHROPIC_SMALL_FAST_MODELcomoqwen3.7-max, yANTHROPIC_BASE_URLcomohttps://dashscope-intl.aliyuncs.com/apps/anthropic
-
OpenClaw
- OpenClaw puede conectarse mediante Model Studio
- Después de configurar
DASHSCOPE_API_KEY, ejecutaopenclaw dashboardy definemodelstudio/qwen3.7-maxcomo modelo predeterminado en~/.openclaw/openclaw.json - El ejemplo de configuración incluye
contextWindow1000000,maxTokens65536 yreasoningtrue
-
Qwen Code
- Qwen Code está profundamente optimizado para la serie Qwen
- Instálalo con
npm install -g @qwen-code/qwen-code@latesty ejecútalo con el comandoqwen
1 comentarios
Opiniones de Hacker News
En AA-omniscience, la tasa de respuestas no alucinadas está al nivel más alto, y es mejor que Opus 4.7, Gemini 3.1 Pro y GPT5.5. Felicidades al equipo.
No aparecía por defecto, tuve que agregarlo manualmente al gráfico, y me pregunto si tiene la tasa de alucinación más baja del dataset.
Por ejemplo, si corres Step 3.5 Flash en local, en general es sorprendentemente capaz, pero su eficiencia de tokens es tan mala que, en tiempo real total, pierde contra la mayoría de los otros modelos. Incluso metiéndole a llama.cpp soporte MTP a mano, en Spark apenas pasaba de 20tk/s a 30tk/s, y aunque fue entrenado con tres heads, MTP 2 era el punto óptimo.
Los modelos de DeepSeek y Qwen 3.5 Plus son parecidos, así que comparados con Opus, y especialmente con GPT 5.5, usan muchos más tokens para llegar a la misma respuesta.
De verdad espero que Qwen 3.7 haya mejorado en esto, y tengo ganas de probarlo pronto. Por cierto, correr DeepSeek v4 Flash en Spark fue una locura de lo impresionante, y si antirez lo viera, me gustaría darle las gracias.
Al final, eso solo indica qué tanto coincide el modelo con las creencias, verdaderas o falsas, del grupo que diseñó la prueba.
Anoche estuve peligrosamente cerca de mi límite semanal de Claude Code, así que hice que Claude me configurara Qwen3.6 con llama.cpp y OpenCode. Sinceramente, es una excelente alternativa gratuita a Claude Code, y para bastantes tareas pequeñas y menos complejas es más que suficiente.
También tengo ganas de probar esta nueva versión. Me impresiona mucho lo cerca que ya están los modelos open source de la frontera.
La semana pasada probé qwen3.6-27b Q6_k GUFF en un M2 MacBook Pro de 32GB con llama.cpp y LM Studio, y en ambos casos apenas llegaba a 1 token por segundo.
No tengo claro qué velocidad debería esperar. Recuerdo que hace dos años, con llama.cpp y modelos de la familia Llama 3 34b, sí sacaba varios tokens por segundo, así que no sé si configuré todo pésimo o si mis expectativas no son realistas.
También me pregunto si qwen 3.x es más lento por alguna razón. Me interesa saber si usa arquitectura mixture-of-experts (MoE). No espero respuesta instantánea, pero a la velocidad actual es difícil usarlo de verdad.
Y si usas MCP u otras herramientas para optimizar rendimiento, como context-mode o poda dinámica de contexto. He usado bastante modelos locales, pero apenas estoy empezando con opencode; todavía no me ha dado grandes resultados, aunque ojalá funcione bien al menos para tareas simples. También tengo un problema con una instalación nueva de opencode: incluso en idle pone iTerm al 100% de CPU.
Si hiciera todas mis tareas de código con Opus 4.7, mi factura mensual sería entre 10 y 20 veces más alta que cuando puedo usar Sonnet.
Ya que están empezando a lanzar más modelos propietarios, estaría buenísimo que se asociaran con alguno de los grandes hyperscalers de EE. UU. para poder usar estos modelos a través de un proveedor con base en Estados Unidos.
Entiendo perfectamente por qué eso podría no ser razonable o no alinearse con sus intereses. Y también es cierto que EE. UU. tampoco hace automáticamente lo mismo en sentido contrario. Aun así, me gustaría poder probarlos bien en cargas reales de producción.
Los números por sí solos se ven muy bien. Pero sigo sin entender por qué en este tipo de publicaciones no comparan con los modelos competidores más recientes. No es como si la gente no se fuera a dar cuenta.
OpenAI y Anthropic hacen lo mismo muchas veces, porque suelen usar datasets de evaluación distintos entre sí.
Además, este tipo de publicaciones no aparecen de la nada. Si tienes un conjunto de benchmarks objetivo para tu modelo, mantener también un conjunto de modelos comparables lado a lado implica una carga extra de mantenimiento.
En la práctica, creo que esperan que los lectores no noten esos detalles.
Los modelos Qwen son excelentes en términos de weights abiertos, pero lanzamientos anteriores no rindieron tan bien en uso real como sugerían los benchmarks. Como saben que optimizar para benchmarks funciona, van por ahí.
Si dicen que es comparable con 4.7, entonces ese modelo de referencia queda fijado en la cabeza de la gente.
Me pregunto si este también es del tipo que recibe un lanzamiento en Hugging Face una semana después. O si ya se sabe con certeza que va a seguir siendo propietario.
Espero que haya más lanzamientos de Qwen con weights abiertos. En especial tengo muchas ganas de ver 122B y 397B.
Si me paso de Qwen 9B, mi máquina corre el riesgo de quedarse totalmente congelada.
En los benchmarks no están Opus 4.7, GPT5.5 ni Gemini Flash 3.5.
Estoy usando pi agent y me gustaría probar modelos Qwen hospedados. Me pregunto cuáles serían buenas opciones.
El proveedor oficial no incluye a Alibaba. También me pregunto si un servicio como OpenRouter es lo bastante rápido. Como referencia, DeepSeek v4 viene muy limitado en este tipo de servicios proxy.
Apenas estoy empezando a jugar con modelos grandes locales y, la verdad, me han impresionado bastante. Tengo una workstation laptop con una NVIDIA A1000 (6GB de VRAM) y 96GB de RAM.
Casi no he usado la GPU, salvo de vez en cuando para diseño CAD o algo de machine learning con OpenCV. Probé correr llama3:latest y anduvo bastante rápido, así que me da curiosidad cómo correría Qwen en mi sistema.
El patrón en el que más confío es agregar un pequeño artefacto de verificación por cada acción externa. Los agentes suelen fallar antes por drift silencioso de estado que por falta de profundidad de razonamiento.