Qwen3.7-Max: la frontera de los agentes

(qwen.ai)

5 puntos por GN⁺ 2026-05-21 | 3 comentarios | Compartir por WhatsApp

Qwen3.7-Max es un modelo propietario centrado en agentes, orientado a codificación y depuración, automatización de oficina y ejecución autónoma de cientos a miles de pasos
Compite con modelos rivales en evaluaciones de codificación, agentes de propósito general, razonamiento y multilingüismo, y registra 69.7 puntos en Terminal Bench 2.0-Terminus y 92.4 puntos en GPQA Diamond
En una optimización autónoma de kernels durante 35 horas, realizó 1,158 llamadas a herramientas y 432 evaluaciones, logrando una mejora de velocidad de media geométrica de 10.0x frente a Triton
Separa las instancias de entrenamiento en Task, Harness y Verifier para realizar aprendizaje por refuerzo entre harnesses cruzados, induciendo resolución de problemas generalizable en lugar de atajos de un harness específico
La API estará disponible pronto a través de Alibaba Cloud Model Studio, y puede integrarse con frameworks de agentes como Claude Code, OpenClaw y Qwen Code

Evaluación de rendimiento

Qwen3.7-Max fue evaluado junto con varios modelos comparativos en las áreas de agentes de codificación, agentes de propósito general, STEM y razonamiento, capacidades generales y multilingüismo
Las celdas vacías (--) significan que la puntuación aún no ha sido proporcionada
Agentes de codificación
- En Terminal Bench 2.0-Terminus obtuvo 69.7 puntos, superando los 67.9 de DS-V4-Pro Max
- En SWE-Verified obtuvo 80.4 puntos, un nivel similar a Opus-4.6 Max con 80.8 puntos y DS-V4-Pro Max con 80.6 puntos
- Registra 60.6 puntos en SWE-Pro, 78.3 en SWE-Multilingual, 53.5 en SciCode y 1608 en QwenSVG
- NL2repo fue evaluado con Claude Code y se deshabilitaron comandos Bash como pip download, pip install y git clone que intentan acceder a repositorios específicos
- QwenWebDev es un benchmark interno de generación de código frontend bilingüe en inglés y chino, y usa 7 categorías, renderizado automático, evaluación multimodal y calificación BT/Elo
Agentes de propósito general
- En MCP-Mark obtuvo 60.8 puntos, superando los 57.5 de GLM-5.1, y en MCP-Atlas logró 76.4 puntos, por encima de los 75.8 de Opus-4.6
- En Skillsbench obtuvo 59.2 puntos, superando los 56.2 de K2.6
- En Kernel Bench L3 registró una mejora de velocidad mediana de 1.98x y una tasa de victoria de 96%, mostrando capacidad en optimización de kernels GPU
- Con 75.0 puntos en BFCL-V4, 64.3 en Qwenclaw y 65.2 en ClawEval, se acerca a Opus-4.6 Max
- En SpreadSheetBench-v1 obtuvo 87.0 puntos, mostrando también alto rendimiento en benchmarks de automatización de oficina
- QwenClawBench es un benchmark de agentes Claw de código abierto que refleja la distribución de usuarios reales
- CoWorkBench es un benchmark interno de colaboración que cubre tareas de largo plazo en dominios de productividad como ciencias computacionales, finanzas, derecho y salud
Razonamiento
- En GPQA Diamond obtuvo 92.4 puntos, superando los 91.3 de Opus-4.6
- En HLE obtuvo 41.4 puntos, por encima de los 40.0 de Opus-4.6, y en HMMT 2026 Feb obtuvo 97.1 puntos, superando los 96.2 de Opus-4.6
- En IMOAnswerBench obtuvo 90.0 puntos, por encima de los 89.8 de DS-V4-Pro, y en Apex obtuvo 44.5 puntos, superando los 38.3 de DS-V4-Pro
- Para escenarios de razonamiento se recomienda un prompt de sistema que comience con Reasoning effort is set to xhigh...
Capacidades generales y multilingüismo
- En IFBench obtuvo 79.1 puntos, superando los 77.0 de DS-V4-Pro y mostrando precisión al seguir instrucciones
- En WMT24++ registró 85.8 puntos y en MAXIFE 89.2 puntos, mostrando fortalezas en comprensión multilingüe y calidad de traducción
- En SuperGPQA obtuvo 73.6 puntos y en QwenWorldBench 57.3 puntos
- WMT24++ es un subconjunto más difícil de WMT24 y usa la puntuación promedio XCOMET-XXL en 55 idiomas
- MAXIFE mide la exactitud en 23 configuraciones de prompts en inglés y multilingües
- MMLU-ProX usa la exactitud promedio en 29 idiomas

Condiciones de evaluación y detalles de benchmarks

Terminal-Bench 2.0 fue evaluado con el harness Harbor/Terminus-2, límite de 5 horas, 12 CPU/24GB RAM, temp=1.0, top_p=0.95, top_k=20, máximo de 80K tokens, contexto de 256K y promedio de 5 ejecuciones
La familia SWE-Bench se evaluó usando un andamiaje interno de agentes y herramientas de Bash y edición de archivos, con temp=1.0, top_p=0.95 y una ventana de contexto de 200K
SkillsBench fue evaluado con OpenCode y usa el promedio de 5 ejecuciones sobre 78 tareas, excluyendo 9 tareas que dependen de APIs externas
MCP-Mark usa GitHub MCP v0.30.3 y recortó las respuestas de Playwright a 32K tokens
MCP-Atlas usa la puntuación del conjunto público y el juez gemini-2.5-pro
Kernel Bench L3 reporta, en 50 problemas, la mediana de la mejora de velocidad por problema frente a PyTorch eager y la proporción de problemas más rápidos que torch.compile
Cada muestra de prueba de Kernel Bench L3 se ejecuta en un contenedor Docker aislado con 1 GPU H100 de 80GB, y el acceso a internet está restringido al codebase de CUTLASS y la documentación oficial de CUDA
Kernel Bench L3 usa un límite de 500 llamadas a herramientas y detención temprana tras 100 turnos sin mejora, detecta posibles conductas de hacking con GPT-5.4(xhigh) y mide tiempos a nivel kernel con CUPTI
MRCR-v2 es un subconjunto de contexto de 128K con 8 agujas y adopta el protocolo mrcr_v2 de eval_hub de Google DeepMind

Asistente de productividad colaborativa

Qwen3.7-Max apunta a desempeñar el papel de colega avanzado para la productividad laboral real, realizando síntesis compleja de información, análisis y modelado profundos de datos, y generación de documentos y visualizaciones publicables
Tiene compatibilidad básica con los principales harnesses de agentes y, en tareas de largo plazo, soporta planificación autónoma y ejecución sostenida durante varias horas
Mejora gradualmente la calidad de salida mediante miles de llamadas a herramientas y decenas de iteraciones de refinamiento
Plantea que puede completar de punta a punta, en pocas horas, proyectos complejos que normalmente tomarían 1 o 2 semanas a un equipo especializado

Entrenamiento de agentes y generalización

Basándose en el enfoque de escalado de entornos introducido en Qwen3.5, Qwen3.7 amplía la calidad y diversidad de los entornos de entrenamiento de agentes
Parte de la observación de que, así como los modelos de lenguaje generalizan a partir de diversos textos de preentrenamiento, las capacidades de los agentes también generalizan desde entornos de entrenamiento diversos
Todos los benchmarks de evaluación están compuestos por entornos completamente nuevos y fuera de dominio, no incluidos en el entrenamiento
El escalado de entornos crea una trayectoria de mejora clara y consistente, y Qwen3.7-Max alcanza un ranking promedio top 3 cercano a Claude-4.6-Opus-Max
Las mejoras de rendimiento en subconjuntos de benchmarks son lo bastante consistentes como para predecir mejoras relativas en los benchmarks restantes y en el promedio total, lo que sugiere generalización de capacidades más que mejoras específicas de benchmark
Análisis adicionales sobre la dinámica de escalado y la metodología se tratarán en un informe técnico futuro

Generalización entre harnesses

La infraestructura de entornos de rollout separa cada instancia de entrenamiento en tres componentes ortogonales: Task, Harness y Verifier
Soporta diversos harnesses y sus versiones, y usa entornos basados en escenarios reales en lugar de proxys sintéticos
El diseño desacoplado permite escalado combinatorio con costo adicional mínimo al combinar la misma tarea con distintos tipos y versiones de harness y distintos verificadores
Mediante aprendizaje por refuerzo entre harnesses cruzados y verificadores cruzados, donde la misma tarea aparece en distintas configuraciones de harness, el modelo aprende estrategias de resolución de problemas generalizables en vez de atajos específicos de un harness
En QwenClawBench y CoWorkBench, Qwen3.7-Max muestra rendimiento fuerte y consistente sin importar el harness usado en la evaluación

Autoevolución en entornos reales

Extend Attention es el operador de atención multihead de longitud variable de grado de producción de SGLang
El escenario de prueba aborda un kernel sensible a latencia y limitado por memoria en serving de LLM, que calcula puntuaciones de atención entre tokens recién generados con MTP y un prefix KV-cache de hasta 32K elementos
La implementación de referencia es la implementación oficial en Triton de SGLang
Optimización de kernels en una arquitectura PPU desconocida
- Qwen3.7-Max optimizó este kernel en una instancia ECS equipada con una T-Head ZW-M890 PPU que no había visto durante el entrenamiento
- Comenzó sin datos previos de profiling, documentación de hardware ni kernels de ejemplo para esa arquitectura
- El espacio de trabajo vacío solo contenía la descripción de la tarea, la implementación existente de SGLang y el script de evaluación
- Durante aproximadamente 35 horas de ejecución autónoma continua, realizó 1,158 llamadas a herramientas y 432 evaluaciones de kernels
- Diagnosticó por sí mismo fallos de compilación, corrigió bugs de corrección, identificó cuellos de botella mediante profiling de runtime y rediseñó la arquitectura del kernel
- El resultado final fue una mejora de velocidad de media geométrica de 10.0x frente a Triton en múltiples cargas de trabajo
- Incluso después de 30 horas siguió encontrando mejoras significativas, mostrando productividad en optimización autónoma de largo plazo
Trayectoria de optimización
- Con paralelización Split-KV dividió el prefix KV-cache en varios bloques de hilos por query e introdujo un kernel de reducción que fusiona resultados parciales con online softmax rescaling, mejorando de 0.33x a 2.58x en unas 2 horas
- Sustituyó cudaMalloc/cudaFree por llamada por tensores torch::empty preasignados, eliminó cudaMemcpy síncrono y desenrolló 2x el loop interno, alcanzando 5.37x en unas 2.5 horas
- Cambió un divisor fijo de split por una heurística basada en el tamaño de la carga de trabajo y elevó la ocupación de ondas SM en una arquitectura de 36 SM, alcanzando 6.85x en unas 3 horas
- Combinó eliminación de barreras de memoria compartida, carga de K/V basada en registros, persistent static tensor, batched softmax update y preescalado de Q, alcanzando 8.50x en el intervalo de 3 a 25 horas
- Un kernel especializado para MTP γ=4 procesa simultáneamente 4 tokens de query por bloque y comparte carga de K/V entre queries, llegando a 10.0x en el intervalo de 32 a 35 horas
Comparación en igualdad de condiciones
- GLM 5.1 llegó a 7.3x, Kimi K2.6 a 5.0x, DeepSeek V4 Pro a 3.3x y Qwen3.6-Plus a 1.1x
- Los modelos detenidos tempranamente terminaron la sesión por voluntad propia al considerar que ya no podían avanzar más después de no emitir llamadas a herramientas durante 5 intentos consecutivos
Generación de kernels para GPU NVIDIA
- Qwen3.7-Max no solo genera kernels para PPU, sino también kernels de grado de producción para diversas GPU NVIDIA
- En KernelBench L3, Qwen3.7-Max puede crear kernels acelerados en el 96% de los escenarios
- Las cifras comparativas son Opus-4.6 98%, GLM 5.1 78%, Kimi K2.6 80%, DeepSeek V4 Pro 54% y Qwen3.6-Plus 48%
Características de los agentes autónomos de largo plazo
- Muestra persistencia de razonamiento de largo plazo, manteniendo estrategias de optimización durante más de 1,000 llamadas a herramientas sin perder contexto ni degradarse
- Muestra generalización en contexto, creando kernels competitivos basados en feedback de runtime en arquitecturas no vistas durante el entrenamiento, y no en conocimiento de hardware memorizado

Monitoreo de reward hacking

Qwen3.7-Max se integró en el monitoreo por RL de tareas de ingeniería de software, formando un marco de automonitoreo de reward hacking y autoevolución de reglas
Durante experimentos de RL de más de 80 horas, buscó y reprodujo de forma autónoma trayectorias de entrenamiento ejecutando más de 10,000 llamadas
Identificó sistemáticamente patrones candidatos de hacking, como intentos de eludir restricciones para acceder a respuestas correctas en GitHub
Realizó verificación de reglas, minería de contraejemplos y optimización iterativa
Mediante múltiples rondas de autoevolución de reglas, añadió 13 nuevas reglas heurísticas y marcó con precisión 1,618 casos de hacking
Este proceso garantiza la estabilidad de la recompensa de RL y promueve la mejora continua del modelo como agente sofisticado de ingeniería de software

Planificación y ejecución de largo plazo en gestión de startups

En el framework Dynamic Cumulative Survival Games, amplía la complejidad temporal de las tareas de entrenamiento para fortalecer la planificación y ejecución de largo plazo
Eleva la consistencia de política del agente en trayectorias secuenciales de toma de decisiones de más de mil pasos, sosteniendo la construcción de hipótesis, el ajuste de estrategias basado en feedback del entorno y la acumulación de experiencia y memoria a largo plazo
Mantiene un ritmo de ejecución estable incluso en horizontes largos, resistiendo la degradación del contexto y el desvío de instrucciones
Resultados de YC-Bench
- YC-Bench es un benchmark que simula el ciclo de vida completo de un año de una startup
- El agente debe tomar decisiones durante cientos de rondas sobre gestión de personal, revisión de contratos e identificación de clientes maliciosos, manteniendo el margen de ganancias incluso con costos laborales en aumento
- Qwen3.7-Max alcanzó ingresos totales de 2.08 millones de dólares, el doble que los 1.05 millones de Qwen3.6-Plus y 5.9 veces el rendimiento de los 352 mil dólares de Qwen3.5-Plus
- El número de tareas completadas fue 237
- Realizó prospección de clientes potenciales, identificación y bloqueo de trampas maliciosas, priorización de fuentes de ingresos estables y recuperación autónoma en crisis de mediano plazo
- Finalmente convergió hacia un loop de ejecución estable y de alta eficiencia

Construir con Qwen3.7

Qwen3.7-Max estará disponible pronto a través de Alibaba Cloud Model Studio y puede integrarse con frameworks de agentes populares y asistentes de codificación
Uso de API
- Qwen3.7-Max soporta la función preserve_thinking, que conserva en los mensajes el contenido de razonamiento de todos los turnos anteriores, y se recomienda para tareas de agentes
- Alibaba Cloud Model Studio soporta protocolos estándar de la industria como chat completions y responses API compatibles con la especificación de OpenAI, así como una interfaz de API compatible con Anthropic
- DASHSCOPE_API_KEY usa la API key obtenida en la consola de Model Studio
- DASHSCOPE_BASE_URL es opcional y puede usar https://dashscope-intl.aliyuncs.com/compatible-mode/v1 como URL base de la API en modo compatible
- La URL de Beijing es https://dashscope.aliyuncs.com/compatible-mode/v1, la de Singapur es https://dashscope-intl.aliyuncs.com/compatible-mode/v1 y la de Virginia, EE. UU., es https://dashscope-us.aliyuncs.com/compatible-mode/v1
- Más información está disponible en la documentación de la API
Codificación frontend
- Qwen3.7-Max puede generar, a partir de un solo prompt, aplicaciones web interactivas que incluyen escenas 3D con Three.js, animaciones en Canvas, layout de página completa y SVG dinámicos
- El prompt de ejemplo pide una implementación HTML con efecto de rotación 3D que detecte con la cámara la apertura y el cierre de la palma para controlar la contracción y expansión de un conjunto de partículas, y que forme los textos hello, world e I’am Qwen según los gestos de dedos 1 y 2 respectivamente
Asistente de oficina
- Qwen3.7-Max puede funcionar como asistente de oficina inteligente mediante integración de herramientas
- En el ejemplo, lee las reglas de formato para tesis universitarias y vuelve a formatear un borrador desordenado mediante llamadas autónomas a la herramienta office-cli
- Corrige layout de página, estilo de títulos, fuentes, márgenes, tabla de contenido y formato de referencias
- La tesis de muestra fue generada por IA con fines de demostración
Agente de navegación en el mundo físico
- Qwen3.7-Max puede controlar un perro robot mediante llamadas a herramientas
- Realiza comprensión física, planificación, memoria y toma de decisiones en un entorno físico
- Usa el harness de agentes robóticos Qwen-RobotClaw, el modelo basado en navegación Qwen-RobotNav y varias herramientas de visión construidas con modelos Qwen-plus
- El panel izquierdo del demo muestra el flujo de interacción de llamadas a herramientas del agente durante 20 minutos en el mundo físico, el centro muestra la vista en primera persona a lo largo de la trayectoria del robot cuadrúpedo y la derecha muestra la memoria de largo plazo del agente
Integración con asistentes de codificación
- Qwen3.7-Max se integra con frameworks de agentes populares y asistentes de codificación
- Claude Code
  - La API de Qwen soporta el protocolo de API de Anthropic, por lo que puede usarse directamente en Claude Code
  - Configura ANTHROPIC_MODEL y ANTHROPIC_SMALL_FAST_MODEL como qwen3.7-max, y ANTHROPIC_BASE_URL como https://dashscope-intl.aliyuncs.com/apps/anthropic
- OpenClaw
  - OpenClaw puede conectarse mediante Model Studio
  - Después de configurar DASHSCOPE_API_KEY, ejecuta openclaw dashboard y define modelstudio/qwen3.7-max como modelo predeterminado en ~/.openclaw/openclaw.json
  - El ejemplo de configuración incluye contextWindow 1000000, maxTokens 65536 y reasoning true
- Qwen Code
  - Qwen Code está profundamente optimizado para la serie Qwen
  - Instálalo con npm install -g @qwen-code/qwen-code@latest y ejecútalo con el comando qwen

3 comentarios

beepp 2026-05-21

Vi una publicación la vez pasada diciendo que se había ido personal clave y me preocupé, pero aun así se ven bastante activos.

emptybynature 2026-05-22

De todos modos, es una industria donde todos se destilan entre sí y reutilizan lo que ya existe, así que realmente no importa mucho quién se vaya a dónde. Como esto va camino a convertirse en una guerra de desgaste, al final ganará la empresa que tenga más munición.

GN⁺ 2026-05-21

Opiniones de Hacker News

En AA-omniscience, la tasa de respuestas no alucinadas está al nivel más alto, y es mejor que Opus 4.7, Gemini 3.1 Pro y GPT5.5. Felicidades al equipo.
- Me baso en este enlace: https://artificialanalysis.ai/evaluations/omniscience?models...
  No aparecía por defecto, tuve que agregarlo manualmente al gráfico, y me pregunto si tiene la tasa de alucinación más baja del dataset.
- Cuando usas mucho estos modelos chinos de primer nivel, la gran pregunta es qué tal está la eficiencia de tokens.
  Por ejemplo, si corres Step 3.5 Flash en local, en general es sorprendentemente capaz, pero su eficiencia de tokens es tan mala que, en tiempo real total, pierde contra la mayoría de los otros modelos. Incluso metiéndole a llama.cpp soporte MTP a mano, en Spark apenas pasaba de 20tk/s a 30tk/s, y aunque fue entrenado con tres heads, MTP 2 era el punto óptimo.
  Los modelos de DeepSeek y Qwen 3.5 Plus son parecidos, así que comparados con Opus, y especialmente con GPT 5.5, usan muchos más tokens para llegar a la misma respuesta.
  De verdad espero que Qwen 3.7 haya mejorado en esto, y tengo ganas de probarlo pronto. Por cierto, correr DeepSeek v4 Flash en Spark fue una locura de lo impresionante, y si antirez lo viera, me gustaría darle las gracias.
- Que la “tasa de respuestas no alucinadas” sea perfecta puede no significar mucho por sí sola, porque incluso en este tipo de pruebas puede haber alucinaciones hechas por humanos.
  Al final, eso solo indica qué tanto coincide el modelo con las creencias, verdaderas o falsas, del grupo que diseñó la prueba.
- Es realmente impresionante y el avance se ve muy sólido. También me pregunto cuánto usaron chips propios para el entrenamiento.
- Me da curiosidad en qué punto ocurre la transición de estado de capacidad. Si es al 5%, o al 1%.
Anoche estuve peligrosamente cerca de mi límite semanal de Claude Code, así que hice que Claude me configurara Qwen3.6 con llama.cpp y OpenCode. Sinceramente, es una excelente alternativa gratuita a Claude Code, y para bastantes tareas pequeñas y menos complejas es más que suficiente.
También tengo ganas de probar esta nueva versión. Me impresiona mucho lo cerca que ya están los modelos open source de la frontera.
- Me da curiosidad saber en qué máquina y con qué modelo lo estás corriendo.
  La semana pasada probé qwen3.6-27b Q6_k GUFF en un M2 MacBook Pro de 32GB con llama.cpp y LM Studio, y en ambos casos apenas llegaba a 1 token por segundo.
  No tengo claro qué velocidad debería esperar. Recuerdo que hace dos años, con llama.cpp y modelos de la familia Llama 3 34b, sí sacaba varios tokens por segundo, así que no sé si configuré todo pésimo o si mis expectativas no son realistas.
  También me pregunto si qwen 3.x es más lento por alguna razón. Me interesa saber si usa arquitectura mixture-of-experts (MoE). No espero respuesta instantánea, pero a la velocidad actual es difícil usarlo de verdad.
- Esta nueva versión no es algo que puedas correr en local. Es un modelo en la nube, y aunque publiquen los weights, probablemente será demasiado grande.
- Me gustaría saber exactamente qué modelo usas. También qué parámetros y cuantización, y qué hardware.
  Y si usas MCP u otras herramientas para optimizar rendimiento, como context-mode o poda dinámica de contexto. He usado bastante modelos locales, pero apenas estoy empezando con opencode; todavía no me ha dado grandes resultados, aunque ojalá funcione bien al menos para tareas simples. También tengo un problema con una instalación nueva de opencode: incluso en idle pone iTerm al 100% de CPU.
- Lástima que Qwen Max normalmente sea un modelo cerrado.
- Me pregunto cómo se siente Qwen 3.6 frente a Sonnet 4.6, porque siendo realistas ese es el que mucha gente usa.
  Si hiciera todas mis tareas de código con Opus 4.7, mi factura mensual sería entre 10 y 20 veces más alta que cuando puedo usar Sonnet.
Ya que están empezando a lanzar más modelos propietarios, estaría buenísimo que se asociaran con alguno de los grandes hyperscalers de EE. UU. para poder usar estos modelos a través de un proveedor con base en Estados Unidos.
Entiendo perfectamente por qué eso podría no ser razonable o no alinearse con sus intereses. Y también es cierto que EE. UU. tampoco hace automáticamente lo mismo en sentido contrario. Aun así, me gustaría poder probarlos bien en cargas reales de producción.
- Mientras los hyperscalers de EE. UU. no hagan exactamente lo mismo en la otra dirección, preferiría que las cosas se quedaran como están. Si todos están contentos compartiendo, entonces debería haber intercambio en ambos sentidos; si no, los hyperscalers de EE. UU. pueden seguir aislados como hasta ahora.
- Qwen3.6-Plus se puede usar en Fireworks.
- Alibaba Cloud tiene un datacenter en México.
- Como fireworks hospeda Qwen 3.6 Plus, parece probable que también puedan traer Qwen 3.7 Plus.
- ChatLLM soporta QWEN, pero me pregunto si eso se consideraría seguro bajo estándares de EE. UU.
Los números por sí solos se ven muy bien. Pero sigo sin entender por qué en este tipo de publicaciones no comparan con los modelos competidores más recientes. No es como si la gente no se fuera a dar cuenta.
- Nadie publica métricas que hagan que su modelo se vea peor que el de la competencia.
  OpenAI y Anthropic hacen lo mismo muchas veces, porque suelen usar datasets de evaluación distintos entre sí.
- Si el salto es de una versión menor, me parece perdonable. De hecho, últimamente en los modelos grandes de lenguaje, no sé por qué, x.5 funciona en la práctica como si fuera una versión mayor.
  Además, este tipo de publicaciones no aparecen de la nada. Si tienes un conjunto de benchmarks objetivo para tu modelo, mantener también un conjunto de modelos comparables lado a lado implica una carga extra de mantenimiento.
- Supongo que la lógica es evitar que parezca que están N meses detrás del estado del arte.
  En la práctica, creo que esperan que los lectores no noten esos detalles.
  Los modelos Qwen son excelentes en términos de weights abiertos, pero lanzamientos anteriores no rindieron tan bien en uso real como sugerían los benchmarks. Como saben que optimizar para benchmarks funciona, van por ahí.
- Creo que es parte de cómo ajustan las expectativas. También puede ser que hayan armado la destilación o el harness de evaluación usando cierto modelo.
  Si dicen que es comparable con 4.7, entonces ese modelo de referencia queda fijado en la cabeza de la gente.
- Sinceramente, las primeras versiones de Opus-4.6 eran mucho mejores que lo que hoy se ofrece como 4.7. Si funcionara a ese nivel, me cambiaría por completo.
Me pregunto si este también es del tipo que recibe un lanzamiento en Hugging Face una semana después. O si ya se sabe con certeza que va a seguir siendo propietario.
- Corríjanme si me equivoco, pero según entiendo, los modelos Max normalmente no se publican.
Espero que haya más lanzamientos de Qwen con weights abiertos. En especial tengo muchas ganas de ver 122B y 397B.
- Sí. El rango de 60~150B es realmente un punto muy bueno en el hardware prosumer actual, así que estaría genial ver algo como un modelo 120b-a14b.
- Personalmente, me entusiasman más modelos más chicos como 9B y más fáciles de cuantizar.
- Tengo más ganas de ver qwen3.7 9b y 72b. Normalmente tienen una relación rendimiento/tamaño muy buena.
- Sigo esperando qwem image-edit 2.0 open weights.
- Uf. Apenas estoy empezando a meterme en esto, y mi equipo es una desktop gamer bastante normal: una 3060 de 12GB con 32GB de RAM.
  Si me paso de Qwen 9B, mi máquina corre el riesgo de quedarse totalmente congelada.
En los benchmarks no están Opus 4.7, GPT5.5 ni Gemini Flash 3.5.
Estoy usando pi agent y me gustaría probar modelos Qwen hospedados. Me pregunto cuáles serían buenas opciones.
El proveedor oficial no incluye a Alibaba. También me pregunto si un servicio como OpenRouter es lo bastante rápido. Como referencia, DeepSeek v4 viene muy limitado en este tipo de servicios proxy.
- He usado bastante qwen3.6-max-preview con pi + openrouter. Hasta ahora no he tenido problemas de estabilidad ni de rendimiento.
Apenas estoy empezando a jugar con modelos grandes locales y, la verdad, me han impresionado bastante. Tengo una workstation laptop con una NVIDIA A1000 (6GB de VRAM) y 96GB de RAM.
Casi no he usado la GPU, salvo de vez en cuando para diseño CAD o algo de machine learning con OpenCV. Probé correr llama3:latest y anduvo bastante rápido, así que me da curiosidad cómo correría Qwen en mi sistema.
El patrón en el que más confío es agregar un pequeño artefacto de verificación por cada acción externa. Los agentes suelen fallar antes por drift silencioso de estado que por falta de profundidad de razonamiento.
- ¿Podrías explicar esta parte con más detalle?

Qwen3.7-Max: la frontera de los agentes

Evaluación de rendimiento

Agentes de codificación

Agentes de propósito general

Razonamiento

Capacidades generales y multilingüismo

Condiciones de evaluación y detalles de benchmarks

Asistente de productividad colaborativa

Entrenamiento de agentes y generalización

Generalización entre harnesses

Autoevolución en entornos reales

Optimización de kernels en una arquitectura PPU desconocida

Trayectoria de optimización

Comparación en igualdad de condiciones

Generación de kernels para GPU NVIDIA

Características de los agentes autónomos de largo plazo

Monitoreo de reward hacking

Planificación y ejecución de largo plazo en gestión de startups

Resultados de YC-Bench

Construir con Qwen3.7

Uso de API

Codificación frontend

Asistente de oficina

Agente de navegación en el mundo físico

Integración con asistentes de codificación

Claude Code

OpenClaw

Qwen Code

Lecturas relacionadas

3 comentarios

Opiniones de Hacker News