Presentan el modelo Qwen3-Next: hacia la máxima eficiencia en entrenamiento e inferencia

(qwen.ai)

3 puntos por GN⁺ 2025-09-13 | Aún no hay comentarios. | Compartir por WhatsApp

Qwen3-Next es una nueva arquitectura de modelo desarrollada para respaldar la expansión de la longitud de contexto y el aumento del total de parámetros, tendencias futuras de los modelos a gran escala, y ofrece funciones para maximizar la eficiencia de entrenamiento e inferencia
Introduce un mecanismo de atención híbrida y una estructura MoE altamente dispersa para mejorar el rendimiento en contextos largos y configuraciones con gran cantidad de parámetros
Acelera la velocidad de inferencia mediante optimización de la estabilidad del entrenamiento y un mecanismo de predicción de múltiples tokens
El modelo Qwen3-Next-80B-A3B-Base logra un rendimiento equivalente o superior al modelo Qwen3-32B mientras reduce el costo de entrenamiento a menos del 10%
El lanzamiento de este modelo aporta avances arquitectónicos de vanguardia a la comunidad open source y sienta las bases para mejoras en inteligencia y productividad que conduzcan al desarrollo de Qwen3.5

Introducción

Partiendo de la convicción de que la expansión de la longitud de contexto y el aumento del total de parámetros son tendencias clave en los modelos a gran escala del futuro, se diseñó una nueva arquitectura llamada Qwen3-Next para mejorar la eficiencia de entrenamiento e inferencia en contextos largos y configuraciones con muchos parámetros
En comparación con la estructura MoE de Qwen3, se introdujeron varias mejoras clave, como un mecanismo de atención híbrida, una estructura MoE altamente dispersa, optimización de la estabilidad del entrenamiento y un mecanismo de predicción de múltiples tokens para una inferencia más rápida
Sobre esta arquitectura se entrenó el modelo Qwen3-Next-80B-A3B-Base, que cuenta con 80 mil millones de parámetros y activa solo 3 mil millones durante la inferencia
Este modelo base alcanza un rendimiento equivalente o ligeramente superior al modelo denso Qwen3-32B, usando menos del 10% del costo de entrenamiento (tiempo de GPU)
En particular, ofrece un rendimiento superior en más de 10 veces para longitudes de contexto mayores a 32K tokens, logrando eficiencia extrema tanto en entrenamiento como en inferencia
A partir de Qwen3-Next-80B-A3B-Base se desarrollaron y lanzaron dos versiones de post-entrenamiento: Qwen3-Next-80B-A3B-Instruct y Qwen3-Next-80B-A3B-Thinking
Al resolver problemas históricos de estabilidad y eficiencia en el entrenamiento con aprendizaje por refuerzo (RL) causados por la atención híbrida y la arquitectura MoE de alta dispersión, se mejoraron tanto la velocidad de entrenamiento de RL como el rendimiento final
Qwen3-Next-80B-A3B-Instruct muestra un rendimiento equivalente al modelo insignia Qwen3-235B-A22B-Instruct-2507, y presenta una ventaja clara en tareas de contexto ultralargo de hasta 256K tokens
Qwen3-Next-80B-A3B-Thinking destaca en tareas complejas de razonamiento, supera a modelos más costosos como Qwen3-30B-A3B-Thinking-2507 y Qwen3-32B-Thinking, rebasa al modelo cerrado Gemini-2.5-Flash-Thinking en varios benchmarks y se acerca al rendimiento del modelo tope de gama Qwen3-235B-A22B-Thinking-2507
Qwen3-Next ya fue lanzado en Hugging Face y ModelScope, y cualquiera puede usar sus servicios a través de Alibaba Cloud Model Studio y NVIDIA API Catalog

Características principales

Arquitectura híbrida: Gated DeltaNet + Gated Attention, que aprovecha que la atención lineal rompe la complejidad cuadrática de la atención estándar y es más eficiente en contextos largos
- Se observó que la atención lineal es rápida pero tiene menor capacidad de recuperación, mientras que la atención estándar es costosa y lenta; mediante experimentos sistemáticos se confirmó que Gated DeltaNet ofrece una capacidad de aprendizaje en contexto más sólida que métodos comunes como Sliding Window Attention o Mamba2
- Al mezclar Gated DeltaNet con atención estándar en una proporción 3:1 (75% de las capas usan Gated DeltaNet y 25% conservan atención estándar), se logró un rendimiento y una eficiencia consistentemente superiores a los de una arquitectura única
- En las capas de atención estándar se adoptó un mecanismo de compuerta en la salida para reducir el problema de bajo rango de la atención, y se incrementó la dimensión por cabeza de atención de 128 a 256
- El positional encoding rotatorio se aplica solo al primer 25% de la dimensión posicional para mejorar la extrapolación hacia secuencias más largas
MoE ultradisperso: solo se activa el 3.7% de los parámetros; Qwen3-Next adopta un diseño MoE de alta dispersión en el que se activan aproximadamente 3B de los 80B parámetros totales en cada paso de inferencia
- Los experimentos muestran que, al fijar los expertos activados mediante balanceo global de carga, la pérdida de entrenamiento disminuye de forma sostenida a medida que aumenta el total de parámetros de expertos
- En comparación con el MoE de Qwen3 (128 expertos en total, enrutamiento de 8), Qwen3-Next se expande a 512 expertos en total y combina 10 expertos enrutados + 1 experto compartido para maximizar el uso de recursos sin degradar el rendimiento
Diseño orientado a la estabilidad del entrenamiento: el mecanismo de compuerta en la salida de atención elimina problemas como Attention Sink y Massive Activation, garantizando la estabilidad numérica de todo el modelo
- Se detectó que en QK-Norm usado en Qwen3 algunos pesos de normalización de ciertas capas crecían de forma anormal, por lo que Qwen3-Next adopta Zero-Centered RMSNorm y aplica weight decay a los pesos de normalización para evitar crecimiento infinito
- Los parámetros del router MoE se normalizan durante la inicialización para que cada experto sea seleccionado sin sesgo al inicio del entrenamiento, reduciendo el ruido causado por la inicialización aleatoria
- Este diseño centrado en la estabilidad vuelve más confiables los experimentos a pequeña escala y permite ejecutar entrenamiento a gran escala sin contratiempos
Predicción de múltiples tokens: Qwen3-Next introduce un mecanismo nativo de multi-token prediction (MTP), que no solo genera módulos MTP con alta tasa de aceptación para speculative decoding, sino que también mejora el rendimiento general
- Qwen3-Next optimiza especialmente el rendimiento de inferencia de múltiples pasos de MTP y, mediante entrenamiento multietapa que mantiene la consistencia entre entrenamiento e inferencia, mejora aún más la tasa de aceptación del speculative decoding en escenarios reales

Preentrenamiento

Eficiencia de preentrenamiento y velocidad de inferencia: Qwen3-Next se entrenó con un subconjunto muestreado uniformemente (15T tokens) del corpus de preentrenamiento de 36T tokens de Qwen3
- Usa menos del 80% del tiempo de GPU requerido por Qwen3-30A-3B y consume solo el 9.3% del costo computacional de Qwen3-32B, logrando mejor rendimiento y demostrando una eficiencia de entrenamiento y una relación valor-rendimiento sobresalientes
- Gracias a la arquitectura híbrida, también sobresale en inferencia, ofreciendo en la fase de prefill un rendimiento casi 7 veces mayor que Qwen3-32B con longitud de contexto de 4K
- A más de 32K, es más de 10 veces más rápido
- En la fase de decodificación muestra un rendimiento casi 4 veces mayor con contexto de 4K, y mantiene una ventaja de velocidad de más de 10 veces incluso por encima de 32K
Rendimiento del modelo base: Qwen3-Next-80B-A3B-Base supera a Qwen3-32B-Base en la mayoría de los benchmarks activando solo una décima parte de sus parámetros no embebidos, y sobrepasa ampliamente a Qwen3-30B-A3B, demostrando una eficiencia excepcional y un rendimiento sólido

Post-entrenamiento

Rendimiento del modelo Instruct: Qwen3-Next-80B-A3B-Instruct supera ampliamente a Qwen3-30B-A3B-Instruct-2507 y Qwen3-32B-Non-thinking, y logra resultados casi al nivel del modelo insignia Qwen3-235B-A22B-Instruct-2507
- En RULER, Qwen3-Next-80B-A3B-Instruct supera a Qwen3-30B-A3B-Instruct-2507, que tiene más capas de atención, en todas las longitudes, y rebasa a Qwen3-235B-A22B-Instruct-2507, que tiene más capas en total, dentro de un contexto de 256K, demostrando la fortaleza del diseño híbrido Gated DeltaNet + Gated Attention para tareas de contexto largo
Rendimiento del modelo Thinking: Qwen3-Next-80B-A3B-Thinking supera a modelos más costosos como Qwen3-30B-A3B-Thinking-2507 y Qwen3-32B-Thinking
- Supera al modelo cerrado Gemini-2.5-Flash-Thinking en varios benchmarks y se acerca al más reciente modelo insignia Qwen3-235B-A22B-Thinking-2507 en métricas clave

Desarrolla con Qwen3

Hugging Face Transformers: el código de Qwen3-Next fue integrado en la rama principal de Hugging Face transformers
- En versiones anteriores pueden producirse errores
- Se incluye un fragmento de código que ejemplifica el contenido generado por el modelo a partir de una entrada dada
- La predicción de múltiples tokens (MTP) no está disponible de forma general en Hugging Face Transformers
- Las mejoras de eficiencia o rendimiento dependen en gran medida de la implementación
- Para tareas de inferencia se recomienda adoptar frameworks dedicados de inferencia como SGLang y vLLM
- Al usar flash-linear-attention y causal-conv1d se puede observar una mejor eficiencia según la configuración de inferencia
- Consulta los enlaces correspondientes para instrucciones y requisitos detallados
- Para despliegue, usa la versión más reciente de sglang o vllm para crear un endpoint de API compatible con OpenAI
SGLang es un framework de serving rápido para modelos grandes de lenguaje y de visión-lenguaje, con el que se puede iniciar un servidor con servicio de API compatible con OpenAI
- SGLang soporta Qwen3-Next en la rama principal y puede instalarse desde el código fuente
- Se proporciona un comando para crear un endpoint de API en http://localhost:30000/v1 con longitud máxima de contexto de 256K tokens usando paralelismo tensorial en 4 GPU
- También se proporciona un comando recomendado para MTP con el resto de la configuración igual
- Actualmente se requiere la variable de entorno SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1
- La longitud de contexto predeterminada es 256K; si el arranque del servidor falla, conviene considerar reducirla a un valor menor como 32768
vLLM es un motor de inferencia y serving para LLM de alto rendimiento y eficiencia de memoria, con el que se puede iniciar un servidor con servicio de API compatible con OpenAI
- vLLM soporta Qwen3-Next en la rama principal y puede instalarse desde el código fuente
- Se proporciona un comando para crear un endpoint de API en http://localhost:8000/v1 con longitud máxima de contexto de 256K tokens usando paralelismo tensorial en 4 GPU
- También se proporciona un comando recomendado para MTP con el resto de la configuración igual
- Actualmente se requiere la variable de entorno VLLM_ALLOW_LONG_MAX_MODEL_LEN=1
- La longitud de contexto predeterminada es 256K; si el arranque del servidor falla, conviene considerar reducirla a un valor menor como 32768
Uso agentic: Qwen3 sobresale en capacidad de tool calling, y se recomienda usar Qwen-Agent para aprovechar al máximo sus capacidades de agente
- Qwen-Agent encapsula internamente plantillas de tool calling y parsers de tool calling, reduciendo en gran medida la complejidad de codificación
- Es posible usar un archivo de configuración MCP para definir las herramientas disponibles, usar las herramientas integradas de Qwen-Agent o integrar herramientas propias
Procesamiento de texto ultralargo: Qwen3-Next soporta de forma nativa una longitud de contexto máxima de 262,144 tokens
- Para conversaciones cuya longitud total, incluyendo entrada y salida, exceda ampliamente este límite, se recomienda usar técnicas de escalado de RoPE como YaRN para procesar texto largo de forma efectiva
- Se validó el rendimiento del modelo con YaRN hasta una longitud de contexto de 1 millón de tokens
- YaRN es compatible actualmente con varios frameworks de inferencia como transformers, vllm y sglang
- Existen dos enfoques para habilitar YaRN en frameworks compatibles: modificar el archivo del modelo o pasar argumentos por línea de comandos
- Agregar el campo rope_scaling en el archivo config.json
- En vllm, usar argumentos de línea de comandos
- En sglang, usar argumentos de línea de comandos
- Todos los frameworks open source destacados implementan YaRN estático, por lo que el factor de escalado permanece constante sin importar la longitud de entrada, con posible impacto en el rendimiento de textos cortos
- Se recomienda agregar la configuración rope_scaling solo cuando realmente se necesite procesamiento de contexto largo
- Se recomienda ajustar factor según sea necesario; por ejemplo, si la longitud de contexto habitual de la aplicación es de 524,288 tokens, establecer factor en 2.0

Resumen

Qwen3-Next representa un salto importante en arquitectura de modelos, al introducir innovaciones en el mecanismo de atención, incluyendo atención lineal y compuertas de atención, además de una mayor dispersión en el diseño MoE
Qwen3-Next-80B-A3B ofrece un rendimiento equivalente al de Qwen3-235B-A22B-2507, más grande, tanto en modo thinking como non-thinking, mientras brinda una inferencia considerablemente más rápida en escenarios de contexto largo
Con este lanzamiento se busca fortalecer a la comunidad open source con avances arquitectónicos de vanguardia y seguir evolucionando junto con la innovación en arquitecturas de última generación

Presentan el modelo Qwen3-Next: hacia la máxima eficiencia en entrenamiento e inferencia

Introducción

Características principales

Preentrenamiento

Post-entrenamiento

Desarrolla con Qwen3

Resumen

Lecturas relacionadas

Aún no hay comentarios.