3 puntos por GN⁺ 2025-09-13 | 1 comentarios | Compartir por WhatsApp
  • Qwen3-Next es una nueva arquitectura de modelo desarrollada para respaldar la expansión de la longitud de contexto y el aumento del total de parámetros, tendencias futuras de los modelos a gran escala, y ofrece funciones para maximizar la eficiencia de entrenamiento e inferencia
  • Introduce un mecanismo de atención híbrida y una estructura MoE altamente dispersa para mejorar el rendimiento en contextos largos y configuraciones con gran cantidad de parámetros
  • Acelera la velocidad de inferencia mediante optimización de la estabilidad del entrenamiento y un mecanismo de predicción de múltiples tokens
  • El modelo Qwen3-Next-80B-A3B-Base logra un rendimiento equivalente o superior al modelo Qwen3-32B mientras reduce el costo de entrenamiento a menos del 10%
  • El lanzamiento de este modelo aporta avances arquitectónicos de vanguardia a la comunidad open source y sienta las bases para mejoras en inteligencia y productividad que conduzcan al desarrollo de Qwen3.5

Introducción

  • Partiendo de la convicción de que la expansión de la longitud de contexto y el aumento del total de parámetros son tendencias clave en los modelos a gran escala del futuro, se diseñó una nueva arquitectura llamada Qwen3-Next para mejorar la eficiencia de entrenamiento e inferencia en contextos largos y configuraciones con muchos parámetros
  • En comparación con la estructura MoE de Qwen3, se introdujeron varias mejoras clave, como un mecanismo de atención híbrida, una estructura MoE altamente dispersa, optimización de la estabilidad del entrenamiento y un mecanismo de predicción de múltiples tokens para una inferencia más rápida
  • Sobre esta arquitectura se entrenó el modelo Qwen3-Next-80B-A3B-Base, que cuenta con 80 mil millones de parámetros y activa solo 3 mil millones durante la inferencia
  • Este modelo base alcanza un rendimiento equivalente o ligeramente superior al modelo denso Qwen3-32B, usando menos del 10% del costo de entrenamiento (tiempo de GPU)
  • En particular, ofrece un rendimiento superior en más de 10 veces para longitudes de contexto mayores a 32K tokens, logrando eficiencia extrema tanto en entrenamiento como en inferencia
  • A partir de Qwen3-Next-80B-A3B-Base se desarrollaron y lanzaron dos versiones de post-entrenamiento: Qwen3-Next-80B-A3B-Instruct y Qwen3-Next-80B-A3B-Thinking
  • Al resolver problemas históricos de estabilidad y eficiencia en el entrenamiento con aprendizaje por refuerzo (RL) causados por la atención híbrida y la arquitectura MoE de alta dispersión, se mejoraron tanto la velocidad de entrenamiento de RL como el rendimiento final
  • Qwen3-Next-80B-A3B-Instruct muestra un rendimiento equivalente al modelo insignia Qwen3-235B-A22B-Instruct-2507, y presenta una ventaja clara en tareas de contexto ultralargo de hasta 256K tokens
  • Qwen3-Next-80B-A3B-Thinking destaca en tareas complejas de razonamiento, supera a modelos más costosos como Qwen3-30B-A3B-Thinking-2507 y Qwen3-32B-Thinking, rebasa al modelo cerrado Gemini-2.5-Flash-Thinking en varios benchmarks y se acerca al rendimiento del modelo tope de gama Qwen3-235B-A22B-Thinking-2507
  • Qwen3-Next ya fue lanzado en Hugging Face y ModelScope, y cualquiera puede usar sus servicios a través de Alibaba Cloud Model Studio y NVIDIA API Catalog

Características principales

  • Arquitectura híbrida: Gated DeltaNet + Gated Attention, que aprovecha que la atención lineal rompe la complejidad cuadrática de la atención estándar y es más eficiente en contextos largos
    • Se observó que la atención lineal es rápida pero tiene menor capacidad de recuperación, mientras que la atención estándar es costosa y lenta; mediante experimentos sistemáticos se confirmó que Gated DeltaNet ofrece una capacidad de aprendizaje en contexto más sólida que métodos comunes como Sliding Window Attention o Mamba2
    • Al mezclar Gated DeltaNet con atención estándar en una proporción 3:1 (75% de las capas usan Gated DeltaNet y 25% conservan atención estándar), se logró un rendimiento y una eficiencia consistentemente superiores a los de una arquitectura única
    • En las capas de atención estándar se adoptó un mecanismo de compuerta en la salida para reducir el problema de bajo rango de la atención, y se incrementó la dimensión por cabeza de atención de 128 a 256
    • El positional encoding rotatorio se aplica solo al primer 25% de la dimensión posicional para mejorar la extrapolación hacia secuencias más largas
  • MoE ultradisperso: solo se activa el 3.7% de los parámetros; Qwen3-Next adopta un diseño MoE de alta dispersión en el que se activan aproximadamente 3B de los 80B parámetros totales en cada paso de inferencia
    • Los experimentos muestran que, al fijar los expertos activados mediante balanceo global de carga, la pérdida de entrenamiento disminuye de forma sostenida a medida que aumenta el total de parámetros de expertos
    • En comparación con el MoE de Qwen3 (128 expertos en total, enrutamiento de 8), Qwen3-Next se expande a 512 expertos en total y combina 10 expertos enrutados + 1 experto compartido para maximizar el uso de recursos sin degradar el rendimiento
  • Diseño orientado a la estabilidad del entrenamiento: el mecanismo de compuerta en la salida de atención elimina problemas como Attention Sink y Massive Activation, garantizando la estabilidad numérica de todo el modelo
    • Se detectó que en QK-Norm usado en Qwen3 algunos pesos de normalización de ciertas capas crecían de forma anormal, por lo que Qwen3-Next adopta Zero-Centered RMSNorm y aplica weight decay a los pesos de normalización para evitar crecimiento infinito
    • Los parámetros del router MoE se normalizan durante la inicialización para que cada experto sea seleccionado sin sesgo al inicio del entrenamiento, reduciendo el ruido causado por la inicialización aleatoria
    • Este diseño centrado en la estabilidad vuelve más confiables los experimentos a pequeña escala y permite ejecutar entrenamiento a gran escala sin contratiempos
  • Predicción de múltiples tokens: Qwen3-Next introduce un mecanismo nativo de multi-token prediction (MTP), que no solo genera módulos MTP con alta tasa de aceptación para speculative decoding, sino que también mejora el rendimiento general
    • Qwen3-Next optimiza especialmente el rendimiento de inferencia de múltiples pasos de MTP y, mediante entrenamiento multietapa que mantiene la consistencia entre entrenamiento e inferencia, mejora aún más la tasa de aceptación del speculative decoding en escenarios reales

Preentrenamiento

  • Eficiencia de preentrenamiento y velocidad de inferencia: Qwen3-Next se entrenó con un subconjunto muestreado uniformemente (15T tokens) del corpus de preentrenamiento de 36T tokens de Qwen3
    • Usa menos del 80% del tiempo de GPU requerido por Qwen3-30A-3B y consume solo el 9.3% del costo computacional de Qwen3-32B, logrando mejor rendimiento y demostrando una eficiencia de entrenamiento y una relación valor-rendimiento sobresalientes
    • Gracias a la arquitectura híbrida, también sobresale en inferencia, ofreciendo en la fase de prefill un rendimiento casi 7 veces mayor que Qwen3-32B con longitud de contexto de 4K
    • A más de 32K, es más de 10 veces más rápido
    • En la fase de decodificación muestra un rendimiento casi 4 veces mayor con contexto de 4K, y mantiene una ventaja de velocidad de más de 10 veces incluso por encima de 32K
  • Rendimiento del modelo base: Qwen3-Next-80B-A3B-Base supera a Qwen3-32B-Base en la mayoría de los benchmarks activando solo una décima parte de sus parámetros no embebidos, y sobrepasa ampliamente a Qwen3-30B-A3B, demostrando una eficiencia excepcional y un rendimiento sólido

Post-entrenamiento

  • Rendimiento del modelo Instruct: Qwen3-Next-80B-A3B-Instruct supera ampliamente a Qwen3-30B-A3B-Instruct-2507 y Qwen3-32B-Non-thinking, y logra resultados casi al nivel del modelo insignia Qwen3-235B-A22B-Instruct-2507
    • En RULER, Qwen3-Next-80B-A3B-Instruct supera a Qwen3-30B-A3B-Instruct-2507, que tiene más capas de atención, en todas las longitudes, y rebasa a Qwen3-235B-A22B-Instruct-2507, que tiene más capas en total, dentro de un contexto de 256K, demostrando la fortaleza del diseño híbrido Gated DeltaNet + Gated Attention para tareas de contexto largo
  • Rendimiento del modelo Thinking: Qwen3-Next-80B-A3B-Thinking supera a modelos más costosos como Qwen3-30B-A3B-Thinking-2507 y Qwen3-32B-Thinking
    • Supera al modelo cerrado Gemini-2.5-Flash-Thinking en varios benchmarks y se acerca al más reciente modelo insignia Qwen3-235B-A22B-Thinking-2507 en métricas clave

Desarrolla con Qwen3

  • Hugging Face Transformers: el código de Qwen3-Next fue integrado en la rama principal de Hugging Face transformers
    • En versiones anteriores pueden producirse errores
    • Se incluye un fragmento de código que ejemplifica el contenido generado por el modelo a partir de una entrada dada
    • La predicción de múltiples tokens (MTP) no está disponible de forma general en Hugging Face Transformers
    • Las mejoras de eficiencia o rendimiento dependen en gran medida de la implementación
    • Para tareas de inferencia se recomienda adoptar frameworks dedicados de inferencia como SGLang y vLLM
    • Al usar flash-linear-attention y causal-conv1d se puede observar una mejor eficiencia según la configuración de inferencia
    • Consulta los enlaces correspondientes para instrucciones y requisitos detallados
    • Para despliegue, usa la versión más reciente de sglang o vllm para crear un endpoint de API compatible con OpenAI
  • SGLang es un framework de serving rápido para modelos grandes de lenguaje y de visión-lenguaje, con el que se puede iniciar un servidor con servicio de API compatible con OpenAI
    • SGLang soporta Qwen3-Next en la rama principal y puede instalarse desde el código fuente
    • Se proporciona un comando para crear un endpoint de API en http://localhost:30000/v1 con longitud máxima de contexto de 256K tokens usando paralelismo tensorial en 4 GPU
    • También se proporciona un comando recomendado para MTP con el resto de la configuración igual
    • Actualmente se requiere la variable de entorno SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1
    • La longitud de contexto predeterminada es 256K; si el arranque del servidor falla, conviene considerar reducirla a un valor menor como 32768
  • vLLM es un motor de inferencia y serving para LLM de alto rendimiento y eficiencia de memoria, con el que se puede iniciar un servidor con servicio de API compatible con OpenAI
    • vLLM soporta Qwen3-Next en la rama principal y puede instalarse desde el código fuente
    • Se proporciona un comando para crear un endpoint de API en http://localhost:8000/v1 con longitud máxima de contexto de 256K tokens usando paralelismo tensorial en 4 GPU
    • También se proporciona un comando recomendado para MTP con el resto de la configuración igual
    • Actualmente se requiere la variable de entorno VLLM_ALLOW_LONG_MAX_MODEL_LEN=1
    • La longitud de contexto predeterminada es 256K; si el arranque del servidor falla, conviene considerar reducirla a un valor menor como 32768
  • Uso agentic: Qwen3 sobresale en capacidad de tool calling, y se recomienda usar Qwen-Agent para aprovechar al máximo sus capacidades de agente
    • Qwen-Agent encapsula internamente plantillas de tool calling y parsers de tool calling, reduciendo en gran medida la complejidad de codificación
    • Es posible usar un archivo de configuración MCP para definir las herramientas disponibles, usar las herramientas integradas de Qwen-Agent o integrar herramientas propias
  • Procesamiento de texto ultralargo: Qwen3-Next soporta de forma nativa una longitud de contexto máxima de 262,144 tokens
    • Para conversaciones cuya longitud total, incluyendo entrada y salida, exceda ampliamente este límite, se recomienda usar técnicas de escalado de RoPE como YaRN para procesar texto largo de forma efectiva
    • Se validó el rendimiento del modelo con YaRN hasta una longitud de contexto de 1 millón de tokens
    • YaRN es compatible actualmente con varios frameworks de inferencia como transformers, vllm y sglang
    • Existen dos enfoques para habilitar YaRN en frameworks compatibles: modificar el archivo del modelo o pasar argumentos por línea de comandos
    • Agregar el campo rope_scaling en el archivo config.json
    • En vllm, usar argumentos de línea de comandos
    • En sglang, usar argumentos de línea de comandos
    • Todos los frameworks open source destacados implementan YaRN estático, por lo que el factor de escalado permanece constante sin importar la longitud de entrada, con posible impacto en el rendimiento de textos cortos
    • Se recomienda agregar la configuración rope_scaling solo cuando realmente se necesite procesamiento de contexto largo
    • Se recomienda ajustar factor según sea necesario; por ejemplo, si la longitud de contexto habitual de la aplicación es de 524,288 tokens, establecer factor en 2.0

Resumen

  • Qwen3-Next representa un salto importante en arquitectura de modelos, al introducir innovaciones en el mecanismo de atención, incluyendo atención lineal y compuertas de atención, además de una mayor dispersión en el diseño MoE
  • Qwen3-Next-80B-A3B ofrece un rendimiento equivalente al de Qwen3-235B-A22B-2507, más grande, tanto en modo thinking como non-thinking, mientras brinda una inferencia considerablemente más rápida en escenarios de contexto largo
  • Con este lanzamiento se busca fortalecer a la comunidad open source con avances arquitectónicos de vanguardia y seguir evolucionando junto con la innovación en arquitecturas de última generación

1 comentarios

 
GN⁺ 2025-09-13
Comentarios en Hacker News
  • Lo más genial de Qwen3-Next es que introduce MTP (Multi-Token Prediction) después de linear attention sin añadir una matriz extra de un-embedding. Deepseek R1 también aplica MTP en la capa 61, pero agrega tensores grandes como embed_tokens y shared_head.head (de unos 2 GB en FP8), así que Qwen3-Next maneja MTP con muchos menos parámetros activos y ahorra memoria a escala de GB. Gracias a eso, la velocidad de inferencia mejora bastante.
    • Me da curiosidad qué ventaja real aporta MTP durante la inferencia; quiero saber si solo está relacionado con la eficiencia del pretraining.
    • Quiero entender cuál es la diferencia entre MTP y los Medusa heads, y también si este modelo soporta speculative decoding de forma “nativa”. Si corro este modelo en vllm, ¿ya viene con MTP aplicado y puedo aprovechar de inmediato las ventajas del speculative decoding?
    • Si alguien tiene un recurso que explique todos estos términos de forma clara y fácil de entender de una sola vez, sería genial.
  • Alibaba de verdad sigue sacando modelos sorprendentes. Probé Qwen3-Next-80B-A3B en Qwen Chat y es rapidísimo; en calidad también parece parecido a Qwen3-235B-A22B. Impresiona cómo lograron este nivel. También espero que los benchmarks aparezcan en Artificial Analysis. Según Qwen Chat, los límites de Qwen3-Next son un máximo de 262,144 tokens de contexto y hasta 32,768 tokens para generación de resúmenes. Frente a Qwen3-235B-A22B, eso es 2x en contexto y 4x en resumen. Su fuerte está en entender contextos largos y manejar tareas complejas. Aun así, yo voy a seguir usando Qwen2.5-Turbo. Es de los pocos modelos que soportan contexto de 1M de tokens, así que encaja mejor con mi caso de uso, donde subo PDFs grandes y hago preguntas entre capítulos.
    • Aunque los modelos frontier digan que soportan contexto largo, en la práctica parece que la precisión cae mucho conforme crece la longitud del contexto. Aunque digan que soportan 10M de contexto, si realmente llenas ese contexto al máximo no funcionan bien. Me gustaría saber qué opinan otros.
    • Viendo un poco la model card, Qwen3-Next también puede ampliarse hasta 1M de longitud de contexto usando YaRN. Según el texto oficial, Qwen3-Next soporta de forma nativa hasta 262,144 tokens de contexto y, cuando la suma de tokens de entrada + salida supera eso por bastante, se verificó que puede procesar hasta 1M de tokens mediante RoPE scaling o el método YaRN. Fuente
    • Los modelos propietarios de Alibaba también rinden muy bien y curiosamente no son tan conocidos. Casi no aparecen en benchmarks. Qwen3-coder-plus es muchísimo mejor que qwen3 open source, y Qwen3 max está al nivel de modelos SOTA.
    • Me da curiosidad cómo preparas los datos PDF antes de meterlos en Qwen.
  • Le pedí con el comando llm a Qwen3-Next-80B-A3B-Thinking un “ASCII de spongebob” y salió una forma muy básica. En cambio, con Qwen3-Coder-480B-A35B-Instruct se generó un Spongebob ASCII mucho más logrado. Cuando hice varias pruebas por la noche, muchos ASCII de Qwen3-coder salían sin las piernas u otros detalles finales, pero en la mañana, con el mismo prompt, salió perfecto al primer intento. Me pregunté si la ocupación o el estado de los recursos (servidor, API) afecta la calidad de la respuesta, o si es pura suerte. Lo volví a intentar unos minutos después y falló, así que probablemente sea algo como 1 de cada 10 intentos, y en Qwen3-next casi nunca sale.
    • Se siente como si el modelo tuviera memorizado completo el ASCII de SpongeBob.
    • Creo que hay distillation o datos de entrenamiento compartidos entre Kimi K2 y Qwen Coder (o algún otro modelo relacionado). He usado la mayoría de los LLM, pero solo en Kimi K2 me salió exactamente el mismo SpongeBob ASCII que en Qwen3-coder. Al usar kimi K2 también se genera exactamente el mismo SpongeBob ASCII.
    • La prueba del SpongeBob ASCII viene de las redes oficiales de Qwen y en realidad es una probe para medir memoria por repetición inyectada (rote memorization). Un modelo dense grande puede memorizarlo completo por capacidad de parámetros, pero en la arquitectura sparse-MoE de Qwen3 inevitablemente se añade ruido por selección de experts, token sampling y otras cosas, así que la alineación detallada del dibujo se rompe con más facilidad. Además, se le suman estructuras nuevas como gated-attention y multi-token head, por lo que una sola mala ruta de expert puede desacomodar el dibujo. Y Qwen3-coder fue entrenado específicamente para esto, así que la comparación termina siendo injusta. También comparé los resultados ASCII de otros modelos de la familia Qwen3 y salen bastante distintos entre sí.
  • Gracias a Qwen, sorprende ver hasta dónde ha llegado MoE. Qwen3-Next supera claramente al modelo dense anterior de 72B y, si haces buen offload de VRAM y CPU, corre incluso más rápido que un modelo de 14B. Ese nivel de eficiencia es impresionante.
    • No es que Qwen esté impulsando el avance de los LLM; los LLM SOTA ya son MoE desde GPT-4. Da pena que HN vaya tan atrás en tendencias que en temas de IA terminen abundando comentarios inútiles.
    • Viéndolo en retrospectiva, hasta da risa que el año pasado Meta gastara tantos recursos entrenando un modelo dense de 405B. El modelo es enorme y aun así rinde peor que modelos de una décima parte de su tamaño, y en la práctica no se puede correr a una velocidad útil en ningún hardware realista.
  • Agregué Qwen3 Next al open round del Brokk Power Ranking (benchmark de coding). En rendimiento anda parecido a GPT-OSS-20b. Los resultados completos de rendimiento de modelos open source pueden verse aquí.
    • Sería un benchmark mucho más útil si agregaran más lenguajes. Por ahora solo evalúa Java, pero en la vida real yo uso sobre todo otros lenguajes, así que los resultados del benchmark no coinciden con mi experiencia.
    • Me pregunto si el Kimi K2 registrado es la versión más reciente o una versión anterior de Kimi K2.
  • Oracle pronosticó esta semana que la demanda de datacenters va a dispararse y la acción está subiendo. Si de verdad la eficiencia de los LLM mejora 10x, podría bajar la demanda de Nvidia, Oracle, Coreweave y similares.
    • Creo que aquí hay que pensar en fenómenos económicos como la paradoja de Jevons.
    • Independientemente de la proyección de Oracle, no creo que una mejora en eficiencia se traduzca automáticamente en menos demanda. Como en la paradoja de Jevons, podría pasar que al aumentar la eficiencia simplemente se use más.
    • Se dijo lo mismo con deepseek-r1, pero la realidad no cambió. Si haces un modelo 10x más eficiente, todos simplemente intentarán entrenar modelos 10x más grandes. Los actores no se van a detener en algún punto y decir “con este tamaño ya basta”, siempre que el scaling siga impactando el rendimiento.
    • Para nada. El comportamiento del mercado muestra que la gente siempre está dispuesta a pagar por la máxima calidad, y los precios en general se mantienen. Cuando sale un modelo nuevo, los modelos viejos de menor calidad (y más baratos) quedan abandonados enseguida, y la gente solo busca un modelo mejor por el mismo precio. Esta vez probablemente pase algo parecido.
    • Si la burbuja de la IA revienta y sobran datacenters y GPUs, me pregunto qué forma habría de aprovechar eso para obtener beneficios de inversión.
  • Si te interesa Gated Delta Network, aquí está el paper enlace a arxiv.
    • El paper sobre Gated Attention puede consultarse aquí.
  • Qwen3-Next se ve bastante impresionante, y creo que mejores arquitecturas van a impulsar la innovación de aquí en adelante. No da la impresión de que necesariamente hagan falta más de 100B de parámetros, como en GPT OSS 120B.
    • Definitivamente, más parámetros es mejor. Los modelos con menos parámetros alucinan más. Aunque, si los parámetros activos son pocos y el routing es bueno, tal vez sí funcione.
    • La nueva arquitectura está genial y también sorprende que la publiquen abierta desde el principio. Aun así, los modelos de la familia Qwen tienden bastante al overfitting. Muchas veces solo son buenos en tareas específicas y tienen límites de generalización frente a modelos cerrados. No sé si sea solo un tema de escala o si también influyen diferencias en la receta o método de entrenamiento. Si los pruebas en OOD (out-of-distribution), su valor cae rápido, mientras que los modelos cerrados todavía mantienen ventajas.
  • Predicción: en los próximos 4 años, la IA va a estar disponible como un bien genérico, fácilmente accesible para cualquiera, a un nivel 15 puntos de IQ por encima de los modelos SOTA actuales (además con contextos mucho más largos). En ese punto, cuando las mejoras del entrenamiento con synthetic data lleguen a su límite (después de haber agotado ya los datos “reales”), los modelos open source se entrenarán barato usando salidas de modelos de gran capital. Después de eso, el progreso de la IA se va a estancar hasta que aparezca una forma de entrenar inteligencia general mediante competitive reinforcement learning (como se entrenó AlphaGo). Cuando llegue ese método, ya no hará falta una cantidad masiva de datos de entrenamiento y aparecerá la verdadera AGI.
    • No entiendo eso de que ya “agotamos los datos reales”. Todos los días salen nuevos conocimientos, artículos científicos y videos en internet; no entiendo cómo podría agotarse la data.
    • Si los modelos de punta actuales están alrededor de un IQ humano de 120 (no sé si sea correcto, pero supongamos que sí con base en esto), entonces en el futuro van a aparecer en masa bots de hiperfoco en nivel 135 IQ. Cuesta siquiera imaginar qué significaría eso en la práctica.
  • Aunque es un modelo de 80B, últimamente yo estoy más pendiente de modelos de 32B o menos que corran cómodamente en una MacBook Pro (M4, 64GB). Uso ollama todos los días para filtrar spam; gemma3:27b es excelente y gpt-oss:20b lo uso seguido porque además es rápido.
    • Estaría bueno que explicaras con más detalle cómo estás usando Ollama para filtrar spam.
    • El modelo tiene 80B de parámetros totales, pero durante la inferencia solo se activan unos 3B. Estoy corriendo sin problema el antiguo Qwen3 30B 2507 en una Nvidia de 8GB.
    • Como es una arquitectura MoE, debería correr muy bien.