- Qwen3 es el modelo de lenguaje grande más reciente, con hasta 235B parámetros, y muestra un rendimiento competitivo frente a DeepSeek-R1, Grok-3 y Gemini-2.5-Pro
- Admite un modo de pensamiento híbrido (Thinking/Non-Thinking), lo que permite ajustar la profundidad del razonamiento según la dificultad del problema
- Admite 119 idiomas y dialectos, lo que refuerza ampliamente su utilidad global
- Fue preentrenado con 36 billones de tokens de datos, el doble que su predecesor, mejorando sus capacidades de programación, matemáticas y razonamiento lógico
- Fue publicado como open source bajo licencia Apache 2.0 y puede usarse de inmediato en Hugging Face, ModelScope y Kaggle
Introducción
- Qwen3 es el modelo de lenguaje grande más reciente de la serie Qwen, y Qwen3-235B-A22B, con 235B parámetros, es su modelo insignia principal
- El modelo pequeño MoE, Qwen3-30B-A3B, muestra un rendimiento superior al de QwQ-32B, que activa 10 veces más parámetros
- Se publicaron 6 modelos Dense (0.6B, 1.7B, 4B, 8B, 14B, 32B) y 2 modelos MoE (30B, 235B) bajo licencia Apache 2.0
Características principales
-
Modo de pensamiento híbrido
- Modo Thinking: modo que realiza razonamiento paso a paso para problemas complejos
- Modo Non-Thinking: modo que proporciona respuestas inmediatas para problemas simples que requieren rapidez
- Según la tarea, se puede ajustar el presupuesto de razonamiento para optimizar la eficiencia de costos y la calidad
-
Soporte multilingüe
- El soporte para 119 idiomas y dialectos refuerza el potencial de expansión de aplicaciones globales
- Principales familias lingüísticas compatibles: indoeuropea, sino-tibetana, afroasiática, austronesia y dravídica, entre otras
-
Funciones de agente mejoradas
- Capacidades de programación y de agente optimizadas
- Integración con Qwen-Agent para maximizar la capacidad de llamado de herramientas
Preentrenamiento
- Se realizó el preentrenamiento usando 36 billones de tokens, el doble que Qwen2.5
- Se recopilaron datos web y documentos similares a PDF para construir diversos conjuntos de datos de alta calidad
- Se reforzaron los datos de STEM, programación y matemáticas para lograr una mejora general en la capacidad de razonamiento
Postentrenamiento
- Se aplicó una pipeline de 4 etapas (inicio con CoT → aprendizaje por refuerzo → fusión de modos de pensamiento → aprendizaje por refuerzo general)
- El modelo fue optimizado para realizar al mismo tiempo razonamiento lógico y respuestas rápidas
- Se reforzaron la generalidad y la estabilidad mediante aprendizaje por refuerzo con más de 20 tareas de dominio general
Desarrollar con Qwen3
- Compatible con diversos frameworks como Hugging Face transformers, SGLang, vLLM, Ollama, LMStudio y llama.cpp
- El modo Thinking puede activarse o desactivarse fácilmente en el código, y también puede cambiarse durante la conversación con los comandos
/think y /no_think
Uso de agentes
- Con Qwen-Agent es posible construir sistemas de agentes complejos usando archivos de configuración MCP o herramientas integradas
- También es posible construir directamente un servidor compatible con la API de OpenAI para despliegue local o público
Trabajo futuro
- Qwen3 representa un hito importante hacia la inteligencia artificial general (AGI) y la superinteligencia artificial (ASI), y busca alcanzar niveles más altos de inteligencia ampliando el preentrenamiento y el aprendizaje por refuerzo
- Su objetivo es mejorar la arquitectura del modelo y la metodología de entrenamiento para avanzar en la ampliación de datos, el aumento del tamaño del modelo, la expansión de la longitud de contexto, la ampliación de modalidades y el razonamiento de largo plazo mediante retroalimentación del entorno
- Se está pasando de una era centrada en el entrenamiento de modelos a una centrada en el entrenamiento de agentes, y la próxima versión traerá avances significativos para el trabajo y la vida de todas las personas
2 comentarios
Los modelos grandes también son interesantes, pero el lado de los modelos pequeños me parece más interesante.
Parece que el modelo de 0.6B ofrece un rendimiento cercano al de unos 7B de varios otros modelos.
Opiniones de Hacker News
Se les presentó a los LLMs un problema basado en física, y era difícil incluso para humanos. GPT o3, Claude 3.7 y Gemini 2.5 Pro no acertaron la respuesta al principio. Qwen3 se equivocó aún más.
Está bien documentado y el soporte para los principales stacks de inferencia estuvo disponible desde el primer día. Hay varias opciones de tamaño. Ya han trabajado con la comunidad de quant makers.
Aún no he probado el rendimiento, pero solo la atención a los detalles del ecosistema alrededor ya lo convierte en un gran lanzamiento. Debería ser el estándar, a diferencia de Meta con Llama 4.
Los resultados de benchmark son tan buenos que cuesta creerlos. El modelo de 30B compite con Gemini 2.5 Pro y es mucho mejor que Gemma 27B.
Están apareciendo varios modelos open-weight, y me pregunto si hay alguna forma de saber cuál correrá a una velocidad razonable en una GPU de escritorio estándar. Uso una Quadro RTX 4000 y no sé cuál de los modelos de distintos tamaños será más rápido.
Puede que los modelos de Qwen y DeepSeek hayan sido entrenados para ajustarse a la visión del mundo del CCP, pero en la práctica no ha causado problemas. No hay mucha investigación al respecto.
El que más espero es Qwen-30B-A3B. Parece ideal como asistente de código offline/local. Hasta ahora, los modelos open-weight o rendían mal o eran demasiado lentos.
Estoy buscando ideas sobre la mejor forma de comparar modelos de razonamiento. Se recomienda usar temperatura alta para respuestas creativas y baja para salidas lógicas y deterministas. Pero no estoy seguro de si eso aplica a los modelos de razonamiento.
Es interesante que el LLM de 0.6B tenga una ventana de contexto de 32k. Podría ser un modelo base divertido para ajuste fino. Es el más descargado y con más likes en Hugging Face.
Estos modelos parecen pensar mucho. Los benchmarks se ejecutaron con un presupuesto de pensamiento de 32k tokens. A3B en particular supera a QWQ y podría ser útil para inferencia en CPU.
Las cifras de rendimiento son muy impresionantes. El MoE supera a o1 con 3B de parámetros activos. Los modelos locales están mejorando lo suficiente como para encargarse de la mayoría de las tareas.