7 puntos por GN⁺ 2026-01-27 | 1 comentarios | Compartir por WhatsApp
  • El más reciente modelo centrado en razonamiento mejora su rendimiento en varias áreas, como conocimiento factual, razonamiento complejo y alineación con preferencias humanas, mediante aprendizaje por refuerzo a gran escala y expansión de parámetros
  • En 19 benchmarks registró resultados similares o superiores en algunas áreas frente a GPT-5.2-Thinking, Claude-Opus-4.5 y Gemini 3 Pro
  • Gracias a la función de uso adaptativo de herramientas, durante la conversación puede invocar automáticamente búsqueda, memoria e intérprete de código, lo que ayuda a reducir alucinaciones y acceder a información en tiempo real
  • Con una estrategia de test-time scaling reduce cálculos repetitivos durante el razonamiento, y mejora la eficiencia mediante un mecanismo de acumulación de experiencia basado en autorreflexión
  • Está disponible de inmediato a través de Qwen Chat y la API, y es compatible con las API de OpenAI y Anthropic, lo que facilita su integración en flujos de trabajo existentes

Resumen de Qwen3-Max-Thinking

  • Qwen3-Max-Thinking es el más reciente modelo insignia de razonamiento de la serie Qwen, y amplía su rendimiento usando aprendizaje por refuerzo y recursos de cómputo a gran escala
    • Presenta mejoras en múltiples dimensiones como conocimiento factual, razonamiento complejo, seguimiento de instrucciones, alineación con preferencias humanas y capacidades de agente
    • En 19 benchmarks estándar logró un nivel de rendimiento comparable al de GPT-5.2-Thinking, Claude-Opus-4.5 y Gemini 3 Pro
  • Se fortalece con dos innovaciones principales
    • Uso adaptativo de herramientas (adaptive tool-use): invoca automáticamente búsqueda e intérprete de código cuando es necesario
    • Test-time scaling avanzado: aprovecha de forma eficiente cómputo adicional durante el razonamiento para obtener un rendimiento que supera a Gemini 3 Pro

Resumen del rendimiento en benchmarks

  • En el área de conocimiento (knowledge) obtuvo puntajes competitivos, como 85.7 en MMLU-Pro y 93.7 en C-Eval, cercanos a los de los modelos líderes
  • En STEM registró 87.4 en GPQA y 30.2 en HLE; aunque queda por debajo de algunos modelos, mantiene un rendimiento equilibrado
  • En benchmarks de razonamiento (reasoning) alcanzó valores altos, como 94.7 en HMMT Nov 25 y 85.9 en LiveCodeBench v6
  • En seguimiento de instrucciones y alineación (instruction following & alignment) logró un nivel de primer orden con 90.2 en Arena-Hard v2
  • También se observaron algunos resultados superiores frente a modelos competidores en uso de herramientas (tool use) y búsqueda agéntica (agentic search)

Función de uso adaptativo de herramientas

  • Incluso sin que el usuario seleccione herramientas manualmente, el modelo puede aprovechar automáticamente Search, Memory y Code Interpreter
    • Search y Memory reducen alucinaciones y permiten acceso a información en tiempo real y respuestas personalizadas
    • Code Interpreter ayuda a resolver problemas complejos mediante ejecución de código y razonamiento basado en cálculos
  • Estas capacidades se reforzaron mediante un proceso adicional de entrenamiento que combina retroalimentación basada en reglas y retroalimentación basada en modelos
  • Como resultado, ofrece una experiencia conversacional natural y potente

Estrategia de test-time scaling

  • Es un método para mejorar el rendimiento al distribuir cómputo adicional durante el razonamiento, y resulta más eficiente que el muestreo paralelo simple
  • El enfoque propuesto usa una estrategia multi-ronda autorreflexiva basada en acumulación de experiencia (self-reflective multi-round)
    • A través del mecanismo “take-experience” extrae las ideas clave de rondas anteriores
    • Sin repetir conclusiones ya obtenidas, se enfoca en incertidumbres no resueltas
  • Logra una mayor eficiencia de contexto con el mismo consumo de tokens
    • Mejoras: GPQA 90.3→92.8, HLE 34.1→36.5, LiveCodeBench v6 88.0→91.4, IMO-AnswerBench 89.5→91.5, HLE(w/ tools) 55.8→58.3

Desarrollo e integración de API

  • Ya está disponible en Qwen Chat, y el nombre del modelo es qwen3-max-2026-01-23
  • Puede usarse tras generar una API key a través de Alibaba Cloud Model Studio
  • Es totalmente compatible con la API de OpenAI y se proporciona código de ejemplo en Python
    • La opción enable_thinking permite activar el modo de razonamiento
  • También es compatible con el protocolo de la API de Anthropic, por lo que funciona igual en el entorno de Claude Code
    • Tras configurar las variables de entorno, puede ejecutarse con el comando claude

1 comentarios

 
GN⁺ 2026-01-27
Comentarios en Hacker News
  • Hubo una pregunta sobre una foto famosa, pero el sistema la detectó como "contenido inapropiado" y devolvió un error. El usuario se preguntaba por qué una imagen así es importante a nivel internacional

    • Parece que esto se debe a un mecanismo de seguridad separado. De hecho, cuando modelos anteriores de Qwen se ofrecían fuera de China, trataban con libertad temas relacionados con Tiananmén. Por ejemplo, Qwen3 235B A22B Instruct 2507 explica con detalle el contexto histórico de la foto de "Tank Man" e incluso la censura dentro de China. También hubo análisis que decían que esta misma censura refuerza aún más su simbolismo
    • Si es una empresa china, no sorprende que legalmente tenga que seguir la censura. Aun así, queda la duda de cómo estas restricciones afectarán áreas no políticas como el trabajo de programación. En realidad, Anthropic en EE. UU. también impone límites en forma de "alineación" para impedir actividades ilegales
    • Los LLM de EE. UU. también sufren problemas parecidos de censura. La diferencia es solo qué cosas se censuran
    • Alguien se preguntó si hay investigadores estudiando la posibilidad de insertar comportamientos maliciosos (backdoors) en los LLM. Algunos artículos dicen que incluso con unos pocos ejemplos maliciosos se puede entrenar al modelo para que reaccione a ciertas frases "gatillo". Incluso manipulando el archivo del tokenizador se podrían provocar efectos secundarios como aumentar el costo de la API o debilitar filtros de seguridad. Parece que ya es momento de discutir estos temas
    • Como estos temas a menudo desvían la conversación, también hubo quien opinó que ya sería mejor volver a los aspectos técnicos de los modelos de IA chinos
  • Últimamente surgió la curiosidad por el uso de tokens en los modelos. Mejoras como la "capacidad de razonamiento" o un mayor uso de herramientas parecen deberse más a guiar mejor al modelo usando más tokens que a una mejora del modelo en sí. O sea, no es "lograr más usando menos", sino "lograr más usando más"

    • Esto, según algunos, muestra los límites prácticos de la AGI (inteligencia artificial general). Si se necesitan demasiados recursos de cómputo, incluso con avances técnicos el mundo real podría no cambiar tanto por un tiempo. Al final, los recursos de cómputo para razonamiento podrían convertirse en el cuello de botella
    • Se le preguntó a Gemini por el consumo eléctrico frente a la búsqueda tradicional, y respondió, de forma inesperada, que la búsqueda con IA es más eficiente que la búsqueda tradicional. Además, entre los papers de arXiv recomendados por Perplexity, destacó On the Slow Death of Scaling de Sara Hooker. Ese trabajo muestra casos donde modelos pequeños superan a modelos grandes y sostiene que el progreso futuro dependerá más de innovaciones algorítmicas que de la potencia de cómputo
    • Se siente que hacen falta nuevas métricas para evaluar el progreso de los modelos. Más que solo puntajes en benchmarks, habría que considerar también uso de GPU, velocidad y costo
    • Hubo quien opinó que el concepto adecuado para explicar ese equilibrio entre eficiencia y rendimiento es la frontera de Pareto
    • También se señaló que algunos modelos muestran procesos de razonamiento muy derrochadores en tokens, por lo que en la práctica resultan ineficientes
  • Hubo curiosidad por saber por qué, con la búsqueda desactivada, rinde peor que Opus 4.5, pero al activarla rinde mejor. Alguien se preguntó si tal vez la calidad del contenido del internet chino es mejor

    • Esa conclusión parece exagerada. Es más probable que simplemente la calidad de la búsqueda y de la integración sea mejor. Como el modelo soporta varios idiomas, procesa bien sitios web de todo el mundo
    • Yo uso Kagi Assistant y me gusta porque permite filtrar para buscar solo material académico. Aun así, preocupa que algún día hasta los artículos académicos terminen contaminados por contenido generado con IA. De todos modos, hay confianza en que se encontrará una solución
    • También hubo una broma: "¿Será porque no tiene Reddit?"
  • Había curiosidad por la política de precios de los modelos Qwen. Preguntaron si Qwen Max tiene la misma tarifa y por qué el precio dentro de China es mucho más bajo
    Página de modelos de Alibaba Cloud

    • Dentro de China la guerra de precios en IA es intensa, y el gobierno está reduciendo costos de infraestructura mediante cupones de cómputo y subsidios
      Artículo relacionado
    • Probablemente también sean subsidios para apoyar a desarrolladores locales
    • El menor costo de la energía también podría ser un factor
    • Se presentó el concepto de surveillance pricing para precios que cambian según la región o condiciones de búsqueda, y se compartió este video relacionado
  • En HN, Opus 4.5 se ha visto prácticamente como el modelo estándar, y se creía que los modelos chinos iban más de 8 meses atrás. Había curiosidad por saber si este modelo cerrará esa brecha

    • Según los benchmarks publicados, todavía parece estar unos 6 meses por detrás
    • Personalmente, da la impresión de que GPT-5.2 es mejor y más barato. El sesgo hacia Claude Code en HN podría ser una racionalización de sus suscriptores. Aun así, Opus 4.5 es rápido y de alta calidad, así que su usabilidad real es excelente.
      En cambio, Gemini 3 Pro/Flash sigue estando un escalón abajo, pero comparado con el año pasado es muy rápido y barato. Al final, los benchmarks son solo una referencia y la calidad percibida en uso real es subjetiva
  • El otoño pasado se usó Qwen3-coder en un proyecto de Rust mediante el agente CLI trae, y su capacidad de generar y refactorizar código fue mejor que la de Gemini 2.5 Pro o Claude Opus 3.5.
    Incluso resolvió bien la incorporación de llamadas IPC de memoria compartida en Linux y optimizaciones SIMD para x86_64. Eso sí, usar caché de tokens y una ventana de contexto grande terminó costando varios cientos de dólares al mes

  • Como no se veía un enlace de Hugging Face, alguien preguntó si Qwen ya no está publicando modelos abiertos

    • La versión Max originalmente era un modelo cerrado
    • No todos los modelos se distribuyen con pesos abiertos, y este tampoco parece ser todavía open-weight
  • También hubo quien preguntó si está disponible en Open Router. Había expectativa por una comparación con Gemini 3 Flash
    Mafia Arena

  • Los benchmarks de LLM se sienten un poco como una entrevista para desarrolladores. Resuelven muy bien problemas complejos de algoritmos distribuidos, pero en el trabajo real hay esa brecha donde agregan un botón y se les olvida reutilizar clases de Tailwind

  • Hubo una pregunta sobre el tamaño del modelo

    • Qwen2.5 se entrenó con 18 billones de tokens, pero Qwen3 llega a 36 billones de tokens, casi el doble. Incluye 119 idiomas y dialectos
      Blog oficial