Presentan el modelo Qwen3-VL: visión más aguda, razonamiento más profundo y ejecución más amplia

(qwen.ai)

6 puntos por GN⁺ 2025-09-26 | 2 comentarios | Compartir por WhatsApp

Qwen3-VL es la generación más reciente de modelos multimodales de visión y lenguaje, y ofrece un mejor rendimiento en comprensión y generación de texto, reconocimiento de video, razonamiento espacial y comprensión de contexto largo en todas las áreas
El modelo principal Qwen3-VL-235B-A22B se publica en versiones Instruct y Thinking, y cada una logra resultados de vanguardia en reconocimiento visual y razonamiento multimodal, respectivamente
El modelo refuerza diversas capacidades de uso real, como funciones de agente, codificación visual, razonamiento espacial 2D/3D, y comprensión de textos extensos y videos largos
Amplía su alcance de soporte hasta OCR en 32 idiomas, comprensión de documentos complejos y procesamiento de múltiples imágenes y video, por lo que resulta adecuado tanto para usos cotidianos como profesionales
Se espera que esto proporcione a la comunidad open source una base multimodal del más alto nivel y acelere la resolución de problemas del mundo real y el avance de los agentes de IA

Introducción a Qwen3-VL

Qwen3-VL es un modelo de IA multimodal de última generación desarrollado por QwenTeam, caracterizado por procesar y comprender de forma integral diversos tipos de datos como imágenes, texto, tablas, documentos, fórmulas y gráficos

Características principales

Funciones de agente visual: puede realizar reconocimiento de GUI, clics en botones y llamadas a herramientas, lo que permite automatizar tareas en entornos de computadora y móviles
Rendimiento de texto mejorado: gracias al aprendizaje simultáneo de texto y visión desde etapas tempranas, logra una potente capacidad de procesamiento de texto al nivel de un modelo monolingüe
Codificación visual: convierte imágenes de diseño en código HTML, CSS y JavaScript, haciendo realidad el concepto de “programar lo que ves”
Comprensión espacial: se expande de coordenadas absolutas 2D a coordenadas relativas y también admite grounding 3D, sentando bases para robótica y conducción autónoma
Procesamiento de contexto largo y videos extensos: admite 256K tokens de forma predeterminada, puede ampliarse hasta 1 millón de tokens y puede recordar y recuperar con precisión videos de 2 horas
Optimización para razonamiento (versión Thinking): destaca en resolución de problemas de matemáticas y STEM, y logra los mejores resultados en benchmarks como MathVision, MMMU y MathVista

Evaluación de rendimiento

Versión Instruct: obtiene rendimiento de reconocimiento visual superior al de modelos cerrados líderes como Gemini 2.5 Pro y GPT-5
Versión Thinking: alcanza resultados de nivel mundial en razonamiento multimodal de matemáticas y ciencias, y en particular supera a Gemini 2.5 Pro en MathVision
Tareas centradas en texto: ofrece un rendimiento equivalente al de Qwen3-235B-A22B-2507
Prueba de video de larga duración: demuestra alta estabilidad con 99.5% de precisión incluso con entradas de 1 millón de tokens
OCR multilingüe: alcanza más de 70% de precisión en 32 de 39 idiomas

Mejoras de arquitectura

Interleaved-MRoPE: refuerza la comprensión de videos largos al distribuir de forma intercalada las dimensiones de tiempo, altura y ancho
DeepStack: mejora el alineamiento preciso entre texto e imagen mediante la fusión de características de múltiples capas de ViT
Alineación texto-timestamp: empareja con precisión la información temporal a nivel de frame con el contenido visual, mejorando la detección de eventos y acciones

Capacidades del modelo

Agente para operar smartphones y PC: automatiza la apertura de apps, clics en botones y llenado de formularios
Razonamiento basado en imágenes: permite análisis complejos combinados con llamadas a herramientas
Soporte para desarrollo frontend: conversión de boceto a página web y depuración de UI
Detección de objetos 2D/3D: genera cientos de cajas de detección y estima profundidad
Reconocimiento general: reconoce celebridades, marcas, plantas, animales y personajes de animación
Soporte creativo: storytelling basado en imágenes, copywriting y generación de guiones de video
Resolución de problemas STEM: razonamiento paso a paso, análisis causal y resolución de problemas científicos
Seguimiento de instrucciones complejas: también procesa condiciones de varios pasos y solicitudes estructuradas
Comprensión de documentos: interpreta PDFs extensos, layouts web y admite el formato QwenVL Markdown
Conversación con múltiples imágenes: compara y relaciona varias imágenes manteniendo el contexto
Comprensión de video: admite desde detección de eventos en videos largos hasta generación de código

Conclusión

Qwen3-VL es un modelo multimodal open source que supera a modelos cerrados, con avances integrales que abarcan desde reconocimiento hasta razonamiento y ejecución
Más que simple reconocimiento visual, se posiciona como un modelo expandido hacia comprensión del mundo, razonamiento y acción, y proporciona una base para el uso de agentes en entornos reales

2 comentarios

crawler 2025-09-26

Me parecía impresionante que en un video promocional de Gemini de hace ni medio año mostraran que solo con saber quién ganó una competencia de atletismo y a quién rebasó ya era algo notable.

> Incluso puede recordar y buscar con precisión videos de 2 horas

Tengo mucha curiosidad por saber qué es exactamente lo que recuerda.

GN⁺ 2025-09-26

Opiniones de Hacker News

Como mencioné ayer, recientemente tuve que procesar varios cientos de imágenes de baja calidad de facturas para proyectos de construcción. Originalmente corrí un script que usaba PIL/opencv, pytesseract y OpenAI, pero fallaba demasiado. Hoy probé con Qwen en algunas facturas de calidad verdaderamente pésima y extrajo sin problema toda la información que necesitaba. Lo más sorprendente es que incluso da información de bound box que se puede usar para mejorar tesseract
- Si necesitas hacer algo parecido, también recomiendo la Printed Text Recognition API de Microsoft
- Tengo curiosidad por saber por qué elegiste Qwen. Mistral tiene un modelo especializado que promocionaron específicamente para OCR, y cuando lo probé en libros antiguos en inglés (de los 80 y 90) funcionó bastante bien
- Me gusta probar este tipo de modelos leyendo capturas de pantalla de juegos de Apple ][ de los 80. Es un área de muy baja resolución y alta densidad donde la mayoría de los modelos open source tienen dificultades
- Yo también intenté estimar bound boxes de límites de terrenos en imágenes de mapas satelitales con un modelo VLLM, pero no obtuve resultados. Me pregunto si hay algún consejo para lograr mejores resultados
- Yo también intenté detectar el layout del escaneo para mejorar el rendimiento de OCR, pero al final un Qwen 2.5 VLM 7B fine-tuneado funcionó mejor. Creo que la respuesta está en el fine-tuning
China está haciendo esto de tomar tecnología clave y repetir optimizaciones 10x en costo/eficiencia, como hizo en manufactura. De verdad es impresionante. Es un modelo famoso en benchmarks, pero hoy sí me da la impresión de ser un candidato open source SOTA. Incluso hoy publicaron un modelo cerrado de 1 billón de parámetros que quedó en 3er lugar en lm arena, y el modelo de 80GB quedó en 17º, mientras que gpt-oss 120b está en 52º
Enlace relacionado
- Las descripciones, nombres de producto y distinciones de versión siguen siendo poco claras. Sé que Qwen3-VL Plus (modelo nuevo) y Qwen3-VL 235B (otro modelo) son completamente distintos aunque sus nombres se parezcan, pero la información es tan ambigua que no queda claro cuál es mejor. Solo por el naming tampoco se entiende la diferencia entre Qwen-Plus-2025-09-11 y qwen3-235b-a22b-instruct-2507. Lo están comunicando peor que OpenAI
  Qwen3-VL Plus
  Qwen3-VL-235B
  qwen-plus-2025-09-11
  qwen3-235b-a22b-instruct-2507
- Decir que “solo optimizan” no es correcto. El equipo de Qwen incluso propone ideas nuevas como DeepStack
  Paper de DeepStack
  Y en vez de agruparlo todo bajo “los chinos”, creo que corresponde darle el mérito al propio equipo de Qwen. En todos los países del mundo hay laboratorios excelentes y laboratorios promedio
- Curiosamente, modelos como Kimi K2 se sienten mucho más naturales al generar texto que los modelos estadounidenses. En benchmarks no llegan a SOTA, pero la experiencia real de uso es distinta
- Antes Estados Unidos también se enfocaba en este tipo de optimización, pero en los últimos 10 a 15 años el ambiente ha sido cada vez más de meter más recursos y dejar de lado la optimización. Por ejemplo, agregar más RAM para apps web progresivas, cambiar a CPU más potentes o conseguir más energía. En el fondo, siento que el problema es no aplicar en el trabajo real lo que se aprende en cursos universitarios de algoritmos. En cambio, China sí lo está poniendo en práctica y eso hace que Estados Unidos se vea aún más ridículo
Si estás en San Francisco, no deberías perder la oportunidad de asistir al primer evento oficial del equipo de Qwen en EE. UU. El vicepresidente de Qwen Lab va a presentar en persona en SF teach week
Enlace del evento
Es una oportunidad poco común para interactuar directamente con miembros del equipo de Qwen
- Ya se llenó el cupo ;-(
- Con los problemas actuales para conseguir visas, entrar a Estados Unidos hoy en día puede ser un 50:50, así que espero que logren llegar sin problemas
Lo clave de este anuncio de Qwen es que lograron rendimiento multimodal SOTA por encima de modelos propietarios (cerrados) y aun así liberaron los pesos del modelo. En mis pruebas iniciales, parece que realmente es así, y pienso seguir probándolo. Impresionante
- La mayoría de las implementaciones de entrada multimodal suelen tener bajo rendimiento. Tampoco diría que Qwen esté muy por delante de las soluciones comerciales conocidas hasta ahora, pero igual se agradece el intento de publicar resultados así. Crear un modelo donde la entrada multimodal funcione tan bien no es nada fácil
- La verdad, siento que los modelos open source siempre tienden a afirmar que están “a la altura del SOTA comercial”, sin importar su tamaño
Siendo realistas, el modelo Qwen3-VL de 235B parámetros (FP16) parece requerir al menos 512GB de RAM. Supongo que podría necesitar aún más para cubrir un context window razonable. Asumiendo que no se va a correr en CPU, me gustaría saber si hay alguna forma de ejecutarlo en casa con un presupuesto menor a 10 mil dólares. Y si la única opción es CPU, quisiera saber si lo mejor sería vLLM + varias máquinas conectadas en red (10/25/100Gbit), o si existe alguna alternativa mejor
- Un Apple Mac Studio con 512GB de memoria unificada cuesta alrededor de 10 mil dólares. Si de verdad necesitas ese nivel de potencia en casa y te lo puedes permitir, esa es la opción más simple.
  No hace falta correrlo obligatoriamente en FP16. La mayoría de las veces puedes cuantizar hasta q8 con casi nada de pérdida de calidad, e incluso en q4 o menos puede seguir funcionando con poca degradación. Aun así, q8 requiere 235GB de RAM, así que con RTX 5090 (32GB de VRAM) necesitarías 8, y el precio tampoco sería bajo. También hay que considerar motherboard, CPU y la distribución para 8 GPU. Podrías intentar conseguir un servidor de minería usado con RTX 3090 viejas o P40, pero en GPU de consumo, lograrlo por menos de 10 mil dólares no es realista.
  Si distribuyes el modelo entre varias computadoras sin NVLink, la pérdida de velocidad es enorme, así que en la práctica se recomienda una sola máquina. El rendimiento de CPU tampoco está mal. Lo importante es el ancho de banda de memoria, así que conviene un CPU de servidor o workstation con muchos canales DDR5 (por ejemplo, AMD Ryzen Threadripper 7965WX, 8 canales DDR5, soporte para 5200 MT/s, alrededor de 2500 dólares).
  Por último, te recomendaría volver a pensar si realmente necesitas correrlo en casa. Depende del objetivo, pero esos 10 mil dólares invertidos en hardware podrían desplomarse de valor en pocos años. En la nube, 10 mil dólares en créditos pueden rendir por mucho tiempo
- Las opciones que no sean CPU por lo general requieren ampliar la instalación eléctrica, y operar varias máquinas que consumen 2~3kW cada una, repartidas en distintos circuitos eléctricos, implica costos adicionales enormes
Gracias a Qwen por lanzar pesos abiertos de un SOTA multimodal; eso está haciendo que el corazón de muchos desarrolladores se incline hacia Qwen. Al menos el mío ya se inclinó por completo
- Yo diría que la competencia ya terminó. Si ves la lista de autores principales de papers top en EE. UU. estos días, está llena de nombres de origen chino
- También está el hecho de que ellos no apuntan a la rentabilidad, así que están jugando un juego distinto, con reglas distintas
- Yo mismo me pregunto por qué están esforzándose tanto por ganarse a la gente
Gracias por la generosidad del equipo de Qwen. Ya estoy usando el modelo “Thinking” para automatizar varias tareas internas aburridas con workflows bastante buenos
Modelo Thinking de Qwen
Ahora, con este release, también pienso aplicar nuevos workflows para clasificar y generar captions de fotos de comida, fotos de usuarios, etc. Muy bueno
Modelos relacionados del equipo de Qwen
- Qwen3-VL-235B-A22B-Thinking
- Qwen3-VL-235B-A22B-Instruct
Estoy convencido de que este anuncio mostró más cifras de benchmarks que cualquier otro que haya visto. Quiero reconocerlo por no quedarse solo con las métricas “tramposas” más favorables
- En áreas donde los benchmarks ya están saturados, da la impresión de que sacar más números ya dejó de tener sentido
Lamentablemente, Qwen3-VL también sigue fallando en la prueba de “extremidades extra”. Metí con Photoshop fotos de animales con extremidades adicionales (por ejemplo, un perro con patas saliendo del abdomen o un gato con dos pares de patas delanteras), y al igual que todos los demás modelos, insistió en que la cantidad de extremidades del animal era normal. Incluso cuando le dije “parece que tiene patas en el abdomen”, siguió afirmando hasta el final que todo era normal y que yo estaba equivocado. Qwen incluso respondió que eran 4 aunque le dijeron explícitamente que la imagen estaba editada
- Como todos los VLM, es débil en casos excepcionales. Leer relojes analógicos solo llegó a funcionar cuando lo especializaron con 1 millón de imágenes sintéticas modificadas en el pasado
  Dataset de relojes
  Ejemplo de dado D20
  En conclusión, salvo que se creen 1 millón de ejemplos para casos como extremidades extra, no va a acertar, y el mismo problema de tener que crear datasets nuevos seguirá repitiéndose para otros problemas
- Definitivamente no es un modelo adecuado para contar extremidades de especies extrañas. En cambio, puede que no se quede corto en temas muy presentes en sus datos de entrenamiento
- Me pregunto si, usando la función de edición de imágenes de los modelos Qwen y pidiéndole cambiar otras partes sin tocar la cantidad de extremidades, igual intentará “corregir” el número de extremidades para dejarlo normalizado