- Qwen3-VL es la generación más reciente de modelos multimodales de visión y lenguaje, y ofrece un mejor rendimiento en comprensión y generación de texto, reconocimiento de video, razonamiento espacial y comprensión de contexto largo en todas las áreas
- El modelo principal Qwen3-VL-235B-A22B se publica en versiones Instruct y Thinking, y cada una logra resultados de vanguardia en reconocimiento visual y razonamiento multimodal, respectivamente
- El modelo refuerza diversas capacidades de uso real, como funciones de agente, codificación visual, razonamiento espacial 2D/3D, y comprensión de textos extensos y videos largos
- Amplía su alcance de soporte hasta OCR en 32 idiomas, comprensión de documentos complejos y procesamiento de múltiples imágenes y video, por lo que resulta adecuado tanto para usos cotidianos como profesionales
- Se espera que esto proporcione a la comunidad open source una base multimodal del más alto nivel y acelere la resolución de problemas del mundo real y el avance de los agentes de IA
Introducción a Qwen3-VL
- Qwen3-VL es un modelo de IA multimodal de última generación desarrollado por QwenTeam, caracterizado por procesar y comprender de forma integral diversos tipos de datos como imágenes, texto, tablas, documentos, fórmulas y gráficos
Características principales
- Funciones de agente visual: puede realizar reconocimiento de GUI, clics en botones y llamadas a herramientas, lo que permite automatizar tareas en entornos de computadora y móviles
- Rendimiento de texto mejorado: gracias al aprendizaje simultáneo de texto y visión desde etapas tempranas, logra una potente capacidad de procesamiento de texto al nivel de un modelo monolingüe
- Codificación visual: convierte imágenes de diseño en código HTML, CSS y JavaScript, haciendo realidad el concepto de “programar lo que ves”
- Comprensión espacial: se expande de coordenadas absolutas 2D a coordenadas relativas y también admite grounding 3D, sentando bases para robótica y conducción autónoma
- Procesamiento de contexto largo y videos extensos: admite 256K tokens de forma predeterminada, puede ampliarse hasta 1 millón de tokens y puede recordar y recuperar con precisión videos de 2 horas
- Optimización para razonamiento (versión Thinking): destaca en resolución de problemas de matemáticas y STEM, y logra los mejores resultados en benchmarks como MathVision, MMMU y MathVista
Evaluación de rendimiento
- Versión Instruct: obtiene rendimiento de reconocimiento visual superior al de modelos cerrados líderes como Gemini 2.5 Pro y GPT-5
- Versión Thinking: alcanza resultados de nivel mundial en razonamiento multimodal de matemáticas y ciencias, y en particular supera a Gemini 2.5 Pro en MathVision
- Tareas centradas en texto: ofrece un rendimiento equivalente al de Qwen3-235B-A22B-2507
- Prueba de video de larga duración: demuestra alta estabilidad con 99.5% de precisión incluso con entradas de 1 millón de tokens
- OCR multilingüe: alcanza más de 70% de precisión en 32 de 39 idiomas
Mejoras de arquitectura
- Interleaved-MRoPE: refuerza la comprensión de videos largos al distribuir de forma intercalada las dimensiones de tiempo, altura y ancho
- DeepStack: mejora el alineamiento preciso entre texto e imagen mediante la fusión de características de múltiples capas de ViT
- Alineación texto-timestamp: empareja con precisión la información temporal a nivel de frame con el contenido visual, mejorando la detección de eventos y acciones
Capacidades del modelo
- Agente para operar smartphones y PC: automatiza la apertura de apps, clics en botones y llenado de formularios
- Razonamiento basado en imágenes: permite análisis complejos combinados con llamadas a herramientas
- Soporte para desarrollo frontend: conversión de boceto a página web y depuración de UI
- Detección de objetos 2D/3D: genera cientos de cajas de detección y estima profundidad
- Reconocimiento general: reconoce celebridades, marcas, plantas, animales y personajes de animación
- Soporte creativo: storytelling basado en imágenes, copywriting y generación de guiones de video
- Resolución de problemas STEM: razonamiento paso a paso, análisis causal y resolución de problemas científicos
- Seguimiento de instrucciones complejas: también procesa condiciones de varios pasos y solicitudes estructuradas
- Comprensión de documentos: interpreta PDFs extensos, layouts web y admite el formato QwenVL Markdown
- Conversación con múltiples imágenes: compara y relaciona varias imágenes manteniendo el contexto
- Comprensión de video: admite desde detección de eventos en videos largos hasta generación de código
Conclusión
- Qwen3-VL es un modelo multimodal open source que supera a modelos cerrados, con avances integrales que abarcan desde reconocimiento hasta razonamiento y ejecución
- Más que simple reconocimiento visual, se posiciona como un modelo expandido hacia comprensión del mundo, razonamiento y acción, y proporciona una base para el uso de agentes en entornos reales
2 comentarios
Me parecía impresionante que en un video promocional de Gemini de hace ni medio año mostraran que solo con saber quién ganó una competencia de atletismo y a quién rebasó ya era algo notable.
> Incluso puede recordar y buscar con precisión videos de 2 horas
Tengo mucha curiosidad por saber qué es exactamente lo que recuerda.
Opiniones de Hacker News
Como mencioné ayer, recientemente tuve que procesar varios cientos de imágenes de baja calidad de facturas para proyectos de construcción. Originalmente corrí un script que usaba PIL/opencv, pytesseract y OpenAI, pero fallaba demasiado. Hoy probé con Qwen en algunas facturas de calidad verdaderamente pésima y extrajo sin problema toda la información que necesitaba. Lo más sorprendente es que incluso da información de bound box que se puede usar para mejorar tesseract
China está haciendo esto de tomar tecnología clave y repetir optimizaciones 10x en costo/eficiencia, como hizo en manufactura. De verdad es impresionante. Es un modelo famoso en benchmarks, pero hoy sí me da la impresión de ser un candidato open source SOTA. Incluso hoy publicaron un modelo cerrado de 1 billón de parámetros que quedó en 3er lugar en lm arena, y el modelo de 80GB quedó en 17º, mientras que gpt-oss 120b está en 52º
Enlace relacionado
Qwen3-VL Plus
Qwen3-VL-235B
qwen-plus-2025-09-11
qwen3-235b-a22b-instruct-2507
Paper de DeepStack
Y en vez de agruparlo todo bajo “los chinos”, creo que corresponde darle el mérito al propio equipo de Qwen. En todos los países del mundo hay laboratorios excelentes y laboratorios promedio
Si estás en San Francisco, no deberías perder la oportunidad de asistir al primer evento oficial del equipo de Qwen en EE. UU. El vicepresidente de Qwen Lab va a presentar en persona en SF teach week
Enlace del evento
Es una oportunidad poco común para interactuar directamente con miembros del equipo de Qwen
Lo clave de este anuncio de Qwen es que lograron rendimiento multimodal SOTA por encima de modelos propietarios (cerrados) y aun así liberaron los pesos del modelo. En mis pruebas iniciales, parece que realmente es así, y pienso seguir probándolo. Impresionante
Siendo realistas, el modelo Qwen3-VL de 235B parámetros (FP16) parece requerir al menos 512GB de RAM. Supongo que podría necesitar aún más para cubrir un context window razonable. Asumiendo que no se va a correr en CPU, me gustaría saber si hay alguna forma de ejecutarlo en casa con un presupuesto menor a 10 mil dólares. Y si la única opción es CPU, quisiera saber si lo mejor sería vLLM + varias máquinas conectadas en red (10/25/100Gbit), o si existe alguna alternativa mejor
No hace falta correrlo obligatoriamente en FP16. La mayoría de las veces puedes cuantizar hasta q8 con casi nada de pérdida de calidad, e incluso en q4 o menos puede seguir funcionando con poca degradación. Aun así, q8 requiere 235GB de RAM, así que con RTX 5090 (32GB de VRAM) necesitarías 8, y el precio tampoco sería bajo. También hay que considerar motherboard, CPU y la distribución para 8 GPU. Podrías intentar conseguir un servidor de minería usado con RTX 3090 viejas o P40, pero en GPU de consumo, lograrlo por menos de 10 mil dólares no es realista.
Si distribuyes el modelo entre varias computadoras sin NVLink, la pérdida de velocidad es enorme, así que en la práctica se recomienda una sola máquina. El rendimiento de CPU tampoco está mal. Lo importante es el ancho de banda de memoria, así que conviene un CPU de servidor o workstation con muchos canales DDR5 (por ejemplo, AMD Ryzen Threadripper 7965WX, 8 canales DDR5, soporte para 5200 MT/s, alrededor de 2500 dólares).
Por último, te recomendaría volver a pensar si realmente necesitas correrlo en casa. Depende del objetivo, pero esos 10 mil dólares invertidos en hardware podrían desplomarse de valor en pocos años. En la nube, 10 mil dólares en créditos pueden rendir por mucho tiempo
Gracias a Qwen por lanzar pesos abiertos de un SOTA multimodal; eso está haciendo que el corazón de muchos desarrolladores se incline hacia Qwen. Al menos el mío ya se inclinó por completo
Gracias por la generosidad del equipo de Qwen. Ya estoy usando el modelo “Thinking” para automatizar varias tareas internas aburridas con workflows bastante buenos
Modelo Thinking de Qwen
Ahora, con este release, también pienso aplicar nuevos workflows para clasificar y generar captions de fotos de comida, fotos de usuarios, etc. Muy bueno
Modelos relacionados del equipo de Qwen
Estoy convencido de que este anuncio mostró más cifras de benchmarks que cualquier otro que haya visto. Quiero reconocerlo por no quedarse solo con las métricas “tramposas” más favorables
Lamentablemente, Qwen3-VL también sigue fallando en la prueba de “extremidades extra”. Metí con Photoshop fotos de animales con extremidades adicionales (por ejemplo, un perro con patas saliendo del abdomen o un gato con dos pares de patas delanteras), y al igual que todos los demás modelos, insistió en que la cantidad de extremidades del animal era normal. Incluso cuando le dije “parece que tiene patas en el abdomen”, siguió afirmando hasta el final que todo era normal y que yo estaba equivocado. Qwen incluso respondió que eran 4 aunque le dijeron explícitamente que la imagen estaba editada
Dataset de relojes
Ejemplo de dado D20
En conclusión, salvo que se creen 1 millón de ejemplos para casos como extremidades extra, no va a acertar, y el mismo problema de tener que crear datasets nuevos seguirá repitiéndose para otros problemas