Qwen VLo - de “entender” el mundo a “describirlo”

(qwenlm.github.io)

1 puntos por GN⁺ 2025-06-29 | 1 comentarios | Compartir por WhatsApp

Qwen VLo es un modelo multimodal unificado de comprensión y generación que no solo entiende imágenes, sino que también ofrece generación de imágenes de alta calidad.
Los usuarios pueden dar instrucciones creativas en lenguaje natural y generar o editar directamente distintos tipos de imágenes, como cambios de estilo o de fondo.
Soporta múltiples idiomas, por lo que usuarios de todo el mundo pueden usarlo fácilmente sin barreras de idioma.
Adopta un método de generación progresiva que mejora y optimiza continuamente la imagen, ofreciendo mejor calidad visual y un alto nivel de control.
Aún está en etapa de vista previa, por lo que algunas funciones pueden ser inestables, aunque sigue mejorando de forma continua.

Introducción

El avance de los grandes modelos multimodales sigue ampliando constantemente los límites de la tecnología.
Desde QwenVL hasta Qwen2.5 VL, se ha fortalecido la comprensión del contenido visual, y ahora Qwen VLo aparece como un nuevo modelo multimodal que abarca tanto comprensión como generación.
Qwen VLo va más allá de “entender” el mundo: con base en esa comprensión, también puede “generar” imágenes detalladas.
Este modelo conecta de manera práctica la frontera entre percepción y creación.
Actualmente está disponible como versión preliminar en Qwen Chat, donde se pueden crear imágenes con comandos como “generar un dibujo de un gato lindo”, y también hacer ediciones tras subir una imagen, como “ponerle un sombrero al gato”.

Proceso de generación creativa

Como se puede ver en el video de demostración de la generación de imágenes de Qwen VLo, este modelo usa un método de generación progresiva.
Construye la imagen gradualmente de la esquina superior izquierda a la inferior derecha, refinando continuamente sus predicciones para lograr resultados consistentes y armoniosos.
Este mecanismo de generación mejora la calidad visual y ayuda a los usuarios a controlar el proceso creativo con mayor flexibilidad y precisión.

De la comprensión a la creatividad: capacidades multimodales de generación mejoradas

Principales mejoras de Qwen VLo

Comprensión y reproducción precisas del contenido
- Los modelos multimodales anteriores presentaban desajustes semánticos durante la generación, como reconocer mal un automóvil o perder su estructura.
- Qwen VLo ha mejorado su capacidad para captar detalles y mantiene una alta coherencia semántica.
- Por ejemplo, si se solicita cambiar el color de la foto de un automóvil, puede modificar naturalmente solo el color manteniendo el modelo y la estructura reales del vehículo, produciendo un resultado realista.
Soporte para edición basada en instrucciones abiertas
- Los usuarios pueden ingresar en lenguaje natural instrucciones creativas libres como “haz esta imagen al estilo de Van Gogh”, “como una foto del siglo XIX” o “agrega un cielo despejado”.
- Además de transformación de estilo, reconstrucción de escenas y edición de detalles, también permite con comandos simples tareas clásicas de visión por computadora en deep learning como mapas de profundidad, segmentación y estimación de bordes.
- También puede ejecutar de una sola vez instrucciones compuestas, como modificar objetos + editar texto + cambiar el fondo.
Soporte para instrucciones multilingües
- Qwen VLo admite operaciones en chino, inglés y otros idiomas.
- Esto ofrece facilidad de uso global sin barreras lingüísticas.

Casos de uso en la demo

Qwen VLo, como un artista humano, materializa la imaginación con base en la comprensión. Puede reemplazar fondos, añadir sujetos, cambiar estilos, realizar ediciones masivas a partir de instrucciones abiertas y responder a tareas de detección/segmentación.

En particular, su función de regeneración basada en comprensión permite transformaciones creativas de amplio alcance, como de caricatura a imagen real o de una persona específica a un globo.

Gracias a su avanzada capacidad para interpretar imágenes e instrucciones, puede ejecutar comandos complejos de una sola vez, por ejemplo crear un póster, combinar múltiples objetos y completar en una sola pasada tareas de varios pasos.

Además, Qwen VLo también soporta funciones de anotación/marcado sobre información existente como detección, segmentación y detección de bordes.

También está en preparación la capacidad de procesar entradas con múltiples imágenes (lanzamiento oficial más adelante).
Además de entradas de texto + imagen, también soporta generación de texto a imagen (imágenes generales, pósters con mezcla de chino e inglés, etc.).
Soporta la generación de imágenes con formatos de relación de aspecto horizontal/vertical muy largos (hasta 4:1, 1:3, etc.) (previsto para lanzamiento oficial).
El modelo también puede volver a entender/analizar imágenes generadas por él mismo para tareas como identificar razas de perros y gatos.

Cómo usarlo

Qwen VLo utiliza aprendizaje y generación de resolución dinámica, por lo que la resolución y proporción de las imágenes de entrada y salida pueden usarse libremente. Esto permite crear imágenes del tamaño deseado, como pósters, ilustraciones, banners web o portadas para redes sociales, sin quedar atado a formatos fijos.

Mecanismo de generación: generación progresiva de arriba a la izquierda hacia abajo a la derecha (Progressive generation).
En tareas que requieren control fino, como anuncios o paneles de cómic con texto largo, es posible hacer microajustes del proceso en tiempo real.

Limitaciones

Qwen VLo está en etapa de vista previa, por lo que todavía tiene algunas carencias. Durante la generación pueden aparecer falta de precisión, discrepancias con el original, incumplimiento de instrucciones o inestabilidad en la comprensión de imágenes. Se encuentra en proceso de mejora continua y actualización de estabilidad.

Próximos pasos

A medida que los grandes modelos multimodales adquieren entrada y salida bidireccional de texto y visión, se están abriendo nuevas formas de expresión e interacción.
En el futuro, los modelos no solo podrán responder con texto, sino también transmitir ideas mediante diagramas, líneas de guía, resaltados y otros contenidos visuales.

Las capacidades avanzadas de generación también se aprovecharán para verificar y mejorar la propia comprensión del modelo.
Por ejemplo, podrá demostrar y complementar su comprensión generando directamente resultados intermedios como mapas de segmentación o mapas de detección.
Esta dirección de investigación sigue explorándose de manera continua

1 comentarios

GN⁺ 2025-06-29

Opiniones de Hacker News

Da pena que Qwen no haya publicado los pesos abiertos. Hasta ahora, una de las mayores fortalezas de Qwen había sido justamente su estrategia de open weights. Ojalá existiera un modelo realmente open weight que pudiera competir con la generación automática de imágenes de 4o. Hay muchas líneas de investigación interesantes que solo son posibles con acceso directo a los pesos. Si el problema es recuperar los costos de desarrollo, recomendaría tomar como referencia el modelo de lanzamiento de Flux Kontext Dev de BFL. También existe la opción de publicar gratis los pesos para investigadores y particulares, y que las startups compren una licencia comercial a un precio razonable
- Las imágenes de Qwen claramente muestran que fueron entrenadas con resultados de OpenAI. Se nota con solo ver ese tinte anaranjado en las imágenes (ejemplo 1, ejemplo 2, ejemplo 3). Me pregunto si siquiera intentaron conseguir sus propios datos. Al final, siguen a OAI tal cual, pero escondidos detrás de una API. No solo son cerrados como OAI, también rinden peor. Me cuesta entender esa estrategia
- Si se habla de open weights pero al mismo tiempo se propone dar pesos separados para investigadores y particulares, mientras las startups tienen que comprar una licencia comercial, entonces se siente muy lejos de ser realmente open weight. Como con el "open source", debe existir la libertad de usarlo como uno quiera para que tenga un significado real de apertura. Si no, la palabra "open" puede terminar perdiendo sentido
- No creo que una inversión de decenas de millones de dólares, más el costo de las GPU y los salarios de ingeniería, pueda recuperarse solo con cobrar por generación de imágenes
- Da la impresión de que la era china de los open weights terminó de golpe. Alibaba dejó de publicar Qwen, Tencent también dejó de abrir Hunyuan, y Bytedance cerró Seedream. Sigue siendo evidente que entrenan con modelos occidentales. Más bien, creo que sería más inteligente abrir todo al 100% y monetizar con infraestructura y servicios
La imagen se comprime a 256 tokens antes de pasar al modelo de lenguaje. Por ejemplo, si se pide agregar un sombrero, se vuelve a dibujar toda la cara. Los objetos individuales no se guardan por separado, e incluso el personaje del oso existe solo de forma temporal. Todo se almacena en un único espacio latente fusionado y se vuelve a muestrear bajo nuevas condiciones. Si cambias apenas un poco el prompt, cambia toda la imagen. Es decir, cada vez construye la escena de nuevo, y eso parece bueno para distintos casos de uso
- En Flux Kontext me gusta que los detalles suelen conservarse bien, como en un modelo multimodal. En GPT-Image-1 está bien para cambios globales de estilo, como "hacerlo estilo Ghibli", pero para cambios finos, como agregar lentes a una imagen fotorrealista, no conserva bien los detalles
Al ver el ejemplo de edición de la imagen del oso, noté que cambian muchas más cosas de las que se pidieron. Pedí que cambiara solo el fondo y el oso también cambió bastante; luego pedí cambiar el oso por un globo y aparecieron cambios raros, como desaparecer las baldosas de la vereda o las semillas de la sandía. Me pregunto si esto se resuelve escribiendo mejor el prompt o si es una limitación de la arquitectura del modelo
- Ambas cosas. Si optimizas el prompt, los resultados pueden mejorar un poco, pero la causa de fondo son las limitaciones de la estructura del modelo y del método de entrenamiento; es decir, de la arquitectura y la metodología
Probé generar una imagen de un pelícano andando en bicicleta, y también una imagen de un acordeón. En los detalles finos falla, como en los dedos o en el color negro de las teclas. La velocidad de generación es bastante rápida enlace de ejemplo
- Parece que se les escapó que el punto clave de la prueba de Simon es el formato SVG. La imagen de un pelícano en bicicleta es una tarea que Stable Diffusion 2/3 resuelve fácilmente desde hace tiempo. El desafío está en SVG, no en imágenes de píxeles, porque ahí sí se necesita razonamiento lógico y precisión
En ejemplos de modificación de imágenes, como edición o cambio de estilo, noté una sutil dominante amarilla. También aparece en GPT Image 1, pero no en Flux Kontext. Me da curiosidad saber por qué
Todas las imágenes tienen una sensación de uncanny valley. Tanto los colores como las sombras se sienten raros
- Los resultados en general se ven toscos. Fuera de investigación, cuesta imaginar un caso de uso real para imágenes así
Como investigador de machine learning y alguien con formación en física, me incomoda usar palabras como "entender" o "explicar" para este tipo de modelos. En la práctica no ayuda y más bien confunde. En física usamos matemáticas por precisión, y programar también es algo muy concreto. En la vida nos afectan muchísimos detalles, pero estos modelos no logran captar esa sutileza. Ojalá lean "Relativity of Wrong" de Asimov (enlace). Si de verdad se quiere decir que "entiende", entonces el modelo debería generar resultados nunca antes vistos, como descubrimiento, inferencia o redefinición de conceptos. Los humanos hacemos pensamiento contrafactual (enlace) de forma natural, pero los modelos modernos de ML no. Los errores en la cantidad de dedos de la imagen del OP o en la disposición de teclas del teclado son ejemplos claros. A primera vista parece convincente, pero mientras más lo miras, más se hace evidente lo raro: el típico efecto uncanny valley
- Desde la posición de quien realmente construye cosas, este debate puede sentirse agotador. Ya tiene suficiente valor que se haya explicado de forma comprensible la idea de entrada y salida. Si lees la documentación del lanzamiento, verás que Qwen originalmente cumplía un papel de VLM para "entender/identificar/percibir" y ahora amplió sus capacidades hacia "generar/describir/dibujar". No hace falta hablar de crisis ni darle un significado excesivo
Me pregunto cómo desactivar la función de lectura automática por voz. Quisiera que el sitio simplemente se quede quieto y funcione solo cuando yo lo manipule directamente. En Firefox, el video se reprodujo automáticamente en pantalla completa y de pronto empezó a leer (en iOS)
- Configuración > Ajustes del sitio > Bloquear reproducción automática de audio y video. En Firefox para Android esa función existe. En iOS o en escritorio también hay opciones parecidas, y además se puede bloquear por completo la solicitud de permisos de notificaciones
Me pregunto si existe algún informe técnico sobre la arquitectura de generación de imágenes tipo 4o. También quisiera saber más a fondo sobre otros modelos que generan imágenes de manera similar
Personalmente, creo que el machine learning ha avanzado mucho más en "describir" que en "entender"
- Me pregunto en qué se basa la idea de que los humanos entienden mejor el mundo. Los humanos reaccionan de forma muy emocional ante el mundo, pero la emoción en sí no aporta entendimiento. En realidad, la palabra "entender" también depende de un criterio bastante subjetivo