Qwen3-Omni-Flash-2025-12-01: modelo grande multimodal nativo de próxima generación

(qwen.ai)

1 puntos por GN⁺ 2025-12-12 | 1 comentarios | Compartir por WhatsApp

Qwen3-Omni-Flash-2025-12-01 es un modelo multimodal de próxima generación que procesa texto, imagen, audio y video al mismo tiempo, y genera salidas de texto y voz por streaming en tiempo real
La comprensión de instrucciones de audio y visuales, así como la estabilidad conversacional, han mejorado mucho, lo que permite una interacción natural y consistente entre voz y video
Con la función de control total del system prompt, es posible ajustar en detalle el estilo de personalidad, la forma de hablar, la longitud de salida y más
Soporta texto en 119 idiomas, reconocimiento de voz en 19 idiomas y síntesis de voz en 10 idiomas, resolviendo problemas de consistencia multilingüe
El rendimiento ha mejorado en todas las áreas, como razonamiento lógico, generación de código y comprensión visual y de voz, ofreciendo una experiencia de interacción con IA natural y precisa

Descripción general de Qwen3-Omni-Flash-2025-12-01

Qwen3-Omni es un modelo grande multimodal nativo que procesa diversos tipos de entrada como texto, imagen, audio y video, y genera texto y salidas de voz naturales en tiempo real
Esta versión, Qwen3-Omni-Flash-2025-12-01, es una versión completamente mejorada basada en el Qwen3-Omni existente
Se mejoraron de forma integral el rendimiento y la eficiencia del modelo para ofrecer una capacidad de procesamiento multimodal más rápida y precisa

Principales mejoras de funciones

Interacción audio-visual reforzada
- La comprensión y ejecución de instrucciones de voz y video mejoraron significativamente, resolviendo el problema de degradación de inteligencia en situaciones cotidianas de habla coloquial
- Aumentaron la estabilidad y consistencia en conversaciones audio-visuales de múltiples turnos, permitiendo una interacción natural
Mayor control del system prompt
- El system prompt puede personalizarse por completo, lo que permite un control preciso del comportamiento del modelo
- Se pueden ajustar con detalle elementos como el estilo de personalidad (por ejemplo: dulce, cool, estilo animación), la forma de hablar y la longitud de salida
Mayor confiabilidad en el soporte multilingüe
- Soporta 119 idiomas en interacciones basadas en texto, 19 idiomas en reconocimiento de voz y 10 idiomas en síntesis de voz
- Se resolvieron los problemas de inestabilidad lingüística de la versión anterior, asegurando un rendimiento multilingüe preciso y consistente
Síntesis de voz natural
- Ajusta automáticamente la velocidad del habla, las pausas y la entonación según el contexto del texto para lograr una calidad de voz similar a la humana
- Elimina las voces lentas o mecánicas y ofrece una salida de voz expresiva y natural

Indicadores de mejora de rendimiento

Mejora en comprensión y generación de texto
- Mejoras en razonamiento lógico: ZebraLogic +5.6, generación de código: LiveCodeBench-v6 +9.3, MultiPL-E +2.7, calidad de escritura: WritingBench +2.2
- Mayor confiabilidad en la ejecución de instrucciones complejas de múltiples pasos
Mayor precisión en comprensión de voz
- Reducción de la tasa de error de palabras en Fleurs-zh y mejora de VoiceBench +3.2
- Se reforzó la comprensión de voz en entornos de conversación reales
Mejora en la calidad de síntesis de voz
- Logra entonación y ritmo naturales en entornos en chino y multilingües
- Asegura una calidad de habla similar a la voz humana
Mayor comprensión de imágenes
- En tareas de razonamiento visual, mejoró MMMU +4.7, MMMU-Pro +4.8, MathVision_full +2.2
- Se fortaleció la capacidad de interpretar contenido visual complejo, como diagramas y figuras matemáticas
Mejora en comprensión de video
- La mejora de MLVU +1.6 fortalece la comprensión semántica del video
- La mejora en la sincronización audio-visual refuerza la base para conversaciones de video en tiempo real

Planes a futuro

Se planea recopilar feedback de usuarios y casos de uso innovadores basados en Qwen3-Omni
A futuro se ampliarán funciones como reconocimiento de voz multihablante (ASR), video OCR, aprendizaje autónomo de audio y video, y soporte para workflows basados en agentes y llamadas a funciones

Información de cita

Para uso en investigación, se recomienda usar la siguiente cita
- @misc{qwen3_omni_20251201, author={{Qwen Team, Alibaba}}, title={{Qwen3-Omni-Flash-2025-12-01：Hear You. See You. Follow Smarter!}}, year={2025}, url={https://qwen.ai/blog?id=qwen3-omni-20251201}}

1 comentarios

GN⁺ 2025-12-12

Comentarios en Hacker News

Este modelo usa una arquitectura MoE de 30B parámetros, con unos 3B parámetros activos.
Es el sucesor del anterior modelo omni de 7B, y se puede esperar un rendimiento similar al de Qwen2.5-Omni-7B.
Como no hay muchos modelos omni publicados, me parece un lanzamiento bastante significativo.
Personalmente, me gustaría usar este modelo como reemplazo de la interfaz de entrada/salida (teclado y monitor), y dejar que el backend procese los cálculos con otras tecnologías.
También hay una versión reasoning, y parece bastante curioso que durante un chat de voz pueda pronunciar tokens de "pensando".
- Este modelo está compuesto por varias capas de componentes.
  Tiene un codificador de audio de 650M, un codificador visual de 540M, un LLM 30B-A3B, un audio LLM 3B-A0.3B, y convierte tokens de audio en forma de onda con un Transformer de 80M y una ConvNet de 200M.
  Es una versión actualizada de pesos no públicos de Qwen3-Omni; anteriormente se había publicado Qwen/Qwen3-Omni-30B-A3B-Instruct.
  Por ahora no tiene soporte completo en frameworks de inferencia open source, así que solo funciona muy lento en transformers.
- Según la documentación de Alibaba Cloud, este modelo no es open source.
- No pude encontrar los pesos de la nueva versión en ningún lado. Revisé Modelscope y Hugging Face, pero no estaban, y parece que la ventana de contexto se amplió a 200K+ tokens.
- Es interesante que la versión reasoning pronuncie los tokens de pensamiento. Antes Claude también funcionaba así.
- Sería divertido si le pusieran un efecto tipo reverb a los tokens de pensamiento, para poder escuchar el "sonido de pensar" del modelo.
Tenía curiosidad por saber si Qwen3-Omni soporta conversación en tiempo real como GPT-4o.
Por la documentación parecía que no, pero en la práctica sí lo soporta.
También me pregunto si alguien lo ha corrido localmente en un entorno no NVIDIA.
- En el sitio oficial de chat todavía no hay un modelo audio→audio.
  Yo suelo comprobarlo con pruebas de homónimos (record vs record) o pidiéndole cambios en el tono de voz.
- Como frameworks de inferencia como vLLM o SGLang todavía no lo soportan completamente, no es posible en entornos no NVIDIA.
- Aun así, parece que sí tiene capacidad nativa de speech-to-speech.
- Aún no creo que exista una app local de chat de voz realmente pulida.
  Incluso cosas como Silly Tavern están casi en nivel unusable.
  Pero este tipo de modelos de voz locales sí van a ser el núcleo de los workflows basados en lenguaje natural.
Tenía curiosidad por saber si se puede correr un modelo Omni en una Macbook con GGUF o MLX.
Es posible con LMStudio o Llama.cpp, pero no soportan streaming de micrófono ni webcam.
Qwen normalmente publica ejemplos en Python basados en Cuda, así que estoy buscando alguna alternativa open source.
- Parece que se puede conectar siguiendo la guía de uso de vLLM y la demo local de Web UI.
- Se puede con whisper.cpp.
Yo uso bastante Gemini Flash Live 2.5.
Espero que pronto salga la versión 3.0.
En benchmarks dicen que es mejor que Gemini Live, pero habría que probarlo directamente.
Personalmente, en entornos centrados en inglés, siempre me han quedado a deber los modelos Qwen Omni.
32B es bastante pequeño, así que debería poder correr incluso en equipos con 64GB de RAM.
Cuando llegue a Ollama pienso probarlo yo mismo.
- Parece que el modelo Qwen3-Omni-30B-A3B de Hugging Face se actualizó en septiembre.
  Pero en los benchmarks del paper aparece que Qwen3-Omni-Flash-2025-12-01 rinde mejor que Qwen3-235B-A22B.
  Me confunde cómo eso es posible siendo un modelo de 30B.
  La versión FLASH no está en Hugging Face, así que probablemente sea un modelo solo para API.
- Yo lo estoy corriendo bien en una Mac de 48GB de RAM gracias a la memoria unificada.
Al principio pensé que era solo para API, pero sí aparece en la colección de Hugging Face.
Pero en realidad es la versión anterior, y la demo de HF también llama a la API, así que no hace cómputo local.
Impresiona que Qwen3-Omni supere a 2.5 Flash en todos los benchmarks.
Parece que ya es momento de mover las cargas de trabajo de LLM a GPUs locales.
- Pero igual hay que hacer benchmarks con tu propio dataset.
  Es difícil confiar en los benchmarks públicos, y si eliges el modelo solo por eso puedes acabar decepcionado.
- Si el trabajo es solo de texto, sale más eficiente usar Qwen3-30B-A3B en lugar de Omni.
- Los benchmarks de imagen parecen compararlo con Qwen 2.0, así que resultan algo sospechosos.
Me preguntaba por qué la forma de hablar de los modelos de voz se siente sin vida.
Especialmente en la parte del precio de las frutas: sonaba totalmente natural, pero aun así se notaba enseguida que era IA.
Probablemente sea por la entonación o por una velocidad de habla demasiado constante.
- A mí más bien me gusta que no tenga emociones exageradas.
  Expresar demasiada emoción se siente artificial.
  Aunque sí fue una lástima que tuviera errores de pronunciación en alemán.
- Puede que no sea completamente multimodal end-to-end.
  Parece que hay una etapa aparte de síntesis de voz, y por eso da ese resultado.
  Se podría comprobar con pruebas de canto o de entonación.
- Probablemente pasa porque están metiendo demasiadas funciones —visión, audio, multilingüe, control de entonación— en solo 30B parámetros.
  El modelo de voz de ChatGPT sigue siendo el más natural.
- Que puedas notar de inmediato que es IA podría ser incluso algo bueno.
- A mí más bien me gusta que tenga un acento (accent) distintivamente de IA.
En la salida de voz en tiempo real hay un problema: es difícil distinguir entre los tokens de "pensando" y las frases dirigidas al usuario.
- Una forma simple sería separar el stream de salida antes del TTS.
  Mandas los tokens reasoning/structured por un lado y el texto para el usuario por otro,
  y sintetizas solo este último para evitar que se escuche el "pensando".
Parece que Qwen deja ambiguo si publica o no open weights.
En realidad la mayoría siguen siendo privados, y a veces parecen públicos pero en realidad son solo para API.
Eso hace que los usuarios pierdan tiempo buscando modelos que no están disponibles.

Qwen3-Omni-Flash-2025-12-01: modelo grande multimodal nativo de próxima generación

Descripción general de Qwen3-Omni-Flash-2025-12-01

Principales mejoras de funciones

Indicadores de mejora de rendimiento

Planes a futuro

Información de cita

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News