- Qwen3-Omni-Flash-2025-12-01 es un modelo multimodal de próxima generación que procesa texto, imagen, audio y video al mismo tiempo, y genera salidas de texto y voz por streaming en tiempo real
- La comprensión de instrucciones de audio y visuales, así como la estabilidad conversacional, han mejorado mucho, lo que permite una interacción natural y consistente entre voz y video
- Con la función de control total del system prompt, es posible ajustar en detalle el estilo de personalidad, la forma de hablar, la longitud de salida y más
- Soporta texto en 119 idiomas, reconocimiento de voz en 19 idiomas y síntesis de voz en 10 idiomas, resolviendo problemas de consistencia multilingüe
- El rendimiento ha mejorado en todas las áreas, como razonamiento lógico, generación de código y comprensión visual y de voz, ofreciendo una experiencia de interacción con IA natural y precisa
Descripción general de Qwen3-Omni-Flash-2025-12-01
- Qwen3-Omni es un modelo grande multimodal nativo que procesa diversos tipos de entrada como texto, imagen, audio y video, y genera texto y salidas de voz naturales en tiempo real
- Esta versión, Qwen3-Omni-Flash-2025-12-01, es una versión completamente mejorada basada en el Qwen3-Omni existente
- Se mejoraron de forma integral el rendimiento y la eficiencia del modelo para ofrecer una capacidad de procesamiento multimodal más rápida y precisa
Principales mejoras de funciones
-
Interacción audio-visual reforzada
- La comprensión y ejecución de instrucciones de voz y video mejoraron significativamente, resolviendo el problema de degradación de inteligencia en situaciones cotidianas de habla coloquial
- Aumentaron la estabilidad y consistencia en conversaciones audio-visuales de múltiples turnos, permitiendo una interacción natural
-
Mayor control del system prompt
- El system prompt puede personalizarse por completo, lo que permite un control preciso del comportamiento del modelo
- Se pueden ajustar con detalle elementos como el estilo de personalidad (por ejemplo: dulce, cool, estilo animación), la forma de hablar y la longitud de salida
-
Mayor confiabilidad en el soporte multilingüe
- Soporta 119 idiomas en interacciones basadas en texto, 19 idiomas en reconocimiento de voz y 10 idiomas en síntesis de voz
- Se resolvieron los problemas de inestabilidad lingüística de la versión anterior, asegurando un rendimiento multilingüe preciso y consistente
-
Síntesis de voz natural
- Ajusta automáticamente la velocidad del habla, las pausas y la entonación según el contexto del texto para lograr una calidad de voz similar a la humana
- Elimina las voces lentas o mecánicas y ofrece una salida de voz expresiva y natural
Indicadores de mejora de rendimiento
-
Mejora en comprensión y generación de texto
- Mejoras en razonamiento lógico: ZebraLogic +5.6, generación de código: LiveCodeBench-v6 +9.3, MultiPL-E +2.7, calidad de escritura: WritingBench +2.2
- Mayor confiabilidad en la ejecución de instrucciones complejas de múltiples pasos
-
Mayor precisión en comprensión de voz
- Reducción de la tasa de error de palabras en Fleurs-zh y mejora de VoiceBench +3.2
- Se reforzó la comprensión de voz en entornos de conversación reales
-
Mejora en la calidad de síntesis de voz
- Logra entonación y ritmo naturales en entornos en chino y multilingües
- Asegura una calidad de habla similar a la voz humana
-
Mayor comprensión de imágenes
- En tareas de razonamiento visual, mejoró MMMU +4.7, MMMU-Pro +4.8, MathVision_full +2.2
- Se fortaleció la capacidad de interpretar contenido visual complejo, como diagramas y figuras matemáticas
-
Mejora en comprensión de video
- La mejora de MLVU +1.6 fortalece la comprensión semántica del video
- La mejora en la sincronización audio-visual refuerza la base para conversaciones de video en tiempo real
Planes a futuro
- Se planea recopilar feedback de usuarios y casos de uso innovadores basados en Qwen3-Omni
- A futuro se ampliarán funciones como reconocimiento de voz multihablante (ASR), video OCR, aprendizaje autónomo de audio y video, y soporte para workflows basados en agentes y llamadas a funciones
Información de cita
- Para uso en investigación, se recomienda usar la siguiente cita
@misc{qwen3_omni_20251201, author={{Qwen Team, Alibaba}}, title={{Qwen3-Omni-Flash-2025-12-01:Hear You. See You. Follow Smarter!}}, year={2025}, url={https://qwen.ai/blog?id=qwen3-omni-20251201}}
1 comentarios
Comentarios en Hacker News
Este modelo usa una arquitectura MoE de 30B parámetros, con unos 3B parámetros activos.
Es el sucesor del anterior modelo omni de 7B, y se puede esperar un rendimiento similar al de Qwen2.5-Omni-7B.
Como no hay muchos modelos omni publicados, me parece un lanzamiento bastante significativo.
Personalmente, me gustaría usar este modelo como reemplazo de la interfaz de entrada/salida (teclado y monitor), y dejar que el backend procese los cálculos con otras tecnologías.
También hay una versión reasoning, y parece bastante curioso que durante un chat de voz pueda pronunciar tokens de "pensando".
Tiene un codificador de audio de 650M, un codificador visual de 540M, un LLM 30B-A3B, un audio LLM 3B-A0.3B, y convierte tokens de audio en forma de onda con un Transformer de 80M y una ConvNet de 200M.
Es una versión actualizada de pesos no públicos de Qwen3-Omni; anteriormente se había publicado Qwen/Qwen3-Omni-30B-A3B-Instruct.
Por ahora no tiene soporte completo en frameworks de inferencia open source, así que solo funciona muy lento en transformers.
Tenía curiosidad por saber si Qwen3-Omni soporta conversación en tiempo real como GPT-4o.
Por la documentación parecía que no, pero en la práctica sí lo soporta.
También me pregunto si alguien lo ha corrido localmente en un entorno no NVIDIA.
Yo suelo comprobarlo con pruebas de homónimos (
recordvsrecord) o pidiéndole cambios en el tono de voz.Incluso cosas como Silly Tavern están casi en nivel unusable.
Pero este tipo de modelos de voz locales sí van a ser el núcleo de los workflows basados en lenguaje natural.
Tenía curiosidad por saber si se puede correr un modelo Omni en una Macbook con GGUF o MLX.
Es posible con LMStudio o Llama.cpp, pero no soportan streaming de micrófono ni webcam.
Qwen normalmente publica ejemplos en Python basados en Cuda, así que estoy buscando alguna alternativa open source.
Yo uso bastante Gemini Flash Live 2.5.
Espero que pronto salga la versión 3.0.
En benchmarks dicen que es mejor que Gemini Live, pero habría que probarlo directamente.
Personalmente, en entornos centrados en inglés, siempre me han quedado a deber los modelos Qwen Omni.
32B es bastante pequeño, así que debería poder correr incluso en equipos con 64GB de RAM.
Cuando llegue a Ollama pienso probarlo yo mismo.
Pero en los benchmarks del paper aparece que Qwen3-Omni-Flash-2025-12-01 rinde mejor que Qwen3-235B-A22B.
Me confunde cómo eso es posible siendo un modelo de 30B.
La versión FLASH no está en Hugging Face, así que probablemente sea un modelo solo para API.
Al principio pensé que era solo para API, pero sí aparece en la colección de Hugging Face.
Pero en realidad es la versión anterior, y la demo de HF también llama a la API, así que no hace cómputo local.
Impresiona que Qwen3-Omni supere a 2.5 Flash en todos los benchmarks.
Parece que ya es momento de mover las cargas de trabajo de LLM a GPUs locales.
Es difícil confiar en los benchmarks públicos, y si eliges el modelo solo por eso puedes acabar decepcionado.
Me preguntaba por qué la forma de hablar de los modelos de voz se siente sin vida.
Especialmente en la parte del precio de las frutas: sonaba totalmente natural, pero aun así se notaba enseguida que era IA.
Probablemente sea por la entonación o por una velocidad de habla demasiado constante.
Expresar demasiada emoción se siente artificial.
Aunque sí fue una lástima que tuviera errores de pronunciación en alemán.
Parece que hay una etapa aparte de síntesis de voz, y por eso da ese resultado.
Se podría comprobar con pruebas de canto o de entonación.
El modelo de voz de ChatGPT sigue siendo el más natural.
En la salida de voz en tiempo real hay un problema: es difícil distinguir entre los tokens de "pensando" y las frases dirigidas al usuario.
Mandas los tokens reasoning/structured por un lado y el texto para el usuario por otro,
y sintetizas solo este último para evitar que se escuche el "pensando".
Parece que Qwen deja ambiguo si publica o no open weights.
En realidad la mayoría siguen siendo privados, y a veces parecen públicos pero en realidad son solo para API.
Eso hace que los usuarios pierdan tiempo buscando modelos que no están disponibles.