Qwen3-Omni: modelo Omni AI nativo para texto, imágenes y video
(github.com/QwenLM)- LLM multimodal de última generación que procesa texto, imágenes, audio y video en un solo modelo, con capacidad de generación de voz en tiempo real
- Compatible con 119 idiomas de texto, 19 idiomas de entrada de voz y 10 idiomas de salida de voz, por lo que está optimizado para implementar servicios globales
- La arquitectura del modelo utiliza un diseño Thinker–Talker basado en MoE, que mejora tanto el rendimiento como la eficiencia, y ofrece conversación por streaming y control de comportamiento personalizado
- El modelo de código abierto Qwen3-Omni-30B-A3B-Captioner ofrece funciones detalladas de captioning de audio con baja tasa de alucinación
- Incluye rutas de adopción flexibles para servicios en producción y funciones convenientes para desarrolladores, como Hugging Face Transformers, vLLM, Docker y API
Resumen e importancia de Qwen3-Omni
- Qwen3-Omni es un LLM omnimodal multilingüe de extremo a extremo desarrollado por el equipo Qwen de Alibaba Cloud
- Este proyecto destaca porque, incluso entre las IA multimodales open source actuales, es uno de los pocos capaces de entender de forma integrada texto, imágenes, audio y video, y generar respuestas en tiempo real
- Frente a otras alternativas open source, ofrece ventajas como amplio soporte de idiomas, streaming en tiempo real y captioning de audio de alta precisión
- Permite materializar rápidamente nuevos servicios como preguntas y respuestas en lenguaje natural, análisis de situaciones de audio y visuales, e interfaces multimodales temporales
Características principales
- Procesamiento multimodal: maneja entradas de texto, imagen, audio y video, y genera respuestas en texto/voz en tiempo real
- Rendimiento de última generación: logra SOTA en 22 de 36 benchmarks relacionados con audio/video, 32 SOTA dentro del open source, y su desempeño en ASR y diálogo por voz es similar al de Gemini 2.5 Pro
- Amplio soporte de idiomas: admite 119 idiomas de texto, 19 idiomas de entrada de voz y 10 idiomas de salida de voz
- Streaming en tiempo real: turn-taking natural y respuestas inmediatas rápidas
- Control personalizado para el usuario: permite ajuste fino del comportamiento y adaptabilidad mediante system prompts
- Arquitectura basada en MoE: diseño Thinker–Talker, preentrenamiento AuT y estructura de múltiples codebooks para lograr latencia ultrabaja y alta eficiencia
- Modelo de captioning de audio open source: Qwen3-Omni-30B-A3B-Captioner permite descripciones detalladas de audio y mitigación de alucinaciones
Ejemplos de escenarios por dominio compatible
- Audio: reconocimiento de voz, traducción de voz, análisis de música/sonido, captioning de audio, etc.
- Visual: OCR de imágenes complejas, reconocimiento de objetos, QA basado en imágenes, resolución de problemas matemáticos, descripción de video y orientación, análisis de cambios de escena, etc.
- Audio + visual: QA multimodal, conversación, llamadas de voz para agentes, etc.
- Fine-tuning downstream: fine-tuning del modelo de captioning usando Qwen3-Omni-30B-A3B-Instruct
Descripción por modelo
- Qwen3-Omni-30B-A3B-Instruct: entrada de audio, video y texto + salida de texto/voz (thinker + talker)
- Qwen3-Omni-30B-A3B-Thinking: entrada de audio, video y texto + salida de texto (solo thinker, chain-of-thought reasoning)
- Qwen3-Omni-30B-A3B-Captioner: entrada de audio → salida de texto, descripción detallada y mínima alucinación (especializado en captioning)
Entornos de uso principales y ventajas
- Integración con Hugging Face Transformers: incorporación sencilla en código, manejo flexible de distintos canales de entrada (B64, URL, etc.) y soporte para FlashAttention 2
- vLLM: ventajas en baja latencia y concurrencia para servicios a gran escala, inferencia por lotes rápida, fácil expansión en entornos multi-GPU y buena integración servidor-API
- Imágenes Docker disponibles: minimizan conflictos de entorno y facilitan pruebas/despliegue
- DashScope API: API oficial de Alibaba, con soporte tanto en tiempo real como offline
- Demos web/on-premise: experiencia basada en web sin necesidad de despliegue adicional
Ejemplos prácticos y consejos
Algoritmo central y funciones
- La estructura Thinker–Talker permite razonamiento avanzado y síntesis de voz de forma separada
- Admite una API consistente y procesamiento explícito de prompts para diversas combinaciones de entrada (solo texto / texto + imagen / audio / video, etc.)
- Si no se desea salida de voz, existe una opción de ahorro de memoria (más de 10 GB de ahorro)
- Soporta opciones de síntesis de voz variadas (Ethan, Chelsie, Aiden, etc.), seleccionables mediante el parámetro speaker
Ejemplos avanzados de lotes/conversación
- Puede procesar de una sola vez múltiples mensajes multimodales combinados, lo que lo hace eficiente para datos a gran escala, benchmarks y servicios conversacionales
- Genera respuestas personalizadas para cada mensaje (combinaciones de texto, imagen, audio y video)
Despliegue práctico basado en vLLM
- Permite ajuste de memoria e inferencia concurrente mediante configuración de parámetros (tensor_parallel_size, max_num_seqs, limit_mm_per_prompt, etc.)
- En vLLM serve admite conversación vía API, y más adelante también se planea soporte para salida de audio del modelo Instruct
API y entorno
- Proporciona documentación de API por captioning y por modo en tiempo real/offline en la nube mediante DashScope API (China/global)
- Ofrece flexibilidad para abarcar entornos como vLLM, Official API y Transformers según el objetivo, ya sea servicio real o investigación
Especificaciones del sistema / recomendaciones
- Se indican los requisitos mínimos de memoria (68~145GB) para video de 15~120 segundos con precisión BF16
- Requiere entorno GPU y soporte para FlashAttention 2
- Consejo de uso de prompts: usar instrucciones de texto explícitas junto con la entrada multimodal
Uso en agentes y downstream
- Permite construir diversos agentes, como llamadas de funciones basadas en audio, conversación multimodal en tiempo real, análisis, asistentes y captioning de audio detallado
- Incluye ejemplos de control de rol mediante system prompts y configuración de estilo de conversación y marcos de interacción
Cierre
Qwen3-Omni ofrece, entre los LLM open source, una de las integraciones de mayor escala del mundo para texto + voz + imágenes + video de propósito general, y es ideal para servicios web en tiempo real y a gran escala, investigación e implementación dentro de organizaciones. Su estrecha integración y alta compatibilidad con entornos como vLLM, API y Docker, junto con soporte detallado de casos de uso, le dan grandes ventajas para mejorar la eficiencia de desarrollo y la competitividad.
2 comentarios
Coreano: ¡parece que es compatible con coreano!
Opinión en Hacker News
Al conversar en inglés se sentía muy lento, pero al conversar en español se nota muchísimo más rápido; resulta realmente impresionante pensar que pronto podremos usar funciones increíbles como la traducción en tiempo real. Si los laboratorios de EE. UU. no se meten de lleno en la competencia de pesos abiertos, da la impresión de que China terminará dominando el mercado de la IA. Incluso pienso que los estadounidenses sensibles a la privacidad y a la propiedad de sus datos podrían acabar teniendo en casa dispositivos de 1,000 a 2,000 dólares ejecutando modelos chinos abiertos; de verdad se siente como un cambio asombroso.
Viviendo en Estados Unidos, he visto artículos sobre cómo China está impulsando fuertemente Linux, arquitecturas de CPU abiertas como RISC-V, e incluso modelos abiertos autoalojados. Me está dando la impresión de que nosotros somos los “villanos”.
Yo de hecho tengo dos 3090 en casa ejecutando Qwen3, integradas con Home Assistant y hasta con dispositivos satélite de voz basados en esp32. Me ha sorprendido lo bien que funciona.
El estadounidense promedio parece tener muy poca disposición a gastar entre 1,000 y 2,000 dólares extra en tecnología que garantice privacidad. La mayoría ya entrega sin orden judicial todo el audio y video de su casa al gobierno a través de cámaras IoT (como Ring), solo por ahorrarse entre 20 y 200 dólares.
Se puede probar directamente en https://chat.qwen.ai/; hay que iniciar sesión con Google o GitHub para usar el modo de voz. Hay varias voces disponibles, por ejemplo Dylan (adolescente que creció en los callejones de Beijing), Peter (experto en comedia de Tianjin), Cherry (joven mujer alegre y positiva), Ethan (chico enérgico y cálido), Eric (hombre particular originario de Chengdu, Sichuan) y Jada (hermana mayor carismática de Shanghái).
Da muchísima risa probar las voces cambiando de idioma. En ruso, Ryan suena como un occidental que empezó a aprender ruso hace un mes; Dylan suena más natural, y las otras voces hablan ruso con un fuerte acento asiático, así que cada una tiene una personalidad divertida.
A mí solo me aparece Omni Flash; me pregunto si eso es lo correcto.
Los pesos del modelo son de 70GB y el tamaño de los archivos también aparece en Hugging Face (Qwen/Qwen3-Omni-30B-A3B-Instruct), así que es un tamaño bastante accesible para correrlo en local. Me pregunto si pronto saldrá un port para macOS; por ahora parece que necesariamente se requiere una GPU de NVIDIA.
Si es en BF16, entonces con cuantización (Q4) probablemente sí cabría en una GPU de 24GB. Supongo que será parecido a otros modelos de la misma familia 30B-A3B. Me preocupaba que fuera de tamaño 200B+, así que esto me parece una buena noticia.
No he podido probarlo por falta de tiempo, pero sería interesante intentar hacerlo funcionar junto con lo de Mojo para Apple que salió ayer. Aún no está claro qué tan maduro esté, pero parece un reto divertido.
Me pregunto si existe algún motor de inferencia que funcione en macOS.
Quisiera saber si puede correr en una 5090, o si es posible conectar varias GPU, o si NVIDIA lo ha bloqueado.
Aquí está el video demo; en particular, la parte donde toma entrada de video y voz, la traduce a otro idioma y luego la devuelve como salida de voz fue de lo más impresionante que he visto hasta ahora.
Video demo en YouTube
El verdadero punto de apalancamiento en este campo es rendimiento/tamaño. Si surge competencia en pesos abiertos, creo que eso forzará innovaciones en eficiencia. Incluso podrían aparecer ventajas que los modelos de pesos cerrados no habían considerado. Si los mecanismos de inferencia colectiva en clúster maduran lo suficiente, me pregunto en qué momento 8 modelos de 30B en un servidor H100 podrán superar en precisión a un único modelo de 240B.
Por curiosidad, le pasé unos cuantos clips de audio simples, y distingue incluso instrumentos como piano y batería. Siento que todavía no he visto mucha investigación de LLM multimodales enfocada en reconocimiento de audio más allá de la voz. Me gustaría ver un análisis más profundo sobre el estado del arte (SOTA) en esto.
Me pregunto qué significa realmente "native video support". Si solo se refiere a interpretar una secuencia de imágenes full frame continuas —un método que podría perder eventos rápidos—, o si implica algo técnicamente más complejo.
Creo que entrada de voz + salida de voz es un cambio enorme. En teoría, ya se podría conversar por voz y traducir de inmediato a mi idioma o al de la otra persona. Ahora mismo normalmente hacen falta varias tecnologías intermedias, como palabra de activación, voz a texto y texto a voz, pero este modelo parece tener al menos unas 3 versiones en la clase 32b que soportan tanto entrada como salida de voz. Dependiendo de la arquitectura, en el futuro podría ejecutarse directamente en casa o en dispositivos tipo “tostadora con IA”.
Creo que hay muchísimas oportunidades si conectas un modelo así a un sistema de automatización del hogar mediante tool calls. Desde que ChatGPT recibió esa función, he estado esperando que otros servicios la ofrezcan también. Sobre todo en situaciones como cocinar, cuando no puedes usar las manos ("léeme el siguiente paso, tengo las manos llenas de carne", "¿cuánta harina necesito para hacer roux?", "no tengo limón, ¿qué puedo usar como sustituto?"). Podría abrir usos realmente revolucionarios.
Más que nada, parece que sería de gran ayuda para aprender idiomas. También da la impresión de que podría correrse en local, y más aún si los desarrolladores de unsloth lo llegan a tomar.
La arquitectura thinker/speaker de Qwen me parece realmente fascinante. Se parece a como imagino la cognición multimodal humana: por ejemplo, una foto de una manzana, la ortografía de "apple" y su sonido podrían mapearse al mismo concepto sin pasar necesariamente por texto en medio.
Me pregunto si habrá buenos recursos para aprender sobre modelos multimodales. No tengo claro por dónde conviene empezar.