Qwen3.5-Omni: lanzan un LLM completamente omnimodal que procesa texto, imágenes, audio y video

(qwen.ai)

7 puntos por GN⁺ 2026-03-31 | Aún no hay comentarios. | Compartir por WhatsApp

El modelo más reciente del equipo Qwen de Alibaba, capaz de comprender y generar texto, imágenes, audio y video, refuerza de forma significativa el procesamiento de todas las modalidades al aplicar Hybrid-Attention MoE a la arquitectura Thinker-Talker
Ofrece versiones Instruct en 3 tamaños: Plus, Flash y Light, con soporte para entradas de contexto largo de 256k, más de 10 horas de audio y más de 400 segundos de video en 720P
Qwen3.5-Omni-Plus logró SOTA en 215 benchmarks de comprensión de audio y video y superó a Gemini-3.1 Pro en comprensión general de audio, razonamiento, traducción y conversación
En comparación con la generación anterior, el soporte multilingüe se amplió enormemente: reconocimiento de voz en 74 idiomas y 39 dialectos del chino, síntesis de voz en 36 idiomas, además de nuevas funciones interactivas como clonación de voz, búsqueda web, conversación en tiempo real y control de emoción/velocidad/volumen
La tecnología ARIA (Adaptive Rate Interleave Alignment) resuelve problemas de omisiones y lecturas erróneas causados por las diferencias de eficiencia en la codificación de tokens de texto y voz, mejorando de forma drástica la naturalidad y estabilidad de la síntesis de voz en streaming

Resumen del modelo

Qwen3.5-Omni es el LLM completamente omnimodal más reciente de Qwen, capaz de procesar texto, imágenes, audio y video
Tanto Thinker como Talker adoptan una estructura Hybrid-Attention MoE, mejorando el rendimiento multimodal
Está disponible en 3 versiones Instruct: Plus, Flash y Light, y todas admiten entradas de contexto largo de 256k
- Entrada de audio: más de 10 horas
- Entrada de video en 720P·1FPS: más de 400 segundos
Realizó preentrenamiento omnimodal con una enorme cantidad de texto, datos visuales y más de 100 millones de horas de datos audiovisuales
Ya está disponible a través de la Offline API y la Realtime API

Qwen3.5-Omni-Plus alcanzó SOTA en 215 subtareas/benchmarks de comprensión, razonamiento e interacción audiovisual
- Incluye 3 benchmarks audiovisuales, 5 benchmarks de audio, 8 benchmarks de ASR, 156 S2TT por idioma y 43 ASR por idioma
Supera a Gemini-3.1 Pro en comprensión general de audio, razonamiento, reconocimiento, traducción y conversación, y alcanza el nivel de Gemini-3.1 Pro en comprensión audiovisual global
El rendimiento en visión y texto está al nivel de los modelos Qwen3.5 del mismo tamaño
Función de captioning audiovisual: admite descripciones detalladas y estructuradas, segmentación automática y anotaciones con marcas de tiempo, así como explicaciones sobre personajes y relaciones de audio, con un nivel de detalle de escenario
Audio-Visual Vibe Coding: se confirmó una nueva capacidad omnimodal que genera código directamente a partir de instrucciones audiovisuales

Semantic Interruption: usando reconocimiento de intención para turn-taking basado en Odin, evita cortes innecesarios causados por backchanneling y ruido de fondo; viene activado por defecto en la API
Soporte nativo para WebSearch y FunctionCall complejos: el modelo decide de forma autónoma si debe invocar búsquedas web para responder consultas en tiempo real
Control de voz de extremo a extremo: sigue instrucciones como una persona y permite controlar libremente el volumen, la velocidad y la emoción de la voz
Clonación de voz (Voice Clone): el usuario puede subir su voz para personalizar la voz del asistente de IA; todo se ofrece mediante la Realtime API
Es posible cambiar el estilo de conversación y la identidad del modelo modificando el system prompt

Para resolver problemas de omisiones, lecturas erróneas y pronunciación poco clara en interacciones de voz en streaming causados por las diferencias de eficiencia en la codificación de tokens de texto y voz, se propone la tecnología ARIA (Adaptive Rate Interleave Alignment)
Alinea dinámicamente (interleave) unidades de texto y voz para mantener el rendimiento en tiempo real y mejorar de forma significativa la naturalidad y estabilidad de la síntesis de voz
Sustituye el enfoque de proporción fija 1:1 del tokenizador de texto-voz de la generación previa, Qwen3-Omni

Backbone: MoE → Hybrid-MoE
Longitud de secuencia: 32k → 256k (audio de 10 horas, video de 400 segundos)
Alcance del captioning: solo audio → audiovisual
Semantic Interruption: no compatible → compatible
WebSearch/Tool: no compatible → compatible
Control/clonación de voz: no compatible → compatible
Estructura de Talker: Dual-Track Autoregression → Interleave + ARIA

Reconocimiento de voz (ASR)
- Antes: 11 idiomas multilingües + 8 dialectos del chino
- Ahora: 74 idiomas + 39 dialectos del chino
Síntesis de voz (TTS)
- Antes: 29 idiomas + 7 dialectos del chino
- Ahora: generación de voz en 36 idiomas (el texto original no detalla una lista separada de dialectos para síntesis)

Audiovisual (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
- DailyOmni: 84.6 vs 82.7
- AVUT: 85.0 vs 85.6
- VideoMME (with audio): 83.7 vs 89.0
- OmniGAIA: 57.2 vs 68.9
Audio (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
- MMAU: 82.2 vs 81.1
- VoiceBench: 93.1 vs 88.9
- Fleurs S2TT (xx↔en top59): 35.4 vs 34.6
Estabilidad de síntesis de voz WER↓ (Custom Voice, Seed-hard)
- Qwen3.5-Omni-Plus: 6.24
- ElevenLabs: 27.70 / Gemini-2.5 Pro: 11.57 / GPT-Audio: 8.19

Offline API: admite análisis de video y audio, así como búsqueda web (parámetro enable_search); se invoca con el SDK compatible con OpenAI para Python
Realtime API: conversación en tiempo real basada en WebSocket; usa el SDK de dashscope y admite streaming de entrada/salida de voz
IDs de modelo disponibles: qwen3.5-omni-plus, qwen3.5-omni-plus-realtime
Soporte para endpoints diferenciados entre China continental (Beijing) e internacional (Singapur)

Voces personalizadas en chino e inglés: 5 opciones, entre ellas Tina, Cindy, Liora Mira, Sunnybobi y Raymond
Voces de escenario con emoción y roleplay: 19 opciones, entre ellas Ethan, Harvey y Maia (en chino e inglés)
Voces en dialectos del chino: 8 opciones, como dialecto de Sichuan, dialecto de Beijing, dialecto de Tianjin y cantonés
Voces multilingües: coreano (Sohee), alemán (Lenn), japonés (Ono Anna), español, francés, ruso y otros, para un total de 23 voces en 23 idiomas