- El modelo más reciente del equipo Qwen de Alibaba, capaz de comprender y generar texto, imágenes, audio y video, refuerza de forma significativa el procesamiento de todas las modalidades al aplicar Hybrid-Attention MoE a la arquitectura Thinker-Talker
- Ofrece versiones Instruct en 3 tamaños: Plus, Flash y Light, con soporte para entradas de contexto largo de 256k, más de 10 horas de audio y más de 400 segundos de video en 720P
- Qwen3.5-Omni-Plus logró SOTA en 215 benchmarks de comprensión de audio y video y superó a Gemini-3.1 Pro en comprensión general de audio, razonamiento, traducción y conversación
- En comparación con la generación anterior, el soporte multilingüe se amplió enormemente: reconocimiento de voz en 74 idiomas y 39 dialectos del chino, síntesis de voz en 36 idiomas, además de nuevas funciones interactivas como clonación de voz, búsqueda web, conversación en tiempo real y control de emoción/velocidad/volumen
- La tecnología ARIA (Adaptive Rate Interleave Alignment) resuelve problemas de omisiones y lecturas erróneas causados por las diferencias de eficiencia en la codificación de tokens de texto y voz, mejorando de forma drástica la naturalidad y estabilidad de la síntesis de voz en streaming
Resumen del modelo
- Qwen3.5-Omni es el LLM completamente omnimodal más reciente de Qwen, capaz de procesar texto, imágenes, audio y video
- Tanto Thinker como Talker adoptan una estructura Hybrid-Attention MoE, mejorando el rendimiento multimodal
- Está disponible en 3 versiones Instruct: Plus, Flash y Light, y todas admiten entradas de contexto largo de 256k
- Entrada de audio: más de 10 horas
- Entrada de video en 720P·1FPS: más de 400 segundos
- Realizó preentrenamiento omnimodal con una enorme cantidad de texto, datos visuales y más de 100 millones de horas de datos audiovisuales
- Ya está disponible a través de la Offline API y la Realtime API
Rendimiento principal (Offline)
- Qwen3.5-Omni-Plus alcanzó SOTA en 215 subtareas/benchmarks de comprensión, razonamiento e interacción audiovisual
- Incluye 3 benchmarks audiovisuales, 5 benchmarks de audio, 8 benchmarks de ASR, 156 S2TT por idioma y 43 ASR por idioma
- Supera a Gemini-3.1 Pro en comprensión general de audio, razonamiento, reconocimiento, traducción y conversación, y alcanza el nivel de Gemini-3.1 Pro en comprensión audiovisual global
- El rendimiento en visión y texto está al nivel de los modelos Qwen3.5 del mismo tamaño
- Función de captioning audiovisual: admite descripciones detalladas y estructuradas, segmentación automática y anotaciones con marcas de tiempo, así como explicaciones sobre personajes y relaciones de audio, con un nivel de detalle de escenario
- Audio-Visual Vibe Coding: se confirmó una nueva capacidad omnimodal que genera código directamente a partir de instrucciones audiovisuales
Funciones principales (Realtime)
- Semantic Interruption: usando reconocimiento de intención para turn-taking basado en Odin, evita cortes innecesarios causados por backchanneling y ruido de fondo; viene activado por defecto en la API
- Soporte nativo para WebSearch y FunctionCall complejos: el modelo decide de forma autónoma si debe invocar búsquedas web para responder consultas en tiempo real
- Control de voz de extremo a extremo: sigue instrucciones como una persona y permite controlar libremente el volumen, la velocidad y la emoción de la voz
- Clonación de voz (Voice Clone): el usuario puede subir su voz para personalizar la voz del asistente de IA; todo se ofrece mediante la Realtime API
- Es posible cambiar el estilo de conversación y la identidad del modelo modificando el system prompt
Tecnología ARIA
- Para resolver problemas de omisiones, lecturas erróneas y pronunciación poco clara en interacciones de voz en streaming causados por las diferencias de eficiencia en la codificación de tokens de texto y voz, se propone la tecnología ARIA (Adaptive Rate Interleave Alignment)
- Alinea dinámicamente (interleave) unidades de texto y voz para mantener el rendimiento en tiempo real y mejorar de forma significativa la naturalidad y estabilidad de la síntesis de voz
- Sustituye el enfoque de proporción fija 1:1 del tokenizador de texto-voz de la generación previa, Qwen3-Omni
Cambios de arquitectura (frente a Qwen3-Omni)
- Backbone: MoE → Hybrid-MoE
- Longitud de secuencia: 32k → 256k (audio de 10 horas, video de 400 segundos)
- Alcance del captioning: solo audio → audiovisual
- Semantic Interruption: no compatible → compatible
- WebSearch/Tool: no compatible → compatible
- Control/clonación de voz: no compatible → compatible
- Estructura de Talker: Dual-Track Autoregression → Interleave + ARIA
Expansión del soporte multilingüe
- Reconocimiento de voz (ASR)
- Antes: 11 idiomas multilingües + 8 dialectos del chino
- Ahora: 74 idiomas + 39 dialectos del chino
- Síntesis de voz (TTS)
- Antes: 29 idiomas + 7 dialectos del chino
- Ahora: generación de voz en 36 idiomas (el texto original no detalla una lista separada de dialectos para síntesis)
Cifras de benchmarks (extractos principales)
- Audiovisual (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
- DailyOmni: 84.6 vs 82.7
- AVUT: 85.0 vs 85.6
- VideoMME (with audio): 83.7 vs 89.0
- OmniGAIA: 57.2 vs 68.9
- Audio (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
- MMAU: 82.2 vs 81.1
- VoiceBench: 93.1 vs 88.9
- Fleurs S2TT (xx↔en top59): 35.4 vs 34.6
- Estabilidad de síntesis de voz WER↓ (Custom Voice, Seed-hard)
- Qwen3.5-Omni-Plus: 6.24
- ElevenLabs: 27.70 / Gemini-2.5 Pro: 11.57 / GPT-Audio: 8.19
API y uso
- Offline API: admite análisis de video y audio, así como búsqueda web (parámetro
enable_search); se invoca con el SDK compatible con OpenAI para Python
- Realtime API: conversación en tiempo real basada en WebSocket; usa el SDK de dashscope y admite streaming de entrada/salida de voz
- IDs de modelo disponibles:
qwen3.5-omni-plus, qwen3.5-omni-plus-realtime
- Soporte para endpoints diferenciados entre China continental (Beijing) e internacional (Singapur)
Lista de voces
- Voces personalizadas en chino e inglés: 5 opciones, entre ellas Tina, Cindy, Liora Mira, Sunnybobi y Raymond
- Voces de escenario con emoción y roleplay: 19 opciones, entre ellas Ethan, Harvey y Maia (en chino e inglés)
- Voces en dialectos del chino: 8 opciones, como dialecto de Sichuan, dialecto de Beijing, dialecto de Tianjin y cantonés
- Voces multilingües: coreano (Sohee), alemán (Lenn), japonés (Ono Anna), español, francés, ruso y otros, para un total de 23 voces en 23 idiomas
Aún no hay comentarios.