7 puntos por GN⁺ 2026-03-31 | Aún no hay comentarios. | Compartir por WhatsApp
  • El modelo más reciente del equipo Qwen de Alibaba, capaz de comprender y generar texto, imágenes, audio y video, refuerza de forma significativa el procesamiento de todas las modalidades al aplicar Hybrid-Attention MoE a la arquitectura Thinker-Talker
  • Ofrece versiones Instruct en 3 tamaños: Plus, Flash y Light, con soporte para entradas de contexto largo de 256k, más de 10 horas de audio y más de 400 segundos de video en 720P
  • Qwen3.5-Omni-Plus logró SOTA en 215 benchmarks de comprensión de audio y video y superó a Gemini-3.1 Pro en comprensión general de audio, razonamiento, traducción y conversación
  • En comparación con la generación anterior, el soporte multilingüe se amplió enormemente: reconocimiento de voz en 74 idiomas y 39 dialectos del chino, síntesis de voz en 36 idiomas, además de nuevas funciones interactivas como clonación de voz, búsqueda web, conversación en tiempo real y control de emoción/velocidad/volumen
  • La tecnología ARIA (Adaptive Rate Interleave Alignment) resuelve problemas de omisiones y lecturas erróneas causados por las diferencias de eficiencia en la codificación de tokens de texto y voz, mejorando de forma drástica la naturalidad y estabilidad de la síntesis de voz en streaming

Resumen del modelo

  • Qwen3.5-Omni es el LLM completamente omnimodal más reciente de Qwen, capaz de procesar texto, imágenes, audio y video
  • Tanto Thinker como Talker adoptan una estructura Hybrid-Attention MoE, mejorando el rendimiento multimodal
  • Está disponible en 3 versiones Instruct: Plus, Flash y Light, y todas admiten entradas de contexto largo de 256k
    • Entrada de audio: más de 10 horas
    • Entrada de video en 720P·1FPS: más de 400 segundos
  • Realizó preentrenamiento omnimodal con una enorme cantidad de texto, datos visuales y más de 100 millones de horas de datos audiovisuales
  • Ya está disponible a través de la Offline API y la Realtime API

Rendimiento principal (Offline)

  • Qwen3.5-Omni-Plus alcanzó SOTA en 215 subtareas/benchmarks de comprensión, razonamiento e interacción audiovisual
    • Incluye 3 benchmarks audiovisuales, 5 benchmarks de audio, 8 benchmarks de ASR, 156 S2TT por idioma y 43 ASR por idioma
  • Supera a Gemini-3.1 Pro en comprensión general de audio, razonamiento, reconocimiento, traducción y conversación, y alcanza el nivel de Gemini-3.1 Pro en comprensión audiovisual global
  • El rendimiento en visión y texto está al nivel de los modelos Qwen3.5 del mismo tamaño
  • Función de captioning audiovisual: admite descripciones detalladas y estructuradas, segmentación automática y anotaciones con marcas de tiempo, así como explicaciones sobre personajes y relaciones de audio, con un nivel de detalle de escenario
  • Audio-Visual Vibe Coding: se confirmó una nueva capacidad omnimodal que genera código directamente a partir de instrucciones audiovisuales

Funciones principales (Realtime)

  • Semantic Interruption: usando reconocimiento de intención para turn-taking basado en Odin, evita cortes innecesarios causados por backchanneling y ruido de fondo; viene activado por defecto en la API
  • Soporte nativo para WebSearch y FunctionCall complejos: el modelo decide de forma autónoma si debe invocar búsquedas web para responder consultas en tiempo real
  • Control de voz de extremo a extremo: sigue instrucciones como una persona y permite controlar libremente el volumen, la velocidad y la emoción de la voz
  • Clonación de voz (Voice Clone): el usuario puede subir su voz para personalizar la voz del asistente de IA; todo se ofrece mediante la Realtime API
  • Es posible cambiar el estilo de conversación y la identidad del modelo modificando el system prompt

Tecnología ARIA

  • Para resolver problemas de omisiones, lecturas erróneas y pronunciación poco clara en interacciones de voz en streaming causados por las diferencias de eficiencia en la codificación de tokens de texto y voz, se propone la tecnología ARIA (Adaptive Rate Interleave Alignment)
  • Alinea dinámicamente (interleave) unidades de texto y voz para mantener el rendimiento en tiempo real y mejorar de forma significativa la naturalidad y estabilidad de la síntesis de voz
  • Sustituye el enfoque de proporción fija 1:1 del tokenizador de texto-voz de la generación previa, Qwen3-Omni

Cambios de arquitectura (frente a Qwen3-Omni)

  • Backbone: MoE → Hybrid-MoE
  • Longitud de secuencia: 32k → 256k (audio de 10 horas, video de 400 segundos)
  • Alcance del captioning: solo audio → audiovisual
  • Semantic Interruption: no compatible → compatible
  • WebSearch/Tool: no compatible → compatible
  • Control/clonación de voz: no compatible → compatible
  • Estructura de Talker: Dual-Track Autoregression → Interleave + ARIA

Expansión del soporte multilingüe

  • Reconocimiento de voz (ASR)
    • Antes: 11 idiomas multilingües + 8 dialectos del chino
    • Ahora: 74 idiomas + 39 dialectos del chino
  • Síntesis de voz (TTS)
    • Antes: 29 idiomas + 7 dialectos del chino
    • Ahora: generación de voz en 36 idiomas (el texto original no detalla una lista separada de dialectos para síntesis)

Cifras de benchmarks (extractos principales)

  • Audiovisual (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
    • DailyOmni: 84.6 vs 82.7
    • AVUT: 85.0 vs 85.6
    • VideoMME (with audio): 83.7 vs 89.0
    • OmniGAIA: 57.2 vs 68.9
  • Audio (Qwen3.5-Omni-Plus vs Gemini-3.1 Pro)
    • MMAU: 82.2 vs 81.1
    • VoiceBench: 93.1 vs 88.9
    • Fleurs S2TT (xx↔en top59): 35.4 vs 34.6
  • Estabilidad de síntesis de voz WER↓ (Custom Voice, Seed-hard)
    • Qwen3.5-Omni-Plus: 6.24
    • ElevenLabs: 27.70 / Gemini-2.5 Pro: 11.57 / GPT-Audio: 8.19

API y uso

  • Offline API: admite análisis de video y audio, así como búsqueda web (parámetro enable_search); se invoca con el SDK compatible con OpenAI para Python
  • Realtime API: conversación en tiempo real basada en WebSocket; usa el SDK de dashscope y admite streaming de entrada/salida de voz
  • IDs de modelo disponibles: qwen3.5-omni-plus, qwen3.5-omni-plus-realtime
  • Soporte para endpoints diferenciados entre China continental (Beijing) e internacional (Singapur)

Lista de voces

  • Voces personalizadas en chino e inglés: 5 opciones, entre ellas Tina, Cindy, Liora Mira, Sunnybobi y Raymond
  • Voces de escenario con emoción y roleplay: 19 opciones, entre ellas Ethan, Harvey y Maia (en chino e inglés)
  • Voces en dialectos del chino: 8 opciones, como dialecto de Sichuan, dialecto de Beijing, dialecto de Tianjin y cantonés
  • Voces multilingües: coreano (Sohee), alemán (Lenn), japonés (Ono Anna), español, francés, ruso y otros, para un total de 23 voces en 23 idiomas

Aún no hay comentarios.

Aún no hay comentarios.