Lanzamiento oficial de Seedance 2.0

El equipo Seed de ByteDance presentó un modelo de próxima generación para generación de video multimodal que integra soporte para entradas de texto, imagen, audio y video
Se reforzaron la precisión física y el realismo, logrando alta estabilidad y consistencia incluso en interacciones complejas entre personas y escenas de movimiento
Puede recibir al mismo tiempo hasta 9 imágenes, 3 videos y 3 audios, reflejando composición, movimiento, efectos especiales y sonido, y permite control preciso mediante funciones de edición y extensión de video
Admite salidas multicámara de alta calidad de 15 segundos y audio estéreo, mejorando de forma importante la eficiencia en la producción de contenido industrial para cine, publicidad, juegos y más
En evaluaciones integrales registró calidad de generación y cumplimiento de instrucciones al nivel más alto de la industria, y más adelante se planea mejorar la estabilidad fina y la consistencia entre múltiples personajes

Descripción general de Seedance 2.0

Seedance 2.0, presentado el 12 de febrero de 2026, es el modelo integrado multimodal de generación de audio y video de ByteDance
- Procesa al mismo tiempo cuatro tipos de entrada: texto, imagen, audio y video
- Frente a la versión 1.5, mejoró la calidad de generación, la precisión física, el realismo y el nivel de control
Está orientado a la producción de video industrial y admite videos de 15 segundos, multicámara y audio estéreo
Actualmente puede probarse en plataformas como Jimeng AI y Doubao(豆包)

Mayor estabilidad en movimientos e interacciones complejas
- Reproduce de manera natural los movimientos de múltiples personas y las reglas físicas
- Por ejemplo, en una escena de patinaje artístico de dos personas, implementa de forma realista saltos, giros y aterrizajes
Expansión de entradas multimodales
- Permite combinar como entrada hasta 9 imágenes, 3 videos, 3 audios e instrucciones en lenguaje natural
- Genera contenido reflejando la composición, el movimiento, el trabajo de cámara, los efectos especiales y los elementos sonoros de los materiales de entrada
Control preciso y funciones de edición
- Mejora la consistencia con las instrucciones y reproduce con precisión incluso guiones complejos
- Con las funciones de extensión de video y edición parcial se pueden modificar escenas, personajes y movimientos
Generación de audio de alta calidad
- Genera al mismo tiempo música de fondo, efectos de sonido y narración en estéreo de dos canales
- En casos como ASMR y escenas de wuxia, logra texturas sonoras detalladas y sincronización visual
Aplicabilidad en toda la industria
- Se adapta a diversos entornos de producción, como publicidad, cine, juegos y videos narrados
- Con IA permite reducir costos de efectos especiales y filmación y acortar los tiempos de producción

Calidad de generación de video
- Se ubica al nivel líder de la industria en estabilidad del movimiento, cumplimiento de instrucciones y acabado estético
- Expresa con precisión movimientos complejos, expresiones faciales y dirección de cámara
- Algunos aspectos de estabilidad fina y dinamismo aún requieren mejoras
Calidad de generación de audio
- Mejoró la sensación de capas del sonido estéreo y el audio adaptado a cada escena
- Se reforzó la correspondencia visual de diálogos, música y efectos de sonido
- Aún existen algunas limitaciones en la sincronización labial de múltiples personajes y en la distorsión de voz
Generación con referencia multimodal
- Comprende y refleja con precisión diversas combinaciones de entrada
- Garantiza alta consistencia y realismo en tareas de edición y extensión
- La consistencia entre múltiples personajes y la precisión en la reproducción de texto aún necesitan mejoras adicionales

Seedance 2.0 evoluciona de la “generación sincronizada de sonido e imagen” a la “generación multimodal integrada”
Resuelve problemas de cumplimiento de leyes físicas y consistencia a largo plazo, ampliando la libertad de los creadores
En el futuro, mediante estabilización fina de la calidad y alineación basada en retroalimentación humana, apunta a convertirse en una herramienta de producción de video con IA más eficiente y creativa