Seedance 1.0 - El modelo de generación de video multishot de ByteDance

(seed.bytedance.com)

4 puntos por GN⁺ 2025-06-14 | 1 comentarios | Compartir por WhatsApp

Un modelo de generación de video basado en texto e imágenes y orientado a múltiples tomas, que muestra un rendimiento más preciso y flexible que los modelos existentes en comprensión semántica e interpretación de prompts
Ofrece resultados en alta resolución de 1080p junto con transiciones de escena fluidas, gran riqueza de detalles y una sensación cinematográfica
Mejora el rendimiento general mediante fine-tuning detallado y un mecanismo de recompensas RLHF especializado en video
A partir de descripciones de texto o imágenes, puede producir contenido visual dinámico e inmersivo que cumpla con los requisitos solicitados
Con una arquitectura eficiente y un nuevo paradigma de entrenamiento, admite tanto la generación multishot como tareas de texto a video e imagen a video

Introducción a Seedance 1.0

Recientemente, la gran innovación en los modelos de difusión ha impulsado un rápido avance en la tecnología de generación de video
Sin embargo, la mayoría de los modelos existentes todavía tienen dificultades para equilibrar la ejecución de instrucciones (prompts), la naturalidad del movimiento y la calidad visual
Seedance 1.0 es un modelo basado en generación de video que aplica las siguientes mejoras técnicas principales
- (i) Recolección de datos de múltiples fuentes con subtítulos de video precisos, lo que permite un aprendizaje integral en diversos escenarios
- (ii) Una arquitectura eficiente y un paradigma de entrenamiento que admite simultáneamente la generación multishot y tareas de texto→video e imagen→video
- (iii) Posprocesamiento optimizado minuciosamente: fine-tuning supervisado avanzado, RLHF especializado en video y un mecanismo de recompensas multidimensional que mejoran de forma importante el rendimiento general
- (iv) Aceleración del modelo: mejora de 10 veces en la velocidad de inferencia mediante destilación multietapa y optimización a nivel de sistema
Puede generar un video 1080p de 5 segundos en apenas 41.4 segundos con una GPU NVIDIA-L20
En comparación con los modelos de generación de video más recientes, destaca en flexibilidad espacio-temporal, estabilidad estructural, cumplimiento de instrucciones en situaciones múltiples complejas, y consistencia en multishot y storytelling

1 comentarios

GN⁺ 2025-06-14

Comentarios de Hacker News

Espero con ganas un futuro en el que este tipo de funciones se sientan demasiado comunes y hasta aburridas
- Me hace imaginar un nivel en el que pueda crear por diversión, desde mi celular y en un chat grupal con amigos, una animación completa de 24 episodios con voces incluidas
- Ya ahora se pueden hacer tantas cosas que cuesta creerlo, y también resulta curioso pensar que pronto a nadie le va a importar
- Señala que, por más que una serie de 24 episodios se haga con un prompt súper simple, al final a nadie le va a interesar
  - Piensa que la IA no eleva el valor del contenido, sino que destruye la escasez y con eso hace que pierda significado
  - También deja la comparación con “Tea. Earl Grey. Hot.”, como metáfora de algo que simplemente sale de forma mecánica
- Si crear contenido se vuelve así de fácil, se pregunta quién va a dedicar tanto tiempo a ver videos largos
  - Supone que al final cada quien va a estar demasiado ocupado disfrutando su propio contenido generado
- Yo también llevo mucho tiempo esperando esta tecnología
  - Por ejemplo, me emociona la idea de poder hacer yo mismo algo como una película de Shadowrun
- Se proyecta que la cantidad de contenido creado en un mes va a superar la suma de todo el contenido producido en toda la historia humana hasta ahora
  - En vez de puro medio masivo tipo Disney, Marvel o Star Wars, entusiasma la idea de poder disfrutar medios de cola larga que encajen exactamente con los intereses de cada quien
  - Si a alguien le interesan Egipto y Atlantis, hasta puede imaginar un mundo donde vea al instante una serie steampunk en la que ambas civilizaciones luchan entre sí, con un tono serio como el de The Wire
  - Se espera una era en la que puedan hacerse realidad proyectos que antes jamás se habrían producido
  - Van a aparecer buenos creadores y, así como pasó con la música indie, los cómics indie o los juegos indie, más creadores diversos van a poder destacar
  - El problema real va a ser la descubribilidad
  - Enfatiza que la vieja estructura de la industria, donde al final había que caer por paracaídas en uno de apenas 500 lugares limitados al año, se va a derrumbar, y muchas personas talentosas con su propia visión van a poder intentar cosas grandes
  - Modelos como el de VivziePop(wiki de Vivienne Medrano) o PsychicPebbles(wiki de Zach Hadel), que empezaron en YouTube y crecieron hasta convertirse en IP enormes, probablemente serán el estándar del futuro
  - Calcula que la innovación en el mundo creativo no va a mejorar solo 2 a 10 veces, sino cerca de 1000 veces
  - Hasta ahora no le gustaban la mayoría de las películas o series porque no iban con sus gustos, pero sí le ha gustado el medio como tal
  - Ahora le entusiasma muchísimo la idea de un mundo donde pueda encontrarse contenido hecho exactamente a su gusto y según sus intereses
En el futuro, probablemente será como el algoritmo de TikTok: mientras miro, entenderá mis gustos y generará videos nuevos al momento
- Será un sistema que aprenda lo que te gusta con cada scroll y te muestre más videos generados automáticamente
- Si al modelo se le da suficiente contexto, el contenido al que una persona reacciona puede volverse tan fascinante y adictivo que no pueda apartar la vista de la pantalla
  - Lo ve como una idea escalofriante, pero al mismo tiempo inevitable a largo plazo
- Lamenta que, en vez de simplemente seguir los gustos del usuario, también exista el riesgo de que intenten manipular esos gustos para maximizar la participación
- También está la opinión de que esta dirección tecnológica en realidad está algo alejada de la razón por la que la gente usa redes sociales
  - Como ejemplo, dice que ChatGPT también podría generar comentarios sin fin, pero igual nosotros seguimos viniendo aquí, a Hacker News
- Más adelante podría aparecer incluso una especie de “modo en vivo”, que genere videos al instante en tiempo real adaptados a la voz del usuario
  - Parece algo que incluso podría integrarse en Netflix
- Se pregunta si también aprenderá que uno odia los anuncios y si eso se reflejará bien
Entre los videos de muestra hay escenas bastante impresionantes, pero en algunas se notan movimientos poco naturales con frecuencia
- Parece como si los datos de entrenamiento se hubieran concentrado justo en la parte más exagerada de TikTok, y da la impresión de que no puede mantener una sola toma por más de 5 segundos
- Claramente resuelve bien escenas difíciles, pero la evaluación es que curiosamente se equivoca mucho en partes que parecen simples
  - En el piano de apertura y en la cámara que usa el fotógrafo aparece escrito “AI text”; al anciano del café se le atraviesa la mano por la boina, y la niña que voltea en la playa gira la cabeza como un búho
  - En la escena del chico andando en bicicleta por una ciudad europea, termina con una presencia cifrada montando un monociclo bajo un árbol en la plaza
- ByteDance ya llevaba varias semanas probando internamente este modelo en Model Arena con el nombre de “Unicorn”
  - Ya está registrando puntajes por encima de Google Veo 3
  - ArtificialAnalysis: ir al ranking de Model Arena
Se plantea que dentro de 5 años podría existir un mundo en el que todo el contenido se genere en tiempo real
- Yo digo algo y recibo de inmediato como respuesta un video de 5 segundos
- El video dejaría de ser un “activo fijo” para convertirse en una respuesta efímera, creada en el momento y luego desaparecida
- El video ya no sería un archivo pasivo que se sube, sino la salida de un flujo de datos
- La UI del futuro que reemplace el swipe probablemente será el prompt por voz
- Lo que hace Seedance no es tanto experimentar con un nuevo formato, sino con un sistema de contenido generado en runtime
- En el backend, comprimen la model infra con comet y configuran todo para ejecutar LLMs de forma más barata y rápida
- Si esta combinación funciona, será posible ofrecer generación de contenido a gran escala sin lotes enormes ni cachés
- Si esto realmente se consolida, el feed va a dejar de ser scroll para convertirse en un render loop
- Todo esto ya no sería un “servicio de medios”, sino un sistema de hosting de modelos de IA de baja latencia con apariencia de plataforma de video
La calidad del video es excelente, pero surge la pregunta: ¿y dónde está el sonido?
- Menciona que VEO3 puede generar buen video, pero que el nivel del audio es lo que realmente marca una gran diferencia
- Trabajo con soluciones de IA en una gran empresa de streaming de video
  - El problema de VEO3 es que tiene poca consistencia entre prompts
  - Por ejemplo, aunque subas una imagen de referencia del personaje, si generas por separado “una novia anciana se inclina” y “una novia anciana recoge una moneda”, el personaje se ve diferente cada vez
  - Claro, VEO3 ofrece función de image-to-video, pero todavía le falta mucho para crear escenas reales
  - Va a mejorar con el tiempo, pero en este momento personalmente me gusta que Seedance se haya enfocado en la consistencia entre tomas
  - Espera que eso también meta presión sobre VEO3 y acelere la mejora de esa función
Preguntan por qué en todos los videos de ejemplo aparece un gran círculo
También surge la pregunta de dónde se puede usar Seedance
- Seedance 1.0 se integrará en varias plataformas como Doubao y Jimeng a partir de junio de 2025
- Parece que esta función pronto llegará directo a TikTok
  - Señala que dentro de la propia plataforma de TikTok habrá una enorme avalancha de contenido generado, y que encontrarán una forma de monetizar el deseo de todo el mundo de convertirse en creador
  - También se especula que la política de la plataforma cambiará de “puedes subir contenido gratis” a “solo puedes subirlo pasando por un gateway de IA, y además pagando esa tarifa”
Comenta que en videos con mucho movimiento a veces siente náuseas o mareo
- Ya había tenido una experiencia parecida cuando se mostró Sora por primera vez, aunque en Seedance parece un poco más atenuado
- Dice que en la demo de Veo 3 no sintió eso, y pregunta si otras personas también percibieron algo similar en las muestras de Seedance con mucho movimiento
Expresa curiosidad por saber si el realismo del video generado por IA ya se acerca al nivel de una película animada CGI tradicional
- Supone que un experto naturalmente podría señalar defectos claros en los resultados actuales
- Aun así, le interesa la posibilidad de que más adelante se puedan retocar con prompts solo segmentos concretos
- También le da curiosidad cuánto recurso computacional o dinero cuesta realmente, comparado con el costo por segundo de CGI de alto presupuesto en Hollywood
- Últimamente hasta el CGI normal (no animado) que se ve en Hollywood a veces tiene una calidad baja, así que sus expectativas tampoco son tan altas
  - De hecho, el proceso de aplicar y gestionar cambios en resultados CGI también parece bastante interesante
Personalmente le parece raro que “Old man” no se vea tan viejo (bromea con que quizá es porque él mismo ya está envejeciendo)

Seedance 1.0 - El modelo de generación de video multishot de ByteDance

Introducción a Seedance 1.0

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News