4 puntos por GN⁺ 2025-06-14 | 1 comentarios | Compartir por WhatsApp
  • Un modelo de generación de video basado en texto e imágenes y orientado a múltiples tomas, que muestra un rendimiento más preciso y flexible que los modelos existentes en comprensión semántica e interpretación de prompts
  • Ofrece resultados en alta resolución de 1080p junto con transiciones de escena fluidas, gran riqueza de detalles y una sensación cinematográfica
  • Mejora el rendimiento general mediante fine-tuning detallado y un mecanismo de recompensas RLHF especializado en video
  • A partir de descripciones de texto o imágenes, puede producir contenido visual dinámico e inmersivo que cumpla con los requisitos solicitados
  • Con una arquitectura eficiente y un nuevo paradigma de entrenamiento, admite tanto la generación multishot como tareas de texto a video e imagen a video

Introducción a Seedance 1.0

  • Recientemente, la gran innovación en los modelos de difusión ha impulsado un rápido avance en la tecnología de generación de video
  • Sin embargo, la mayoría de los modelos existentes todavía tienen dificultades para equilibrar la ejecución de instrucciones (prompts), la naturalidad del movimiento y la calidad visual
  • Seedance 1.0 es un modelo basado en generación de video que aplica las siguientes mejoras técnicas principales
    • (i) Recolección de datos de múltiples fuentes con subtítulos de video precisos, lo que permite un aprendizaje integral en diversos escenarios
    • (ii) Una arquitectura eficiente y un paradigma de entrenamiento que admite simultáneamente la generación multishot y tareas de texto→video e imagen→video
    • (iii) Posprocesamiento optimizado minuciosamente: fine-tuning supervisado avanzado, RLHF especializado en video y un mecanismo de recompensas multidimensional que mejoran de forma importante el rendimiento general
    • (iv) Aceleración del modelo: mejora de 10 veces en la velocidad de inferencia mediante destilación multietapa y optimización a nivel de sistema
  • Puede generar un video 1080p de 5 segundos en apenas 41.4 segundos con una GPU NVIDIA-L20
  • En comparación con los modelos de generación de video más recientes, destaca en flexibilidad espacio-temporal, estabilidad estructural, cumplimiento de instrucciones en situaciones múltiples complejas, y consistencia en multishot y storytelling

1 comentarios

 
GN⁺ 2025-06-14
Comentarios de Hacker News
  • Espero con ganas un futuro en el que este tipo de funciones se sientan demasiado comunes y hasta aburridas
    • Me hace imaginar un nivel en el que pueda crear por diversión, desde mi celular y en un chat grupal con amigos, una animación completa de 24 episodios con voces incluidas
    • Ya ahora se pueden hacer tantas cosas que cuesta creerlo, y también resulta curioso pensar que pronto a nadie le va a importar
    • Señala que, por más que una serie de 24 episodios se haga con un prompt súper simple, al final a nadie le va a interesar
      • Piensa que la IA no eleva el valor del contenido, sino que destruye la escasez y con eso hace que pierda significado
      • También deja la comparación con “Tea. Earl Grey. Hot.”, como metáfora de algo que simplemente sale de forma mecánica
    • Si crear contenido se vuelve así de fácil, se pregunta quién va a dedicar tanto tiempo a ver videos largos
      • Supone que al final cada quien va a estar demasiado ocupado disfrutando su propio contenido generado
    • Yo también llevo mucho tiempo esperando esta tecnología
      • Por ejemplo, me emociona la idea de poder hacer yo mismo algo como una película de Shadowrun
    • Se proyecta que la cantidad de contenido creado en un mes va a superar la suma de todo el contenido producido en toda la historia humana hasta ahora
      • En vez de puro medio masivo tipo Disney, Marvel o Star Wars, entusiasma la idea de poder disfrutar medios de cola larga que encajen exactamente con los intereses de cada quien
      • Si a alguien le interesan Egipto y Atlantis, hasta puede imaginar un mundo donde vea al instante una serie steampunk en la que ambas civilizaciones luchan entre sí, con un tono serio como el de The Wire
      • Se espera una era en la que puedan hacerse realidad proyectos que antes jamás se habrían producido
      • Van a aparecer buenos creadores y, así como pasó con la música indie, los cómics indie o los juegos indie, más creadores diversos van a poder destacar
      • El problema real va a ser la descubribilidad
      • Enfatiza que la vieja estructura de la industria, donde al final había que caer por paracaídas en uno de apenas 500 lugares limitados al año, se va a derrumbar, y muchas personas talentosas con su propia visión van a poder intentar cosas grandes
      • Modelos como el de VivziePop(wiki de Vivienne Medrano) o PsychicPebbles(wiki de Zach Hadel), que empezaron en YouTube y crecieron hasta convertirse en IP enormes, probablemente serán el estándar del futuro
      • Calcula que la innovación en el mundo creativo no va a mejorar solo 2 a 10 veces, sino cerca de 1000 veces
      • Hasta ahora no le gustaban la mayoría de las películas o series porque no iban con sus gustos, pero sí le ha gustado el medio como tal
      • Ahora le entusiasma muchísimo la idea de un mundo donde pueda encontrarse contenido hecho exactamente a su gusto y según sus intereses
  • En el futuro, probablemente será como el algoritmo de TikTok: mientras miro, entenderá mis gustos y generará videos nuevos al momento
    • Será un sistema que aprenda lo que te gusta con cada scroll y te muestre más videos generados automáticamente
    • Si al modelo se le da suficiente contexto, el contenido al que una persona reacciona puede volverse tan fascinante y adictivo que no pueda apartar la vista de la pantalla
      • Lo ve como una idea escalofriante, pero al mismo tiempo inevitable a largo plazo
    • Lamenta que, en vez de simplemente seguir los gustos del usuario, también exista el riesgo de que intenten manipular esos gustos para maximizar la participación
    • También está la opinión de que esta dirección tecnológica en realidad está algo alejada de la razón por la que la gente usa redes sociales
      • Como ejemplo, dice que ChatGPT también podría generar comentarios sin fin, pero igual nosotros seguimos viniendo aquí, a Hacker News
    • Más adelante podría aparecer incluso una especie de “modo en vivo”, que genere videos al instante en tiempo real adaptados a la voz del usuario
      • Parece algo que incluso podría integrarse en Netflix
    • Se pregunta si también aprenderá que uno odia los anuncios y si eso se reflejará bien
  • Entre los videos de muestra hay escenas bastante impresionantes, pero en algunas se notan movimientos poco naturales con frecuencia
    • Parece como si los datos de entrenamiento se hubieran concentrado justo en la parte más exagerada de TikTok, y da la impresión de que no puede mantener una sola toma por más de 5 segundos
    • Claramente resuelve bien escenas difíciles, pero la evaluación es que curiosamente se equivoca mucho en partes que parecen simples
      • En el piano de apertura y en la cámara que usa el fotógrafo aparece escrito “AI text”; al anciano del café se le atraviesa la mano por la boina, y la niña que voltea en la playa gira la cabeza como un búho
      • En la escena del chico andando en bicicleta por una ciudad europea, termina con una presencia cifrada montando un monociclo bajo un árbol en la plaza
    • ByteDance ya llevaba varias semanas probando internamente este modelo en Model Arena con el nombre de “Unicorn”
  • Se plantea que dentro de 5 años podría existir un mundo en el que todo el contenido se genere en tiempo real
    • Yo digo algo y recibo de inmediato como respuesta un video de 5 segundos
    • El video dejaría de ser un “activo fijo” para convertirse en una respuesta efímera, creada en el momento y luego desaparecida
    • El video ya no sería un archivo pasivo que se sube, sino la salida de un flujo de datos
    • La UI del futuro que reemplace el swipe probablemente será el prompt por voz
    • Lo que hace Seedance no es tanto experimentar con un nuevo formato, sino con un sistema de contenido generado en runtime
    • En el backend, comprimen la model infra con comet y configuran todo para ejecutar LLMs de forma más barata y rápida
    • Si esta combinación funciona, será posible ofrecer generación de contenido a gran escala sin lotes enormes ni cachés
    • Si esto realmente se consolida, el feed va a dejar de ser scroll para convertirse en un render loop
    • Todo esto ya no sería un “servicio de medios”, sino un sistema de hosting de modelos de IA de baja latencia con apariencia de plataforma de video
  • La calidad del video es excelente, pero surge la pregunta: ¿y dónde está el sonido?
    • Menciona que VEO3 puede generar buen video, pero que el nivel del audio es lo que realmente marca una gran diferencia
    • Trabajo con soluciones de IA en una gran empresa de streaming de video
      • El problema de VEO3 es que tiene poca consistencia entre prompts
      • Por ejemplo, aunque subas una imagen de referencia del personaje, si generas por separado “una novia anciana se inclina” y “una novia anciana recoge una moneda”, el personaje se ve diferente cada vez
      • Claro, VEO3 ofrece función de image-to-video, pero todavía le falta mucho para crear escenas reales
      • Va a mejorar con el tiempo, pero en este momento personalmente me gusta que Seedance se haya enfocado en la consistencia entre tomas
      • Espera que eso también meta presión sobre VEO3 y acelere la mejora de esa función
  • Preguntan por qué en todos los videos de ejemplo aparece un gran círculo
  • También surge la pregunta de dónde se puede usar Seedance
    • Seedance 1.0 se integrará en varias plataformas como Doubao y Jimeng a partir de junio de 2025
    • Parece que esta función pronto llegará directo a TikTok
      • Señala que dentro de la propia plataforma de TikTok habrá una enorme avalancha de contenido generado, y que encontrarán una forma de monetizar el deseo de todo el mundo de convertirse en creador
      • También se especula que la política de la plataforma cambiará de “puedes subir contenido gratis” a “solo puedes subirlo pasando por un gateway de IA, y además pagando esa tarifa”
  • Comenta que en videos con mucho movimiento a veces siente náuseas o mareo
    • Ya había tenido una experiencia parecida cuando se mostró Sora por primera vez, aunque en Seedance parece un poco más atenuado
    • Dice que en la demo de Veo 3 no sintió eso, y pregunta si otras personas también percibieron algo similar en las muestras de Seedance con mucho movimiento
  • Expresa curiosidad por saber si el realismo del video generado por IA ya se acerca al nivel de una película animada CGI tradicional
    • Supone que un experto naturalmente podría señalar defectos claros en los resultados actuales
    • Aun así, le interesa la posibilidad de que más adelante se puedan retocar con prompts solo segmentos concretos
    • También le da curiosidad cuánto recurso computacional o dinero cuesta realmente, comparado con el costo por segundo de CGI de alto presupuesto en Hollywood
    • Últimamente hasta el CGI normal (no animado) que se ve en Hollywood a veces tiene una calidad baja, así que sus expectativas tampoco son tan altas
      • De hecho, el proceso de aplicar y gestionar cambios en resultados CGI también parece bastante interesante
  • Personalmente le parece raro que “Old man” no se vea tan viejo (bromea con que quizá es porque él mismo ya está envejeciendo)