1 puntos por GN⁺ 1 시간 전 | 1 comentarios | Compartir por WhatsApp
  • SANA-WM de NVIDIA recibe como entrada una sola imagen y una trayectoria de cámara de 6-DoF para generar video controlable de 1 minuto en 720p en una sola GPU
  • El Hybrid Linear Diffusion Transformer combina Gated DeltaNet por fotograma y softmax periódico para mantener la consistencia en rollouts largos
  • El entrenamiento tomó 15 días en 64 H100, y una variante destilada puede hacer denoising de un clip 720p de 60 segundos en 34 segundos en una sola RTX 5090 con NVFP4
  • Usa unas 213 mil secuencias de video públicas y supervisión de poses 6-DoF en metros para permitir un seguimiento preciso de trayectorias de cámara
  • En el benchmark de modelos de mundo de 1 minuto, logra mayor precisión de seguimiento de acciones que las líneas base open source previas y 36 veces más throughput con calidad visual similar

Modelo y materiales publicados

  • SANA-WM es un modelo de mundo open source de 2.6 mil millones de parámetros que recibe una imagen y una trayectoria de cámara como entrada para generar video controlable de 1 minuto en 720p
  • Participaron Haoyi Zhu, Haozhe Liu, Yuyang Zhao, Tian Ye, Junsong Chen, Jincheng Yu, Tong He, Song Han y Enze Xie de NVIDIA
  • Se ofrecen los materiales Paper, Code y Models soon
  • El título del paper es SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer

Diseño clave y pipeline de generación

  • Estructura híbrida para rollouts largos

    • El Hybrid Linear Diffusion Transformer combina Gated DeltaNet por fotograma y softmax periódico para mantener la consistencia del mundo en rollouts de escala de minutos
    • En la comparación de eficiencia, la variante recurrente escala mejor en memoria y latencia, mientras que el enfoque all-softmax provoca OOM en la generación de 60 segundos
  • Control preciso de cámara

    • SANA-WM recibe una trayectoria de cámara 6-DoF como entrada para generar video que sigue una ruta de cámara métrica
    • Una rama global de poses gruesas y una rama geométrica de alineación fina a nivel de píxel trabajan juntas para mejorar la fidelidad del seguimiento de la trayectoria de cámara
    • Extrae poses de cámara 6-DoF precisas en metros a partir de video público para crear etiquetas de acción de alta calidad, consistentes en el espacio y el tiempo
  • Mejora de calidad en 2 etapas

    • A la salida de la etapa 1 se le aplica un refiner de video largo de 17B para mejorar la calidad y la consistencia a lo largo de toda la secuencia
    • El refiner hace más nítidas las texturas, el movimiento y la calidad de los tramos finales sobre la base del backbone para rollouts largos

Eficiencia de entrenamiento e inferencia

  • El entrenamiento tomó 15 días en 64 H100, y los datos de entrenamiento usaron unas 213 mil secuencias de video públicas junto con supervisión de poses en metros
  • En inferencia, puede generar video 720p de 1 minuto en una sola H100
  • La variante de modelo destilada usa cuantización NVFP4 en una sola RTX 5090 para hacer denoising de un clip 720p de 60 segundos en 34 segundos
  • SANA-WM mejora la eficiencia mientras muestra calidad visual similar a grandes líneas base industriales como LingBot-World y HY-WorldPlay
  • En el benchmark de modelos de mundo de 1 minuto, mostró mayor precisión de seguimiento de acciones que las líneas base open source previas y logró 36 veces más throughput con calidad visual similar

Características de generación visibles en los demos

  • Demo de mundo de 1 minuto

    • Muchos ejemplos de 1 minuto mantienen un punto de observación fijo en primera persona y generan el movimiento del propio entorno sin desplazamiento de cámara ni acciones del observador
    • Video 68: se disponen un sendero alpino nevado, acantilados, la entrada de una cueva, carámbanos, pinos doblados por el viento y un excursionista con chaqueta naranja, mientras se generan partículas de nieve, niebla, ramas moviéndose y nieve en polvo arrastrada
    • Video 72: en un cruce abierto se generan un bosque azul, una torre en ruinas bajo nubes de tormenta y un camino de tres bifurcaciones hacia un pueblo iluminado por el sol
    • Video 81: aparecen una intersección en T en una instalación de investigación sci-fi subterránea cerrada, un corredor izquierdo inundado, un corredor derecho lleno de vapor y una puerta metálica circular abierta hacia la oscuridad
  • Demo de mundo de 20 segundos

    • Video 82: compone el interior de una cabaña abandonada en la montaña, un mapa dibujado a mano, una llave oxidada, una linterna cálida y una cueva dorada más allá de un sendero nevado del bosque, con movimiento en humo de brasas, la llama de la linterna y una ventisca por la rendija de la puerta
    • Video 85: se colocan una puerta circular sellada en unas ruinas de jungla, símbolos verdes y un pequeño robot explorador, mientras laten las enredaderas, insectos, mariposas, charcos y símbolos de la puerta
    • Video 92: se disponen un corredor de piedra de un templo antiguo bajo el agua, columnas de coral, grietas verdosas y un pequeño robot submarino esférico, con peces, burbujas, partículas, algas y caustics añadidos
  • Mismo primer fotograma y prompts repetidos

    • Video 100, Video 101, Video 102: con el mismo prompt de salares, mantiene un auto deportivo, la costra de sal rugosa y la luz solar baja mientras genera polvo de sal, movimiento de nubes, espejismos de calor y líneas de viento en el suelo
    • Video 103, Video 104, Video 105: aparecen como variaciones del mismo prompt agua poco profunda reflectante, piedras de barro para cruzar, un bosque morado, una nave espacial estrellada semisumergida, un astronaut con traje espacial y una pequeña criatura alienígena
    • Video 119, Video 120, Video 121: en una escena de amanecer en una playa tropical, genera olas, hojas de palmera, aves y movimiento de nubes desde un punto de vista fijo

Ejemplos del efecto del refiner

  • Cañón selvático

    • Video 124 y Video 125 son ejemplos de Stage 1 Refined, y componen el interior de un enorme cañón selvático desde un punto de vista fijo en primera persona
    • Incluyen un antiguo templo de piedra apenas visible detrás de una cascada, un avión de papel doblado, aves coloridas, hojas flotantes, paredes de roca mojadas, enredaderas enmarañadas y gotas de agua
    • La cascada, la niebla, el aleteo de las aves, las hojas caídas, las gotas brillantes y el avión de papel vibrando en la corriente de aire se mueven de forma autónoma
  • Antigua puerta tallada en un acantilado

    • Video 126 y Video 127 muestran una antigua puerta dentro de un acantilado en una zona elevada del bosque
    • Desde un sendero cubierto de musgo, una escalinata de piedra conduce a una puerta entreabierta, con columnas esculpidas, estatuas guardianas, muros cubiertos de hiedra, un valle montañoso a la izquierda y un viajero con capa cerca de la entrada
    • La cálida luz solar de la tarde se combina con una luz turquesa que se filtra desde la puerta, mientras hojas, aves, enredaderas y la luz del portal se mueven de forma independiente
  • Templo antiguo sumergido

    • Video 130 y Video 131 presentan lado a lado los resultados de Stage 1 y refined
    • Entre columnas cubiertas de coral, una pasarela de piedra se extiende, y una brillante luz verde se filtra desde la grieta central de un muro ritual agrietado, alineándose con símbolos luminosos en el piso
    • Un pequeño robot submarino esférico flota al frente, mientras peces, burbujas, partículas, algas, caustics y símbolos verdes se mueven de forma autónoma

Notas de producción de los demos

  • Todos los videos de la página se generaron con la variante bidireccional de SANA-WM y luego pasaron por el refiner de video largo en 2 etapas
  • Las imágenes del primer fotograma de todos los videos demo de la galería se generaron con OpenAI GPT Image 2 y Google Nano Banana Pro, y SANA-WM animó esas imágenes estáticas para convertirlas en videos de 1 minuto

1 comentarios

 
GN⁺ 1 시간 전
Comentarios en Hacker News
  • Desde la perspectiva de los videojuegos, este tipo de modelos de mundo no me terminan de convencer
    No soy desarrollador de juegos, pero los juegos que me gustan tienen una intencionalidad profunda. Por ejemplo, en los juegos de FromSoftware o en Lies of P, por lo general no hay ni un solo objeto puesto al azar, y casi todo está colocado de forma deliberada
    En contraste, los juegos sin esa intencionalidad se sienten muertos, rompen la inmersión o te sacan de la experiencia que el desarrollador quiere transmitir
    Me cuesta imaginar que un modelo de mundo pueda llegar al punto de captar esa intencionalidad. Incluso los mejores LLM suelen fallar al escribir, y también al programar, y la superficie de experiencia de esos medios parece menor que el rango de interacción de usuario en un videojuego
    Tampoco está claro cómo podría usarse de forma modular un modelo de mundo así cuando una persona quiere crear una experiencia intencional. Los LLM están algo modularizados: uno genera texto, una persona lo corrige y otro LLM continúa, pero no sé si con la salida de video pasa lo mismo
    Al final, el modelo de mundo en sí es impresionante, pero como con los LLM para escritura, no está claro hacia qué estamos construyendo. No sé si esto solo permitirá crear experiencias menos satisfactorias y menos humanas más rápido, o si el beneficio más inmediato será que sistemas robóticos construyan un mundo, simulen y se imaginen las consecuencias de sus acciones
    En general, se siente como si estuviéramos corriendo hacia un mundo donde disminuye toda la intencionalidad detrás de lo que experimentamos, y donde todo se vuelve más impersonal y más ruidoso

    • Aquí hay dos cosas. Primero, incluso sin IA se pueden hacer tanto entornos cuidadosamente diseñados como entornos de generación procedimental, y ambos pueden hacerse bien. Del mismo modo, ambos pueden fracasar por razones propias de cada enfoque
      Una generación procedimental descuidada puede producir poca variedad o resultados sin sentido, y una colocación manual descuidada puede romper las reglas que el juego establece y crear una experiencia inconsistente
      Mantener la consistencia interna mediante colocación explícita se vuelve más difícil a medida que aumenta la escala. Si la consistencia interna es un factor que afecta la calidad, a partir de cierto tamaño el contenido generado podría convertirse en una solución de mayor calidad
      Segundo, al crear contenido con IA se aplican las mismas reglas sobre el descuido. Hay herramientas de IA generativa con muy pocas opciones para componer lo que quieres, pero eso no es una propiedad esencial de la IA. A veces es porque la gente quiere interfaces simples, y otras porque los generadores todavía son nuevos y, antes que ofrecer control fino, están más enfocados en lograr que hagan algo, así que sus mecanismos de control son limitados
      En cierto sentido, esto todavía es tan nuevo que cuesta explicar qué tipo de control sería deseable, y me parece razonable primero crear el generador y ver qué quiere hacer la gente antes de desarrollar las funciones de control que se desean. También existen herramientas para controlar a alto nivel el estilo de lo generado, la colocación de objetos, el movimiento de cámara y la composición de escena, pero mucha menos gente tiene acceso a ellas
      La IA puede hacer posible cosas que antes no se podían crear, pero para hacer algo especial sigue haciendo falta cuidado
    • Exacto. Vamos a inundar el mundo con contenido aparentemente plausible pero vacío. Incluso será posible pegarle cualquier tema que quieras
      A la gente con poco criterio no le importará, pero el resto tendrá que dedicar cada vez más tiempo a encontrar 1 entre 100 cosas, con 99 siendo puro ruido
      Se parece bastante a Amazon. La combinación de un ordenamiento roto, precios unitarios manipulados y una avalancha de copias baratas hace que el usuario se rinda y compre lo que aparece arriba: productos recomendados o copias de Amazon
      Si buscas varios productos en la web y luego vas a la pestaña de imágenes, muchas veces los enlaces de productos de Amazon ocupan entre el 50% y el 90% de los resultados
    • Creo que estos modelos se parecerán a la vieja imprenta de Gutenberg. La cantidad de contenido va a aumentar de golpe, y la mayor parte no será muy buena
      Pero gracias al volumen abrumador, en conjunto también podría producirse más contenido de alta calidad. Dicho de otro modo, la calidad promedio de los juegos bajará, pero aumentará la velocidad a la que aparecen juegos realmente “excelentes”
    • Creo que eso señala la esencia de lo que está pasando hoy con la IA en general. Gráficos, imágenes, video, música, texto, código: todo se ve impresionante, pero se siente hueco y sin valor
      En cualquier tarea de la vida, la calidad del resultado es un reflejo directo de la atención y la intención que hubo detrás. Simplificándolo, es un reflejo de cuánto esfuerzo se puso, y eso siempre se nota. También pasa en la era de la IA
      Solo que ahora el camino desde cero hasta el resultado es mucho más corto, así que aumenta el volumen y se diluye la impresión general. Estos resultados baratos abaratan todo campo que tocan, así que para destacar probablemente hará falta todavía más esfuerzo
    • Ejemplos como FromSoftware o Lies of P, donde cada objeto está colocado de forma intencional, son bastante específicos y algo sesgados
      También hay muchos buenos juegos que no dependen de una colocación de objetos tan detallada. Por ejemplo, muchos juegos de Bethesda eran excelentes porque la mayoría de los objetos eran decoración inútil; cuando sus juegos más recientes empezaron a darle propósito a toda esa chatarra, rompieron esa regla y salieron mucho peor
      También hay muchos buenos juegos que no se apoyan para nada en esa intencionalidad, y que literalmente son ideas geniales lanzadas al azar y pegadas entre sí, o generadas proceduralmente
  • Que digan que los pesos del modelo saldrán “pronto” significa, por ahora, que es vaporware. Si ni siquiera han publicado los pesos, ¿cómo pueden llamarlo “open source”?
    Es natural que todo el mundo sea escéptico ante la idea de obtener esos resultados con un modelo de 2.8B. Sin los pesos, eso no pasó

  • Dicen que es 2.6B, pero después aparece esta frase
    “Un refinador dedicado de video largo de 17B mejora la textura, el movimiento y la calidad de los tramos finales sobre un backbone de despliegue largo”

  • Todo se ve como un videojuego. Supongo que habrán usado Unreal Engine para generar datos sintéticos de entrenamiento

  • Es bastante impresionante que esto funcione en una GPU. Veo gente expresando quejas y preocupaciones, pero todavía estamos al principio, y este será el peor estado que tendrá, así que me entusiasma mucho el impacto que esto puede tener en los juegos

  • Puede ser una pregunta tonta, pero ¿qué parte de lo que se genera aquí es el “mundo”? ¿Hay alguna representación abstracta del espacio físico real, por ejemplo algo como un grafo de escena al estilo de un motor de juegos, o solo significa “este generador de video es más consistente físicamente que otros generadores de video”?

    • Un modelo de mundo es un modelo que predice el siguiente estado de un mundo simulado dado el estado actual y, opcionalmente, las acciones de un agente que vive en ese mundo. Es bastante parecido a un modelo de lenguaje que predice la siguiente palabra
      Ese estado del mundo puede ser cualquier cosa, pero en los últimos 1 o 2 años el término se ha usado en un sentido más acotado. Se refiere a modelos de generación de video que reaccionan de forma natural a manipulaciones como en un juego y parecen simular un videojuego. Pero no hay un estado adicional detrás de los cuadros de video
    • En este contexto, mundo significa que estos videos son interactivos como si fueran videojuegos. En el ejemplo enlazado se pueden ver entradas de teclado y mouse
      El modelo fue entrenado para mantener la consistencia de la escena durante alrededor de 1 minuto, así que si miras alrededor y luego vuelves a mirar en dirección de un objeto que salió de la pantalla, ese objeto reaparece
  • ¿Dónde está la descarga? No la encuentro en GitHub, y el botón de descarga de la página web está desactivado
    Y esto, ¿correrá en una RTX 4090 con 24GB de memoria?

  • Advertencia: al ver los videos con reproducción automática en esa página, mi descarga subió hasta 350Mbps

    • Me di cuenta recién después de dejar la página abierta en una pestaña durante más de una hora. ¿De verdad está transmitiendo y retransmitiendo el mismo video una y otra vez? ¿Es demasiado para cachearlo y por eso lo vuelve a enviar infinitamente?
      Ojalá nadie deje esa página abierta en una red medida o con límite de datos
      Me sorprende que GitHub no haya bajado esa página
      Los investigadores de IA están tan acostumbrados a quemar recursos de cómputo y de red que dejan de pensar en una página web que reproduce y repite automáticamente varios videos en HD?
    • Con mi conexión de 70Mbps ni siquiera pude hacer que los videos cargaran en buffer, así que dejé de intentar verlos. Tampoco parecían de tan alta calidad
  • Que un modelo de 2.6B genere un video de 1 minuto con ese nivel de calidad y consistencia me parece absurdamente impresionante

  • El video del hombre caminando en la primera montaña nevada tiene un problema de consistencia en la entrada de la cueva. ¿Eso es “esperable” para un modelo de este tamaño?

    • La mayoría de los videos parecen tener algo de ese problema. Por ejemplo, en el video de la biblioteca, la forma de los libros sobre la mesa cambia a veces
      Si los ejemplos son representativos, el efecto del ‘Refiner’ parece funcionar al revés. En todos los casos, la imagen de la etapa 1 se ve mejor que la imagen ‘refinada’. Hay menos desorden, se ve más realista y, para quienes conozcan la expresión, se siente con menos “cowbell”
    • Todos los videos muestran problemas de consistencia bastante notorios cuando la dirección vuelve hacia un área que ya se había mostrado