SANA-WM, modelo de mundo open source de 2.6 mil millones de parámetros para video 720p de 1 minuto

(nvlabs.github.io)

1 puntos por GN⁺ 1 시간 전 | 1 comentarios | Compartir por WhatsApp

SANA-WM de NVIDIA recibe como entrada una sola imagen y una trayectoria de cámara de 6-DoF para generar video controlable de 1 minuto en 720p en una sola GPU
El Hybrid Linear Diffusion Transformer combina Gated DeltaNet por fotograma y softmax periódico para mantener la consistencia en rollouts largos
El entrenamiento tomó 15 días en 64 H100, y una variante destilada puede hacer denoising de un clip 720p de 60 segundos en 34 segundos en una sola RTX 5090 con NVFP4
Usa unas 213 mil secuencias de video públicas y supervisión de poses 6-DoF en metros para permitir un seguimiento preciso de trayectorias de cámara
En el benchmark de modelos de mundo de 1 minuto, logra mayor precisión de seguimiento de acciones que las líneas base open source previas y 36 veces más throughput con calidad visual similar

Modelo y materiales publicados

SANA-WM es un modelo de mundo open source de 2.6 mil millones de parámetros que recibe una imagen y una trayectoria de cámara como entrada para generar video controlable de 1 minuto en 720p
Participaron Haoyi Zhu, Haozhe Liu, Yuyang Zhao, Tian Ye, Junsong Chen, Jincheng Yu, Tong He, Song Han y Enze Xie de NVIDIA
Se ofrecen los materiales Paper, Code y Models soon
El título del paper es SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer

Diseño clave y pipeline de generación

Estructura híbrida para rollouts largos
- El Hybrid Linear Diffusion Transformer combina Gated DeltaNet por fotograma y softmax periódico para mantener la consistencia del mundo en rollouts de escala de minutos
- En la comparación de eficiencia, la variante recurrente escala mejor en memoria y latencia, mientras que el enfoque all-softmax provoca OOM en la generación de 60 segundos
Control preciso de cámara
- SANA-WM recibe una trayectoria de cámara 6-DoF como entrada para generar video que sigue una ruta de cámara métrica
- Una rama global de poses gruesas y una rama geométrica de alineación fina a nivel de píxel trabajan juntas para mejorar la fidelidad del seguimiento de la trayectoria de cámara
- Extrae poses de cámara 6-DoF precisas en metros a partir de video público para crear etiquetas de acción de alta calidad, consistentes en el espacio y el tiempo
Mejora de calidad en 2 etapas
- A la salida de la etapa 1 se le aplica un refiner de video largo de 17B para mejorar la calidad y la consistencia a lo largo de toda la secuencia
- El refiner hace más nítidas las texturas, el movimiento y la calidad de los tramos finales sobre la base del backbone para rollouts largos

Eficiencia de entrenamiento e inferencia

El entrenamiento tomó 15 días en 64 H100, y los datos de entrenamiento usaron unas 213 mil secuencias de video públicas junto con supervisión de poses en metros
En inferencia, puede generar video 720p de 1 minuto en una sola H100
La variante de modelo destilada usa cuantización NVFP4 en una sola RTX 5090 para hacer denoising de un clip 720p de 60 segundos en 34 segundos
SANA-WM mejora la eficiencia mientras muestra calidad visual similar a grandes líneas base industriales como LingBot-World y HY-WorldPlay
En el benchmark de modelos de mundo de 1 minuto, mostró mayor precisión de seguimiento de acciones que las líneas base open source previas y logró 36 veces más throughput con calidad visual similar

Características de generación visibles en los demos

Demo de mundo de 1 minuto
- Muchos ejemplos de 1 minuto mantienen un punto de observación fijo en primera persona y generan el movimiento del propio entorno sin desplazamiento de cámara ni acciones del observador
- Video 68: se disponen un sendero alpino nevado, acantilados, la entrada de una cueva, carámbanos, pinos doblados por el viento y un excursionista con chaqueta naranja, mientras se generan partículas de nieve, niebla, ramas moviéndose y nieve en polvo arrastrada
- Video 72: en un cruce abierto se generan un bosque azul, una torre en ruinas bajo nubes de tormenta y un camino de tres bifurcaciones hacia un pueblo iluminado por el sol
- Video 81: aparecen una intersección en T en una instalación de investigación sci-fi subterránea cerrada, un corredor izquierdo inundado, un corredor derecho lleno de vapor y una puerta metálica circular abierta hacia la oscuridad
Demo de mundo de 20 segundos
- Video 82: compone el interior de una cabaña abandonada en la montaña, un mapa dibujado a mano, una llave oxidada, una linterna cálida y una cueva dorada más allá de un sendero nevado del bosque, con movimiento en humo de brasas, la llama de la linterna y una ventisca por la rendija de la puerta
- Video 85: se colocan una puerta circular sellada en unas ruinas de jungla, símbolos verdes y un pequeño robot explorador, mientras laten las enredaderas, insectos, mariposas, charcos y símbolos de la puerta
- Video 92: se disponen un corredor de piedra de un templo antiguo bajo el agua, columnas de coral, grietas verdosas y un pequeño robot submarino esférico, con peces, burbujas, partículas, algas y caustics añadidos
Mismo primer fotograma y prompts repetidos
- Video 100, Video 101, Video 102: con el mismo prompt de salares, mantiene un auto deportivo, la costra de sal rugosa y la luz solar baja mientras genera polvo de sal, movimiento de nubes, espejismos de calor y líneas de viento en el suelo
- Video 103, Video 104, Video 105: aparecen como variaciones del mismo prompt agua poco profunda reflectante, piedras de barro para cruzar, un bosque morado, una nave espacial estrellada semisumergida, un astronaut con traje espacial y una pequeña criatura alienígena
- Video 119, Video 120, Video 121: en una escena de amanecer en una playa tropical, genera olas, hojas de palmera, aves y movimiento de nubes desde un punto de vista fijo

Ejemplos del efecto del refiner

Cañón selvático
- Video 124 y Video 125 son ejemplos de Stage 1 Refined, y componen el interior de un enorme cañón selvático desde un punto de vista fijo en primera persona
- Incluyen un antiguo templo de piedra apenas visible detrás de una cascada, un avión de papel doblado, aves coloridas, hojas flotantes, paredes de roca mojadas, enredaderas enmarañadas y gotas de agua
- La cascada, la niebla, el aleteo de las aves, las hojas caídas, las gotas brillantes y el avión de papel vibrando en la corriente de aire se mueven de forma autónoma
Antigua puerta tallada en un acantilado
- Video 126 y Video 127 muestran una antigua puerta dentro de un acantilado en una zona elevada del bosque
- Desde un sendero cubierto de musgo, una escalinata de piedra conduce a una puerta entreabierta, con columnas esculpidas, estatuas guardianas, muros cubiertos de hiedra, un valle montañoso a la izquierda y un viajero con capa cerca de la entrada
- La cálida luz solar de la tarde se combina con una luz turquesa que se filtra desde la puerta, mientras hojas, aves, enredaderas y la luz del portal se mueven de forma independiente
Templo antiguo sumergido
- Video 130 y Video 131 presentan lado a lado los resultados de Stage 1 y refined
- Entre columnas cubiertas de coral, una pasarela de piedra se extiende, y una brillante luz verde se filtra desde la grieta central de un muro ritual agrietado, alineándose con símbolos luminosos en el piso
- Un pequeño robot submarino esférico flota al frente, mientras peces, burbujas, partículas, algas, caustics y símbolos verdes se mueven de forma autónoma

Notas de producción de los demos

Todos los videos de la página se generaron con la variante bidireccional de SANA-WM y luego pasaron por el refiner de video largo en 2 etapas
Las imágenes del primer fotograma de todos los videos demo de la galería se generaron con OpenAI GPT Image 2 y Google Nano Banana Pro, y SANA-WM animó esas imágenes estáticas para convertirlas en videos de 1 minuto

1 comentarios

GN⁺ 1 시간 전

Comentarios en Hacker News

Desde la perspectiva de los videojuegos, este tipo de modelos de mundo no me terminan de convencer
No soy desarrollador de juegos, pero los juegos que me gustan tienen una intencionalidad profunda. Por ejemplo, en los juegos de FromSoftware o en Lies of P, por lo general no hay ni un solo objeto puesto al azar, y casi todo está colocado de forma deliberada
En contraste, los juegos sin esa intencionalidad se sienten muertos, rompen la inmersión o te sacan de la experiencia que el desarrollador quiere transmitir
Me cuesta imaginar que un modelo de mundo pueda llegar al punto de captar esa intencionalidad. Incluso los mejores LLM suelen fallar al escribir, y también al programar, y la superficie de experiencia de esos medios parece menor que el rango de interacción de usuario en un videojuego
Tampoco está claro cómo podría usarse de forma modular un modelo de mundo así cuando una persona quiere crear una experiencia intencional. Los LLM están algo modularizados: uno genera texto, una persona lo corrige y otro LLM continúa, pero no sé si con la salida de video pasa lo mismo
Al final, el modelo de mundo en sí es impresionante, pero como con los LLM para escritura, no está claro hacia qué estamos construyendo. No sé si esto solo permitirá crear experiencias menos satisfactorias y menos humanas más rápido, o si el beneficio más inmediato será que sistemas robóticos construyan un mundo, simulen y se imaginen las consecuencias de sus acciones
En general, se siente como si estuviéramos corriendo hacia un mundo donde disminuye toda la intencionalidad detrás de lo que experimentamos, y donde todo se vuelve más impersonal y más ruidoso
- Aquí hay dos cosas. Primero, incluso sin IA se pueden hacer tanto entornos cuidadosamente diseñados como entornos de generación procedimental, y ambos pueden hacerse bien. Del mismo modo, ambos pueden fracasar por razones propias de cada enfoque
  Una generación procedimental descuidada puede producir poca variedad o resultados sin sentido, y una colocación manual descuidada puede romper las reglas que el juego establece y crear una experiencia inconsistente
  Mantener la consistencia interna mediante colocación explícita se vuelve más difícil a medida que aumenta la escala. Si la consistencia interna es un factor que afecta la calidad, a partir de cierto tamaño el contenido generado podría convertirse en una solución de mayor calidad
  Segundo, al crear contenido con IA se aplican las mismas reglas sobre el descuido. Hay herramientas de IA generativa con muy pocas opciones para componer lo que quieres, pero eso no es una propiedad esencial de la IA. A veces es porque la gente quiere interfaces simples, y otras porque los generadores todavía son nuevos y, antes que ofrecer control fino, están más enfocados en lograr que hagan algo, así que sus mecanismos de control son limitados
  En cierto sentido, esto todavía es tan nuevo que cuesta explicar qué tipo de control sería deseable, y me parece razonable primero crear el generador y ver qué quiere hacer la gente antes de desarrollar las funciones de control que se desean. También existen herramientas para controlar a alto nivel el estilo de lo generado, la colocación de objetos, el movimiento de cámara y la composición de escena, pero mucha menos gente tiene acceso a ellas
  La IA puede hacer posible cosas que antes no se podían crear, pero para hacer algo especial sigue haciendo falta cuidado
- Exacto. Vamos a inundar el mundo con contenido aparentemente plausible pero vacío. Incluso será posible pegarle cualquier tema que quieras
  A la gente con poco criterio no le importará, pero el resto tendrá que dedicar cada vez más tiempo a encontrar 1 entre 100 cosas, con 99 siendo puro ruido
  Se parece bastante a Amazon. La combinación de un ordenamiento roto, precios unitarios manipulados y una avalancha de copias baratas hace que el usuario se rinda y compre lo que aparece arriba: productos recomendados o copias de Amazon
  Si buscas varios productos en la web y luego vas a la pestaña de imágenes, muchas veces los enlaces de productos de Amazon ocupan entre el 50% y el 90% de los resultados
- Creo que estos modelos se parecerán a la vieja imprenta de Gutenberg. La cantidad de contenido va a aumentar de golpe, y la mayor parte no será muy buena
  Pero gracias al volumen abrumador, en conjunto también podría producirse más contenido de alta calidad. Dicho de otro modo, la calidad promedio de los juegos bajará, pero aumentará la velocidad a la que aparecen juegos realmente “excelentes”
- Creo que eso señala la esencia de lo que está pasando hoy con la IA en general. Gráficos, imágenes, video, música, texto, código: todo se ve impresionante, pero se siente hueco y sin valor
  En cualquier tarea de la vida, la calidad del resultado es un reflejo directo de la atención y la intención que hubo detrás. Simplificándolo, es un reflejo de cuánto esfuerzo se puso, y eso siempre se nota. También pasa en la era de la IA
  Solo que ahora el camino desde cero hasta el resultado es mucho más corto, así que aumenta el volumen y se diluye la impresión general. Estos resultados baratos abaratan todo campo que tocan, así que para destacar probablemente hará falta todavía más esfuerzo
- Ejemplos como FromSoftware o Lies of P, donde cada objeto está colocado de forma intencional, son bastante específicos y algo sesgados
  También hay muchos buenos juegos que no dependen de una colocación de objetos tan detallada. Por ejemplo, muchos juegos de Bethesda eran excelentes porque la mayoría de los objetos eran decoración inútil; cuando sus juegos más recientes empezaron a darle propósito a toda esa chatarra, rompieron esa regla y salieron mucho peor
  También hay muchos buenos juegos que no se apoyan para nada en esa intencionalidad, y que literalmente son ideas geniales lanzadas al azar y pegadas entre sí, o generadas proceduralmente
Que digan que los pesos del modelo saldrán “pronto” significa, por ahora, que es vaporware. Si ni siquiera han publicado los pesos, ¿cómo pueden llamarlo “open source”?
Es natural que todo el mundo sea escéptico ante la idea de obtener esos resultados con un modelo de 2.8B. Sin los pesos, eso no pasó
- El modelo está aquí: https://huggingface.co/Efficient-Large-Model/SANA-Video_2B_7...
- Siendo justos, toda la base de código sí es open source, así que en ese sentido está mejor que la mayoría de los modelos con pesos abiertos. Aun así, entiendo el sentimiento
  https://github.com/NVlabs/Sana
- Entonces claramente no está abierto. Me pregunto si se puede cambiar el título
Dicen que es 2.6B, pero después aparece esta frase
“Un refinador dedicado de video largo de 17B mejora la textura, el movimiento y la calidad de los tramos finales sobre un backbone de despliegue largo”
Todo se ve como un videojuego. Supongo que habrán usado Unreal Engine para generar datos sintéticos de entrenamiento
Es bastante impresionante que esto funcione en una GPU. Veo gente expresando quejas y preocupaciones, pero todavía estamos al principio, y este será el peor estado que tendrá, así que me entusiasma mucho el impacto que esto puede tener en los juegos
Puede ser una pregunta tonta, pero ¿qué parte de lo que se genera aquí es el “mundo”? ¿Hay alguna representación abstracta del espacio físico real, por ejemplo algo como un grafo de escena al estilo de un motor de juegos, o solo significa “este generador de video es más consistente físicamente que otros generadores de video”?
- Un modelo de mundo es un modelo que predice el siguiente estado de un mundo simulado dado el estado actual y, opcionalmente, las acciones de un agente que vive en ese mundo. Es bastante parecido a un modelo de lenguaje que predice la siguiente palabra
  Ese estado del mundo puede ser cualquier cosa, pero en los últimos 1 o 2 años el término se ha usado en un sentido más acotado. Se refiere a modelos de generación de video que reaccionan de forma natural a manipulaciones como en un juego y parecen simular un videojuego. Pero no hay un estado adicional detrás de los cuadros de video
- En este contexto, mundo significa que estos videos son interactivos como si fueran videojuegos. En el ejemplo enlazado se pueden ver entradas de teclado y mouse
  El modelo fue entrenado para mantener la consistencia de la escena durante alrededor de 1 minuto, así que si miras alrededor y luego vuelves a mirar en dirección de un objeto que salió de la pantalla, ese objeto reaparece
¿Dónde está la descarga? No la encuentro en GitHub, y el botón de descarga de la página web está desactivado
Y esto, ¿correrá en una RTX 4090 con 24GB de memoria?
- Hay una versión de 5 segundos: https://huggingface.co/Efficient-Large-Model/SANA-Video_2B_7...
- Si haces scroll hacia abajo hay más videos, y parece que el modelo se publicará “pronto”
Advertencia: al ver los videos con reproducción automática en esa página, mi descarga subió hasta 350Mbps
- Me di cuenta recién después de dejar la página abierta en una pestaña durante más de una hora. ¿De verdad está transmitiendo y retransmitiendo el mismo video una y otra vez? ¿Es demasiado para cachearlo y por eso lo vuelve a enviar infinitamente?
  Ojalá nadie deje esa página abierta en una red medida o con límite de datos
  Me sorprende que GitHub no haya bajado esa página
  Los investigadores de IA están tan acostumbrados a quemar recursos de cómputo y de red que dejan de pensar en una página web que reproduce y repite automáticamente varios videos en HD?
- Con mi conexión de 70Mbps ni siquiera pude hacer que los videos cargaran en buffer, así que dejé de intentar verlos. Tampoco parecían de tan alta calidad
Que un modelo de 2.6B genere un video de 1 minuto con ese nivel de calidad y consistencia me parece absurdamente impresionante
El video del hombre caminando en la primera montaña nevada tiene un problema de consistencia en la entrada de la cueva. ¿Eso es “esperable” para un modelo de este tamaño?
- La mayoría de los videos parecen tener algo de ese problema. Por ejemplo, en el video de la biblioteca, la forma de los libros sobre la mesa cambia a veces
  Si los ejemplos son representativos, el efecto del ‘Refiner’ parece funcionar al revés. En todos los casos, la imagen de la etapa 1 se ve mejor que la imagen ‘refinada’. Hay menos desorden, se ve más realista y, para quienes conozcan la expresión, se siente con menos “cowbell”
- Todos los videos muestran problemas de consistencia bastante notorios cuando la dirección vuelve hacia un área que ya se había mostrado

SANA-WM, modelo de mundo open source de 2.6 mil millones de parámetros para video 720p de 1 minuto

Modelo y materiales publicados

Diseño clave y pipeline de generación

Estructura híbrida para rollouts largos

Control preciso de cámara

Mejora de calidad en 2 etapas

Eficiencia de entrenamiento e inferencia

Características de generación visibles en los demos

Demo de mundo de 1 minuto

Demo de mundo de 20 segundos

Mismo primer fotograma y prompts repetidos

Ejemplos del efecto del refiner

Cañón selvático

Antigua puerta tallada en un acantilado

Templo antiguo sumergido

Notas de producción de los demos

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News