- Voyager es un nuevo framework de difusión de video que genera secuencias consistentes de nubes de puntos 3D a partir de una imagen de entrada y una trayectoria de cámara definida por el usuario
- Genera simultáneamente información RGB y de profundidad, lo que permite una reconstrucción 3D eficiente y directa
- Introduce un pipeline de generación de grandes datasets de video para obtener datos de entrenamiento diversos sin anotaciones 3D manuales
- En el benchmark WorldScore, muestra un rendimiento sobresaliente frente a varios modelos previos en distintos apartados, como consistencia 3D y alineación de contenido
- Ofrece inferencia paralela optimizada en una o varias GPU y demuestra diversas posibilidades de aplicación mediante una demo en tiempo real
Introducción del proyecto
- HunyuanWorld-Voyager genera secuencias de video de nubes de puntos con consistencia global (3D-Consistent) basadas en una imagen de entrada y una trayectoria de movimiento de cámara especificada por el usuario
- Los usuarios pueden definir libremente la trayectoria de la cámara para crear videos de escenas 3D para exploración del mundo
- Al generar de forma personalizada y simultánea videos RGB y de profundidad (Depth), permite una reconstrucción 3D rápida y confiable
Arquitectura
- Voyager está diseñado con dos componentes clave
- (1) Arquitectura de difusión de video con consistencia global: garantiza la consistencia global de la escena y genera simultáneamente RGB y profundidad en estado alineado
- (2) Exploración del mundo de largo alcance: permite expansión de escenas consistente con el contexto mediante point culling, inferencia autorregresiva y muestreo de video suave
Motor de datos
- Para entrenar Voyager, se diseñó por separado un motor de datos escalable basado en un pipeline de reconstrucción de video
- Para videos generales arbitrarios, automatiza la estimación de pose de cámara y la predicción de profundidad métrica, haciendo posible generar grandes datasets de entrenamiento sin trabajo manual
- Proporciona un dataset compuesto por más de 100 mil clips de video, incluidos videos filmados del mundo real y datos sintéticos basados en Unreal Engine
Funciones principales y demos
- Incluye una demo de generación de video interactivo basada en control de trayectoria de cámara
- Permite reconstruir de inmediato la nube de puntos 3D vinculada al video generado
- Demuestra varios escenarios de uso, como generación de escenas 3D y estimación de profundidad de video a partir de una sola imagen
Comparación de rendimiento
- Evaluado en el benchmark WorldScore
- Voyager logra rendimiento de primer nivel en múltiples categorías (control de cámara, control de objetos, alineación de contenido, consistencia 3D, etc.)
- En particular, obtiene las puntuaciones más altas en calidad subjetiva (Subjective Quality) y consistencia 3D
Requisitos del sistema
- Al generar video en resolución 540p en una sola GPU de 80GB, se requieren al menos 60GB de memoria
- Ofrece rendimiento óptimo en Linux y en un entorno con CUDA 12.4 (se recomiendan 80GB o más)
Rendimiento de inferencia paralela
- Soporta inferencia paralela multi-GPU basada en xDiT
- Al usar 8 GPU H20, genera resultados en 288 segundos para 49 fotogramas y 50 pasos (512x768), lo que representa una aceleración de 6.69 veces frente a una sola GPU
Interfaz de usuario y demo
- Ofrece una demo en tiempo real basada en Gradio
- Permite generar fácilmente video RGB-D cargando una imagen, seleccionando la dirección de la cámara e ingresando texto de prompt
Publicación del motor de datos
- También se ofrece como open source un motor escalable de generación de datos a gran escala para entrenamiento de video RGB-D
Citas y referencias
- Paper en arXiv: “Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation” (arXiv:2506.04225, 2025)
- HunyuanWorld-Voyager fue diseñado e implementado con base en resultados de investigación sustentados en varios proyectos open source (VGGT, MoGE, Metric3D, etc.)
Valor principal y diferenciadores del proyecto
- Frente a la mayoría de los proyectos existentes de generación image-to-video, la fortaleza de Voyager está en que puede producir video 3D con consistencia global (basado en nubes de puntos) a partir de una sola imagen y a lo largo de trayectorias variadas
- Al generar tanto información RGB como de profundidad y ofrecer además un motor automatizado de datos a gran escala, tiene un amplio potencial de uso en distintas industrias, como generación de contenido 3D real, creación de entornos virtuales, gemelos digitales y aplicaciones AIGC
Aún no hay comentarios.