1 puntos por GN⁺ 2025-09-05 | Aún no hay comentarios. | Compartir por WhatsApp
  • Voyager es un nuevo framework de difusión de video que genera secuencias consistentes de nubes de puntos 3D a partir de una imagen de entrada y una trayectoria de cámara definida por el usuario
  • Genera simultáneamente información RGB y de profundidad, lo que permite una reconstrucción 3D eficiente y directa
  • Introduce un pipeline de generación de grandes datasets de video para obtener datos de entrenamiento diversos sin anotaciones 3D manuales
  • En el benchmark WorldScore, muestra un rendimiento sobresaliente frente a varios modelos previos en distintos apartados, como consistencia 3D y alineación de contenido
  • Ofrece inferencia paralela optimizada en una o varias GPU y demuestra diversas posibilidades de aplicación mediante una demo en tiempo real

Introducción del proyecto

  • HunyuanWorld-Voyager genera secuencias de video de nubes de puntos con consistencia global (3D-Consistent) basadas en una imagen de entrada y una trayectoria de movimiento de cámara especificada por el usuario
  • Los usuarios pueden definir libremente la trayectoria de la cámara para crear videos de escenas 3D para exploración del mundo
  • Al generar de forma personalizada y simultánea videos RGB y de profundidad (Depth), permite una reconstrucción 3D rápida y confiable

Arquitectura

  • Voyager está diseñado con dos componentes clave
    • (1) Arquitectura de difusión de video con consistencia global: garantiza la consistencia global de la escena y genera simultáneamente RGB y profundidad en estado alineado
    • (2) Exploración del mundo de largo alcance: permite expansión de escenas consistente con el contexto mediante point culling, inferencia autorregresiva y muestreo de video suave

Motor de datos

  • Para entrenar Voyager, se diseñó por separado un motor de datos escalable basado en un pipeline de reconstrucción de video
    • Para videos generales arbitrarios, automatiza la estimación de pose de cámara y la predicción de profundidad métrica, haciendo posible generar grandes datasets de entrenamiento sin trabajo manual
    • Proporciona un dataset compuesto por más de 100 mil clips de video, incluidos videos filmados del mundo real y datos sintéticos basados en Unreal Engine

Funciones principales y demos

  • Incluye una demo de generación de video interactivo basada en control de trayectoria de cámara
  • Permite reconstruir de inmediato la nube de puntos 3D vinculada al video generado
  • Demuestra varios escenarios de uso, como generación de escenas 3D y estimación de profundidad de video a partir de una sola imagen

Comparación de rendimiento

  • Evaluado en el benchmark WorldScore
    • Voyager logra rendimiento de primer nivel en múltiples categorías (control de cámara, control de objetos, alineación de contenido, consistencia 3D, etc.)
    • En particular, obtiene las puntuaciones más altas en calidad subjetiva (Subjective Quality) y consistencia 3D

Requisitos del sistema

  • Al generar video en resolución 540p en una sola GPU de 80GB, se requieren al menos 60GB de memoria
  • Ofrece rendimiento óptimo en Linux y en un entorno con CUDA 12.4 (se recomiendan 80GB o más)

Rendimiento de inferencia paralela

  • Soporta inferencia paralela multi-GPU basada en xDiT
    • Al usar 8 GPU H20, genera resultados en 288 segundos para 49 fotogramas y 50 pasos (512x768), lo que representa una aceleración de 6.69 veces frente a una sola GPU

Interfaz de usuario y demo

  • Ofrece una demo en tiempo real basada en Gradio
    • Permite generar fácilmente video RGB-D cargando una imagen, seleccionando la dirección de la cámara e ingresando texto de prompt

Publicación del motor de datos

  • También se ofrece como open source un motor escalable de generación de datos a gran escala para entrenamiento de video RGB-D

Citas y referencias

  • Paper en arXiv: “Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation” (arXiv:2506.04225, 2025)
  • HunyuanWorld-Voyager fue diseñado e implementado con base en resultados de investigación sustentados en varios proyectos open source (VGGT, MoGE, Metric3D, etc.)

Valor principal y diferenciadores del proyecto

  • Frente a la mayoría de los proyectos existentes de generación image-to-video, la fortaleza de Voyager está en que puede producir video 3D con consistencia global (basado en nubes de puntos) a partir de una sola imagen y a lo largo de trayectorias variadas
  • Al generar tanto información RGB como de profundidad y ofrecer además un motor automatizado de datos a gran escala, tiene un amplio potencial de uso en distintas industrias, como generación de contenido 3D real, creación de entornos virtuales, gemelos digitales y aplicaciones AIGC

Aún no hay comentarios.

Aún no hay comentarios.