Voyager – modelo de generación de video interactivo con reconstrucción 3D en tiempo real

(github.com/Tencent-Hunyuan)

1 puntos por GN⁺ 2025-09-05 | 1 comentarios | Compartir por WhatsApp

Voyager es un nuevo framework de difusión de video que genera secuencias consistentes de nubes de puntos 3D a partir de una imagen de entrada y una trayectoria de cámara definida por el usuario
Genera simultáneamente información RGB y de profundidad, lo que permite una reconstrucción 3D eficiente y directa
Introduce un pipeline de generación de grandes datasets de video para obtener datos de entrenamiento diversos sin anotaciones 3D manuales
En el benchmark WorldScore, muestra un rendimiento sobresaliente frente a varios modelos previos en distintos apartados, como consistencia 3D y alineación de contenido
Ofrece inferencia paralela optimizada en una o varias GPU y demuestra diversas posibilidades de aplicación mediante una demo en tiempo real

Introducción del proyecto

HunyuanWorld-Voyager genera secuencias de video de nubes de puntos con consistencia global (3D-Consistent) basadas en una imagen de entrada y una trayectoria de movimiento de cámara especificada por el usuario
Los usuarios pueden definir libremente la trayectoria de la cámara para crear videos de escenas 3D para exploración del mundo
Al generar de forma personalizada y simultánea videos RGB y de profundidad (Depth), permite una reconstrucción 3D rápida y confiable

Arquitectura

Voyager está diseñado con dos componentes clave
- (1) Arquitectura de difusión de video con consistencia global: garantiza la consistencia global de la escena y genera simultáneamente RGB y profundidad en estado alineado
- (2) Exploración del mundo de largo alcance: permite expansión de escenas consistente con el contexto mediante point culling, inferencia autorregresiva y muestreo de video suave

Motor de datos

Para entrenar Voyager, se diseñó por separado un motor de datos escalable basado en un pipeline de reconstrucción de video
- Para videos generales arbitrarios, automatiza la estimación de pose de cámara y la predicción de profundidad métrica, haciendo posible generar grandes datasets de entrenamiento sin trabajo manual
- Proporciona un dataset compuesto por más de 100 mil clips de video, incluidos videos filmados del mundo real y datos sintéticos basados en Unreal Engine

Funciones principales y demos

Incluye una demo de generación de video interactivo basada en control de trayectoria de cámara
Permite reconstruir de inmediato la nube de puntos 3D vinculada al video generado
Demuestra varios escenarios de uso, como generación de escenas 3D y estimación de profundidad de video a partir de una sola imagen

Comparación de rendimiento

Evaluado en el benchmark WorldScore
- Voyager logra rendimiento de primer nivel en múltiples categorías (control de cámara, control de objetos, alineación de contenido, consistencia 3D, etc.)
- En particular, obtiene las puntuaciones más altas en calidad subjetiva (Subjective Quality) y consistencia 3D

Requisitos del sistema

Al generar video en resolución 540p en una sola GPU de 80GB, se requieren al menos 60GB de memoria
Ofrece rendimiento óptimo en Linux y en un entorno con CUDA 12.4 (se recomiendan 80GB o más)

Rendimiento de inferencia paralela

Soporta inferencia paralela multi-GPU basada en xDiT
- Al usar 8 GPU H20, genera resultados en 288 segundos para 49 fotogramas y 50 pasos (512x768), lo que representa una aceleración de 6.69 veces frente a una sola GPU

Interfaz de usuario y demo

Ofrece una demo en tiempo real basada en Gradio
- Permite generar fácilmente video RGB-D cargando una imagen, seleccionando la dirección de la cámara e ingresando texto de prompt

Publicación del motor de datos

También se ofrece como open source un motor escalable de generación de datos a gran escala para entrenamiento de video RGB-D

Citas y referencias

Paper en arXiv: “Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation” (arXiv:2506.04225, 2025)
HunyuanWorld-Voyager fue diseñado e implementado con base en resultados de investigación sustentados en varios proyectos open source (VGGT, MoGE, Metric3D, etc.)

Valor principal y diferenciadores del proyecto

Frente a la mayoría de los proyectos existentes de generación image-to-video, la fortaleza de Voyager está en que puede producir video 3D con consistencia global (basado en nubes de puntos) a partir de una sola imagen y a lo largo de trayectorias variadas
Al generar tanto información RGB como de profundidad y ofrecer además un motor automatizado de datos a gran escala, tiene un amplio potencial de uso en distintas industrias, como generación de contenido 3D real, creación de entornos virtuales, gemelos digitales y aplicaciones AIGC

1 comentarios

GN⁺ 2025-09-05

Comentarios de Hacker News

Esta licencia tiene condiciones bastante interesantes

Se puede usar en cualquier parte del mundo, excepto en la UE, el Reino Unido y Corea del Sur
Yo esperaba que excluyeran a EE. UU./Canadá, así que esta combinación me parece inesperada.
Además,
“Publica al menos una vez una entrada de blog de presentación técnica o una reseña de uso, y muestra ‘Powered by Tencent Hunyuan’ en los nuevos servicios”
hay una recomendación así incluida dentro de la licencia.
Me pregunto qué significa que una recomendación de ese tipo esté dentro de la licencia.
- Creo que es por la Ley de IA de la UE.
  Probé directamente una app de verificación de cumplimiento, y aunque marqué pequeña empresa/código abierto/investigación/sin clientes, seguían apareciendo registro, divulgaciones y varios procedimientos enredados.
  El borrador era confuso, y aunque parecía haber mejorado, sigue siendo poco claro y burocrático.
- Lugares como la UE están tratando de regular la IA de forma agresiva.
  El objetivo de una librería open source es evitar responsabilidad legal.
  Pero en esas regiones la posible responsabilidad es complicada, así que parece que decidieron ir por la vía de simplemente prohibir su uso.
- La licencia recomienda “blog o reseña de uso, y mostrar ‘Powered by Tencent Hunyuan’”.
  Me hace pensar si no será una nueva forma de promoción, como cuando los youtubers dicen “suscríbete y dale like”.
- Yo veo este tipo de restricción como cumplimiento malicioso en la práctica.
  En realidad, la Ley de IA solo exige un resumen de los datos de entrenamiento y su adecuación en materia de copyright, además del enfoque de gestión de riesgos.
  No es algo súper complejo ni ciencia espacial.
- Aun así, me da curiosidad si de hecho se puede descargar y usar dentro de la UE.
  Yo no presto atención a las licencias, pero supongo que para bajar algo probablemente haya que registrarse.
Técnicamente está claramente indicado que solo acepta una imagen de entrada, pero me pregunto si, al usar varias imágenes y hacer algo como fotogrametría, no se podría lograr una expresividad mayor.
- Yo tenía exactamente la misma duda.
  En mi caso tendría una utilidad completamente distinta.
  En algunas zonas no se pudieron obtener datos batimétricos con un bote LiDAR, y justo en las áreas interesantes no hay datos.
  Lo que sí hay es video aéreo aquí (en tramos donde el agua es transparente).
  Con video desde suficientes ángulos, quizá se pueda eliminar ruido como los reflejos en la superficie, reforzar la imagen del fondo e intentar reconstruirlo con fotogrametría.
  El punto importante es que para una reconstrucción precisa se necesitan datos desde varios ángulos.
  Como la visibilidad bajo el agua cambia según la luz y el ángulo de la cámara, antes había que repetir vuelos en distintos momentos del día.
  Me gustaría probar si con este modelo se podría reconstruir algo parecido a partir de una sola imagen.
- Ya existen modelos de fotogrametría que hacen este tipo de trabajo usando varias imágenes como entrada.
  Extender la función para que acepte unas cuantas fotos en lugar de una sola es algo que perfectamente alguien podría intentar.
  Pero por el tono de la pregunta, sí suena como si fuera un detalle “omitido por accidente” más que otra cosa.
Me parece curioso que en la tabla comparativa de rendimiento resalten el “mejor puntaje” en rojo.
- Es exactamente el mismo patrón que en los gráficos del mercado bursátil chino.
  En China, el rojo significa alza y el verde significa baja.
- Como ya se comentó, en Asia oriental el rojo tiene una connotación positiva.
  Pero lo que a mí más me llama la atención es que el tercer color sea amarillo.
  Normalmente eso no sigue el orden del espectro visible.
  (rojo~700nm, verde~550nm, amarillo~580nm)
  Me parece interesante ese orden de colores distinto al sentido común.
- El significado de los colores es un producto cultural.
  En China, el rojo tiene un significado distinto al de Occidente.
  En ese contexto, esa elección no tiene nada de inusual.
- Incluso en la comunicación occidental (cine, moda) se ven mucho este tipo de colores simbólicos.
  El rojo aparece seguido como color asociado a China.
- Es un fenómeno derivado de las diferencias culturales, y me parece bastante interesante.
  Aunque no afecta mi vida cotidiana, así que para mí es solo una observación social curiosa.
En 1995 tomé una clase de procesamiento de imágenes con un profesor de India.
En ese entonces le pregunté cómo se podía hacer que una imagen de baja resolución se viera mejor, y me respondió: “no se puede crear información”.
Pero ahora, 30 años después, vivimos en una época en la que se puede hacer un video a partir de una sola foto.
- En realidad se puede extraer mucha más información de una imagen de lo que uno pensaría.
  Especialmente en video sale muchísima más información.
  A esta tecnología se le llama ‘super-resolution’.
  No puedes crear información de la nada, pero sí completar de forma natural lo que falta usando conocimiento sobre las características del sujeto.
- El avance técnico es grande, pero en realidad el significado de “información” y “crear” era distinto en ese momento.
  Por ejemplo, si un niño dibuja con crayón un cuerpo de palitos en una foto de retrato, eso también podría llamarse “agregar información”,
  pero no es información de un evento real que existió originalmente.
  Y además, un investigador no puede inventar datos, ni un periodista puede inventar citas, porque el contexto de responsabilidad es distinto en cada caso.
¿Este modelo de verdad puede hacer una rotación completa de 360 grados?
En los videos publicados parece que apenas se desplaza un poco o, como mucho, hace un paneo ligero.
- En teoría sí es posible.
  En cada frame el modelo genera una imagen de profundidad, y cada píxel se convierte en un punto 3D.
  Suponiendo que toda la escena 3D es estática, se pueden acumular todos los frames como una nube de puntos 3D.
  Después se podría girar el punto de vista libremente con un renderizador 3D clásico.
  Pero si en la etapa real de generación de video falta consistencia entre frames (por ejemplo, cambios de color), entonces la nube de puntos también termina siendo solo “datos consistentemente incorrectos”.
  Al final, al rotarla, la mezcla de colores no coincide y se vería como un blending borroso.
  Y también sería difícil insertar correctamente objetos virtuales en la escena generada.
  Eso es porque no hay información de iluminación, y la mezcla de colores tampoco encaja con el entorno.
  La idea es buena, pero todavía hay muchos problemas adicionales por resolver.
De verdad tengo muchas ganas de probar algo así pronto en VR.
- Recomiendo probar el modo “Immersive Photo” de visionOS 26.
  Las fotos de la biblioteca de iCloud se convierten automáticamente mediante un modelo local (probablemente en formato de escena 3D tipo Gaussian Splat).
  Permite paneo y rotación, así que hace que el Vision Pro valga la pena.
  Incluso con fotos viejas tomadas con una Nikon D70, los paisajes y las personas se ven casi reales.
- Tampoco te desesperes demasiado.
  Todavía estamos lejos de llegar a verdadero alta resolución, 120fps, estéreo estable y latencia ultrabaja.
- Creo que aplicado en su estado actual podría provocar muchísimo mareo.
  El campo de visión (fov) de estos videos es demasiado caótico.
Me pregunto cuál es hoy por hoy el mejor modelo o combinación para convertir text-to-3D-asset (texto → asset 3D).
Mejor todavía si está basado en open source.
- Ya de paso, también me pregunto si existe algo para text-to-sprite-sheet (texto → sprite sheet),
  o incluso texto + imagen única → sprite sheet.
Esto en realidad no es open source, sino del tipo “weights-available” (pesos disponibles).
No hay datos de entrenamiento, y si open source significa “la forma preferida para hacer modificaciones”, entonces también deberían estar los datos.
Parte del texto original de la licencia:

“Si en el mes anterior tuviste 1 millón o más de MAU, necesitas una licencia previa,
y no se puede usar para mejorar otros modelos de IA”
La Acceptable Use Policy también impone restricciones bastante específicas.
Ver licencia completa
- Supongo que la restricción para la UE/Reino Unido/Corea del Sur se debe a que esas regiones podrían objetar el entrenamiento no autorizado con datos o exigir compensación económica.
- Estoy de acuerdo con que “no es open source”,
  pero si hablamos de “la forma preferida para hacer modificaciones”, eso no necesariamente son los datos de entrenamiento, sino los pesos.
  Los datos son un medio para modificar los pesos.
- Quiero señalar que el fine-tuning es mucho más barato.
- Sacando a AI2, creo que en realidad casi todos los modelos de IA no son verdadero open source (con logs de entrenamiento y datos publicados).
  Hoy en día open source se usa prácticamente como sinónimo de “weights-available”.
- “7. No generar ni distribuir información claramente falsa con el propósito de dañar a otros o manipular elecciones”
  “8. No crear actividades falsas en línea, como reseñas falsas”
  → ¿no están prohibiendo a otros lo mismo que ellos hacen?
  “15. No usarlo de maneras que violen la ética o moral social de otros países o regiones”
  y otras cláusulas de ese tipo hacen que en la práctica sea difícil usarlo en cualquier región.
  La política es demasiado excesiva.
Lo que a mí me interesa es meter fotos de Panoramax (alternativa abierta a StreetView) y reconstruirlas como una escena navegable en 3D.
¡¡Quiero preguntar si no pueden hacer girar la cámara 1080 grados!!
Los videos son <i>demasiado</i> cortos y ni siquiera giran bien 45 grados.
Genie3 apenas llega a 90 grados,
y en realidad hay que fijarse en las partes donde el modelo “no puede”, y en este caso es que “no logra rotar bien”.
Si no puede pasar una prueba simple de dejarlo quieto en un punto y girar, ya no me dan ganas de llamarlo ‘world model’.
Ugh, qué frustración.

Voyager – modelo de generación de video interactivo con reconstrucción 3D en tiempo real

Introducción del proyecto

Arquitectura

Motor de datos

Funciones principales y demos

Comparación de rendimiento

Requisitos del sistema

Rendimiento de inferencia paralela

Interfaz de usuario y demo

Publicación del motor de datos

Citas y referencias

Valor principal y diferenciadores del proyecto

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News