2 puntos por GN⁺ 2024-03-19 | 1 comentarios | Compartir por WhatsApp

Stable Video 3D: síntesis de nuevas vistas de alta calidad y generación 3D a partir de una sola imagen

  • Se lanzó Stable Video 3D (SV3D), un modelo generativo basado en Stable Video Diffusion. Mejora significativamente la calidad de video y la consistencia entre vistas
  • Incluye dos variantes: SV3D_u y SV3D_p
    • SV3D_u genera un video orbital a partir de una sola imagen de entrada sin condiciones de cámara
    • SV3D_p amplía esta capacidad para aceptar tanto una sola imagen como vistas orbitales, generando video 3D a lo largo de una ruta de cámara especificada
  • Stable Video 3D puede usarse con fines comerciales a través de la membresía de Stability AI, y para usos no comerciales se pueden descargar los pesos del modelo en Hugging Face y consultar el artículo de investigación

Ventajas de Video Diffusion

  • Al aplicar el modelo de difusión image-to-video Stable Video Diffusion con condiciones de trayectoria de cámara añadidas, Stable Video 3D puede generar videos multivista de objetos
  • El uso de un modelo de Video Diffusion ofrece ventajas clave en generalización de los resultados generados y consistencia entre vistas, en comparación con el modelo de difusión de imágenes usado en Stable Zero123
  • Además, aprovechando las sólidas capacidades de Stable Video 3D, se propone una optimización 3D mejorada para generar órbitas arbitrarias alrededor de objetos

Generación de nuevas vistas

  • SV3D introduce avances importantes, especialmente en síntesis de nuevas vistas (NVS)
  • Mientras que los enfoques anteriores a menudo enfrentan problemas de perspectivas limitadas e inconsistencias en los resultados, SV3D proporciona vistas consistentes desde cualquier ángulo dado
  • Esta capacidad no solo mejora el control de la pose, sino que también asegura una apariencia consistente del objeto en múltiples vistas, mejorando aún más un aspecto clave de la generación 3D realista y precisa

Generación 3D

  • SV3D aprovecha la consistencia multivista para optimizar campos de radiancia neurales 3D (NeRF) y representaciones de malla, mejorando la calidad de las mallas 3D generadas directamente a partir de nuevas vistas
  • Para ello, se diseñó una pérdida de muestreo por destilación de puntaje enmascarado para mejorar aún más la calidad 3D en regiones no visibles desde las vistas predichas
  • Además, SV3D utiliza un modelo de iluminación separado que se optimiza junto con la forma y la textura 3D para reducir el problema de la iluminación horneada

1 comentarios

 
GN⁺ 2024-03-19
Comentarios en Hacker News
  • El primer usuario intentó usar el modelo Stable Video 3D (SV3D) con una tarjeta gráfica 4090 (24 GB de VRAM), pero experimentó un fallo por falta de memoria tras ejecutarlo durante más de 1 minuto. Al ajustar el script para reducir la cantidad de cuadros generados simultáneamente, logró completarlo con éxito; el uso de VRAM alcanzó un máximo de 19.5 GB y tardó 1 minuto y 25 segundos a 225 vatios.

    Stable Video 3D (SV3D): modelo generativo que toma una imagen estática como entrada y genera un video orbital del objeto, basado en Stable Video Diffusion.

  • El segundo usuario se pregunta si SV3D puede producir un modelo 3D real, o si solo genera imágenes de cómo se vería el objeto desde otros ángulos.
  • El tercer usuario piensa que, si la animación mostrada es representativa, la malla generada podría ser lo suficientemente buena como para usarse en una impresora 3D, y espera ver experimentos.
  • El cuarto usuario pregunta por los requisitos de hardware o memoria para ejecutar SV3D.
  • El quinto usuario se pregunta si la entrada requiere más de una imagen, si hay una URL de demo para probarlo, y pregunta si "entrada de imagen única" significa varias imágenes.
  • El sexto usuario menciona que todos los ejemplos parecen juguetes de plástico para niños, y se pregunta cómo manejaría otros objetos (personas, telas, edificios, plantas, montañas, piezas mecánicas, etc.).
  • El séptimo usuario considera que la animación de demo es muy ingeniosa y satisfactoria.
  • El octavo usuario espera que algún día sea posible usar esta tecnología en diseño arquitectónico.
  • El noveno y décimo comentarios están marcados como "[dead]" y "[flagged]", respectivamente, por lo que no se puede conocer su contenido.