Bolt3D - modelo de generación ultrarrápida de escenas 3D

Modelo de difusión latente (latent diffusion model) para generar escenas 3D a gran velocidad
Puede generar escenas 3D de alta resolución en menos de 7 segundos a partir de una o más imágenes de entrada
Fue entrenado con un gran conjunto de datos de consistencia multivista, y es hasta 300 veces más rápido que los modelos de generación 3D existentes
Mientras que los modelos existentes requieren un proceso de optimización, Bolt3D permite la generación inmediata de escenas con un enfoque feed-forward

Limitaciones y problemas de los modelos existentes

Los modelos de generación 2D existentes pueden crear imágenes de alta calidad, pero la generación de escenas 3D sigue siendo difícil
Los modelos 3D existentes presentan los siguientes problemas:
- Dificultad para procesar estructuras de datos 3D complejas
- Escasez de datos reales de escenas 3D de alta calidad
- Alto costo computacional y baja velocidad de procesamiento

Uso de la representación 3D Gaussian:
- Un 3D Gaussian está compuesto por color, posición, opacidad y una matriz de covarianza
- El renderizado de 3D Gaussian se realiza mediante una imagen alineada a píxeles llamada Splatter Image
- Puede completar incluso áreas no visibles

Estima la escena 3D a partir de la imagen de entrada mediante un modelo de difusión latente (latent diffusion model)
Codifica la información geométrica en el espacio latente mediante Geometry VAE
Gaussian Head predice y corrige atributos detallados del 3D Gaussian, como opacidad y color
Realiza el renderizado inmediato de la escena 3D en alta resolución

El modelo de difusión latente adopta una estructura derivada de los modelos de generación de imágenes 2D
Geometry VAE codifica mapas de puntos 3D y poses de cámara
Gaussian Head refina los atributos detallados de la escena 3D generada

Construcción de un dataset multivista a gran escala:
- Incluye CO3D, MVImg, RealEstate10K, DL3DV-7K
- Está compuesto por alrededor de 300 mil escenas multivista en total
- Usa la técnica MASt3R para obtener datos geométricos precisos
Proceso de entrenamiento:
1. Geometry VAE: entrenamiento desde resolución 256×256 → 512×512
2. Gaussian Head: corrección de la generación de Splatter Image
3. Latent Diffusion Model: ajuste fino basado en el modelo CAT3D

Bolt3D ofrece mejor rendimiento que los modelos existentes Flash3D y DepthSplat
En la comparación con Flash3D, Bolt3D registró un rendimiento aproximadamente 3.6 puntos superior en la métrica PSNR, además de mejoras en SSIM y LPIPS
En la comparación con DepthSplat, Bolt3D también mostró ventaja en todas las métricas de rendimiento
En particular, la mejora fue mayor cuando solo había una imagen de entrada

En comparación con modelos basados en optimización como CAT3D, Bolt3D logra un rendimiento similar o superior, con una velocidad 300 veces mayor
En el caso de CAT3D, generar una escena toma unos 5 minutos, mientras que Bolt3D puede realizar la misma tarea en solo 6.25 segundos
En métricas de rendimiento, CAT3D obtuvo una puntuación PSNR ligeramente más alta que Bolt3D, pero Bolt3D mostró un desempeño abrumadoramente superior en velocidad de procesamiento

Uso de un VAE dedicado a información geométrica → mayor precisión que un VAE de imágenes general
Aplicación de escalado no lineal y mapeo de profundidad → mejora del rendimiento del modelo

Bolt3D permite la generación rápida de escenas 3D mediante aprendizaje de información geométrica y un enfoque feed-forward
Mejora tanto el rendimiento como la velocidad frente a los modelos existentes
Hace posible la generación inmediata de escenas 3D de alta calidad en diversos campos de aplicación:
- Desarrollo de videojuegos
- Realidad virtual (VR) y realidad aumentada (AR)
- Visualización arquitectónica y de diseño
Su velocidad de procesamiento 300 veces superior le da un alto potencial de comercialización y escalabilidad

Capaz de generar escenas 3D en menos de 7 segundos
Rendimiento 300 veces más rápido que los modelos existentes
Garantiza detalle y consistencia en alta resolución
Alto rendimiento en vista única y multivista
Puede realizar completado natural incluso en escenas complejas e incompletas