1 puntos por GN⁺ 2023-12-14 | 1 comentarios | Compartir por WhatsApp

Campo de radiancia transmitible y eficiente en memoria para exploración de escenas grandes en tiempo real (SMERF)

  • Los avances en la síntesis de vistas en tiempo real han hecho posible renderizar escenas casi fotorrealistas en tiempo real.
  • Existe una tensión entre las representaciones explícitas de escenas que pueden rasterizarse y los campos neuronales basados en ray marching.
  • SMERF presenta un enfoque de síntesis de vistas que logra la mejor precisión en tiempo real para escenas de gran escala.

Cómo aumentar la expresividad para manejar escenas grandes

  • Modela escenas grandes con múltiples habitaciones como varios submodelos independientes y, durante el renderizado, selecciona submodelos según el origen de la cámara.
  • Para modelar efectos complejos dependientes del punto de vista, instancia además parámetros MLP diferidos alineados a la cuadrícula dentro de cada submodelo.
  • Aunque cada submodelo representa toda la escena, solo las celdas de la cuadrícula asignadas al submodelo se modelan en alta resolución.

Cómo usar la destilación (distillation) para maximizar la expresividad

  • Muestra que la calidad de imagen puede mejorarse significativamente mediante destilación.
  • Primero entrena un campo de radiancia offline de última generación (Zip-NeRF) y usa las predicciones de color RGB de ese modelo como supervisión para su propio modelo.
  • Minimiza los valores de densidad volumétrica del modelo maestro para reducir al mínimo la diferencia en los pesos de renderizado volumétrico entre el maestro y el estudiante.

Opinión de GN⁺

  • SMERF es una tecnología innovadora que permite síntesis de vistas de alta calidad en tiempo real para escenas de gran escala.
  • Esta tecnología permite navegación 6DOF dentro del navegador web y ofrece rendimiento en tiempo real en una variedad de dispositivos de consumo comunes.
  • El enfoque de SMERF muestra un rendimiento superior al de tecnologías existentes en el campo de la síntesis de vistas en tiempo real, lo que lo convierte en un avance interesante con aplicaciones en realidad virtual, desarrollo de videojuegos, recorridos inmobiliarios en línea y otros campos.

1 comentarios

 
GN⁺ 2023-12-14
Comentarios de Hacker News
  • El espejo en la pared del baño ubicado en Berlín permite ver a través de la cocina del cuarto contiguo. Se supone que esto ocurre porque el algoritmo de medición de profundidad usa paralaje y el espejo lo confunde como si fuera una ventana. La parte trasera del espejo crea una zona borrosa en la cocina, pero a través de esa borrosidad se pueden ver ambos cuartos. El efecto se siente un poco inquietante. Da una sensación fantasmal, como de atravesar la pared. Funciona impresionantemente bien incluso en un s21fe de hace 2 años.
  • En la demo de Berlín, es muy impresionante que se vayan transmitiendo más imágenes mientras uno explora el espacio. El efecto de reflejo de la TV también es muy impresionante. Pero la escena no se renderiza hasta que se cargan todas las imágenes, así que tarda bastante en cargar por completo el grupo inicial de unas 40 imágenes. Me pregunto si sería posible empezar a renderizar parcialmente conforme van llegando las imágenes, o si necesariamente hay que esperar a que estén todas antes de hacer el primer renderizado grande.
  • Tengo algunas preguntas sobre la demo fulllivingroom. (Prefiero el modo FPS)
    1. ¿Cuántas imágenes de entrada hay?
    2. ¿Cuánto tiempo toma calcular este modelo?
    3. ¿Cuánto tiempo toma preparar este modelo en el navegador con todos los niveles y demás?
    4. ¿Han probado esto en VR?
  • Me pregunto qué relación hay entre esta técnica de renderizado y las escenas BD generadas en Cyberpunk 2077. El comportamiento del volumen y de los "vóxeles" parece muy similar.
  • Sigo esta tecnología a través de Two Minute Papers y tengo muchas ganas de usarla. Mi abuelo falleció hace 2 años, pero le había tomado fotos como en la demo. Gracias.
  • Me pregunto si existe una cadena de herramientas open source para capturar, procesar y alojar recorridos 3D explorables (por ejemplo, algo así como un Matterport open source).
  • Es muy impresionante cualquier información sobre cómo se compara esta tecnología con 3D Gaussian Splatting en términos de rendimiento, calidad o tamaño de datos.
  • Lo que se puede ver a partir de estas tecnologías es una imagen 3D única y navegable muy precisa. Pero todavía no he visto nada sobre detección de funciones y objetos, oclusión y extracción. Ojalá un códec más eficiente y transmisible requiera una estructura que también pueda aplicarse más fácilmente al análisis.
  • Me pregunto cuándo veremos esta tecnología en VR de consumo. Esperaba que ya existiera, pero parece que todavía no por restricciones de cómputo. Me pregunto si esto resuelve lo suficiente esas restricciones como para ejecutarse en Quest 2/3, o si hay otros factores que dificultan el uso binocular.
  • Pregunta para los autores: me pregunto si existe alguna oportunidad de reconstruir el modelo de una escena sin usar métodos de optimización o ajuste. Están mejorando una forma eficiente de renderizar vistas de la escena, pero la escena sigue siendo estática. También toma tiempo reconstruir la escena. Me pregunto si existe una forma de lograr el gran aspecto y nivel de detalle de RF y GS sin el costoso costo de reconstrucción, y si ahora que el renderizado es rápido existe una manera de reconstruir la escena de forma voraz usando métodos tradicionales de CG con una nueva representación. Me disculpo de antemano si estoy entendiendo algo mal, y de verdad agradezco el trabajo que están realizando.