1 puntos por GN⁺ 2024-05-18 | 1 comentarios | Compartir por WhatsApp
  • Los humanos pueden percibir un mundo 3D incluso en imágenes que no tienen consistencia 3D
  • Toon3D puede recuperar la pose de la cámara y geometría de alta densidad mediante optimización deformable piecewise-rigid
  • Las escenas dibujadas a mano no tienen consistencia 3D, pero con Toon3D se pueden recuperar e interpolar nuevas vistas nunca antes vistas

Abstract

  • Propuesta de Toon3D
    • Recupera la estructura 3D subyacente de escenas sin consistencia geométrica
    • Se enfoca en imágenes dibujadas a mano de cómics y animación
    • Muchos cómics son dibujados directamente por artistas sin usar un motor de renderizado 3D
    • Las imágenes dibujadas a mano representan el mundo con fidelidad cualitativa, pero es difícil dibujar múltiples puntos de vista con consistencia 3D
    • Las personas pueden reconocer fácilmente una escena 3D incluso con entradas inconsistentes
    • Corrige las inconsistencias de los dibujos 2D para que las nuevas imágenes deformadas sean consistentes entre sí
    • Recupera estructura densa mediante una herramienta de anotación amigable para el usuario, estimación de pose de cámara y deformación de imágenes
    • Puede integrarse en métodos de reconstrucción para generación de nuevas vistas deformando las imágenes para ajustarlas a un modelo de cámara en perspectiva

Reconstrucción de cómics

  • Primero recupera la pose de la cámara y una nube de puntos alineada
  • Inicializa gaussianas desde una nube de puntos densa y optimiza Gaussian Splatting con las cámaras recuperadas
  • Tiene regularización de profundidad y está construido sobre Nerfstudio
  • Muestra un render de recorrido de vuelo por la escena

Método

  • Predice la profundidad de cada imagen con Marigold y obtiene máscaras temporales candidatas con SAM
  • Etiqueta las imágenes con Toon3D Labeler para obtener correspondencias y marcar regiones temporales
  • Optimiza la pose de la cámara y deforma las imágenes para obtener una cámara en perspectiva corregida
  • Inicializa gaussianas con una nube de puntos densa alineada y ejecuta el refinamiento

Toon3D Labeler

  • Muestra dos pasos principales del método
    • Video de alineación dispersa: estimación aproximada de parámetros de cámara
    • Video de alineación densa: muestra cómo alinear en 3D usando varias capas (cámara, correspondencias dispersas, malla de deformación, etc.)

Exploración del interior de la casa de Rick and Morty

  • Reconstruye el interior de la casa de Rick and Morty conectando habitaciones mediante el etiquetado de paredes y techos
  • El primer video muestra la nube de puntos, las cámaras y una interfaz de etiquetado personalizada
  • En el segundo video, se puede recorrer el interior de la casa moviendo el deslizador

Nube de puntos y cámaras

  • Muestra la nube de puntos y las cámaras recuperadas para 12 escenas de cómics del dataset Toon3D
  • Se puede explorar cada escena haciendo clic en los íconos

Reconstrucción con vistas dispersas

  • Puede reconstruir una escena con pocas imágenes y grandes cambios de punto de vista
  • Donde COLMAP puede fallar, se puede intervenir obteniendo correspondencias etiquetadas por humanos con Toon3D Labeler
  • Muestra renders de recorrido de vuelo para dos habitaciones de un anuncio de Airbnb ("sala" y "habitación 2")

Visualización de inconsistencias

  • Como los cómics fueron dibujados a mano, las imágenes deben deformarse para que sean consistentes en 3D
  • Primer elemento: video donde ocurre la deformación durante la optimización de alineación
  • Los dos siguientes elementos: imágenes que muestran el dibujo original y el deformado, junto con la superposición entre ambos
  • Las áreas borrosas indican dónde ocurrió mucha deformación

Reconstrucción de dibujos

  • Toon3D también puede reconstruir dibujos hechos a mano
  • Predice la profundidad de cada imagen, luego alinea y deforma la nube de puntos
  • Finalmente genera un video usando refinamiento gaussiano

Opinión de GN⁺

  • Toon3D es un método innovador para reconstruir en 3D imágenes dibujadas a mano de cómics y animación
  • Esta tecnología ofrece una nueva experiencia visual y podría ser especialmente útil en producción de animación y desarrollo de videojuegos
  • Sin embargo, el proceso de etiquetado manual puede ser algo engorroso, y sería ideal que los métodos automatizados siguieran mejorando
  • Otros proyectos con funciones similares incluyen COLMAP y Nerfstudio
  • Al adoptar esta tecnología, el etiquetado preciso y la predicción de profundidad son importantes para lograr una reconstrucción 3D más consistente

1 comentarios

 
GN⁺ 2024-05-18
Opiniones en Hacker News

Resumen de comentarios de Hacker News

  • Ejemplo del edificio Planet Express de Futurama

    • Es interesante que se haya usado el edificio Planet Express de Futurama como ejemplo de inconsistencia 3D. En realidad, parece haber sido generado como un modelo 3D.
    • No soy artista gráfico, pero valoro que el arte de los ilustradores use técnicas expresivas creativas para transmitir significados complejos.
    • Hace pensar en reconstrucciones de espacio 3D “confusas”, parecidas al hype reciente alrededor de los LLMs (modelos de lenguaje grandes).
  • La diversión de generar espacios 3D

    • Crear un espacio 3D a partir de imágenes fuente inconsistentes es una idea muy divertida.
    • Hace algunos años intenté convertir imágenes abstractas y no espaciales en espacios de realidad virtual. Por ejemplo, transformar pinturas abstractas de Kandinsky o Pollock en entornos de realidad virtual explorables.
    • El flujo de trabajo comenzaba con una imagen abstracta, luego usaba SinGan para generar “puntos de vista” alternativos de la “escena”, después hacía el mapeo de profundidad mediante 3D photo inpainting y finalmente metía los cuadros en una app de fotogrametría.
  • Posibilidades futuras para generar modelos 3D

    • Sorprende que se pueda generar un modelo 3D (aunque de baja calidad) a partir de una ilustración de una escena imaginada.
    • En el futuro, quizá los artistas puedan obtener modelos 3D precisos con solo unas cuantas imágenes.
    • Hay preocupación por el impacto que herramientas parecidas a la IA podrían tener sobre los artistas. Aun así, se puede imaginar un futuro en el que los sistemas basados en machine learning colaboren más directamente con ellos.
    • Si se piensa en el valor de que los artistas creen arte, reemplazarlos con IA podría traer consecuencias negativas para toda la civilización.
  • El problema de convertir arte 2D a 3D

    • Las obras 2D no tienen un espacio 3D consistente. No parece que este problema se haya resuelto de forma útil.
    • En cuanto uno se aleja de la posición original de la cámara, la escena casi no conserva consistencia.
  • Fotogrametría y VR

    • Alguien comentó que investigó sobre fotogrametría usando un Quest 2. Exploró un pipeline para crear modelos 3D a partir de fotos tomadas desde varios ángulos.
    • Al llevarlo a VR, lo importante es crear una malla limpia. Las herramientas actuales no generan mallas 3D.
    • Había motivación para crear modelos como los de Matterport y venderlos a empresas inmobiliarias. Pero la etapa más intensiva en trabajo es generar automáticamente una malla limpia.
  • Necesidad de mejorar el algoritmo

    • El rendimiento no es bueno al reproducir la apariencia desde la perspectiva de ciertas imágenes. Por ejemplo, está el caso del Magic School Bus.
    • El algoritmo necesita ajustarse para confiar más en la imagen.
  • Problema de reproducción automática de videos en el sitio

    • Resulta molesto que todos los videos del sitio se reproduzcan automáticamente y en bucle. Al visitar el sitio mientras se ven videos en una segunda pantalla, se producen tirones.
  • La reacción de Miyazaki

    • Si le mostraran el ejemplo de Spirited Away a Miyazaki, probablemente diría que es un insulto a la vida misma.
  • Resultados por debajo de las expectativas

    • Todos los ejemplos se ven bastante mal. El ruido y lo borroso de los cuadros intermedios hacen que no puedan usarse junto con el original.
    • Los puntos de inicio y final de cada elemento casi no conectan. Las paredes, puertas y demás salen volando hacia su destino, pero desaparecen a varios pies de su posición final.
    • La idea es excelente, pero quisiera ver una versión que realmente funcione.