1 puntos por GN⁺ 2024-02-25 | 1 comentarios | Compartir por WhatsApp

Descubriendo las capacidades ocultas de INTRINSIC LoRA (I-LoRA)

  • INTRINSIC LoRA (I-LoRA) revela capacidades ocultas de modelos generativos como VQGAN, StyleGAN-XL, StyleGAN-v2 y Stable Diffusion.
  • Este método usa el decodificador existente del modelo, sin capas adicionales, para extraer propiedades intrínsecas de la superficie como normales, profundidad, albedo y sombreado.

Comprensión latente de los modelos generativos

  • Los modelos generativos tienen la capacidad de sintetizar imágenes muy detalladas y realistas.
  • Se presume que estos modelos aprenden implícitamente características intrínsecas de las imágenes, como normales de superficie, profundidad o sombras.
  • Este artículo presenta evidencia sólida de que los modelos generativos realmente producen internamente mapas intrínsecos de escenas de alta calidad.

Introducción a INTRINSIC LoRA (I-LoRA)

  • INTRINSIC LoRA (I-LoRA) presenta un enfoque universal y plug-and-play que convierte cualquier modelo generativo en un predictor de intrínsecos de escena.
  • Permite extraer mapas intrínsecos de escena directamente de la red generadora original, sin decodificadores adicionales ni ajuste fino de toda la red.
  • Este método aprovecha la adaptación de bajo rango (LoRA) de mapas de características clave usando nuevos parámetros que representan menos del 0.6% de los parámetros totales del modelo generativo.
  • Se optimiza con una pequeña cantidad de imágenes etiquetadas y puede aplicarse a diversas arquitecturas generativas, incluidos modelos de Diffusion, GAN y autoregresivos.

Resumen de la capacidad de extraer intrínsecos de escena en distintos modelos generativos

  • Resume que es posible extraer características intrínsecas de alta calidad en diversos modelos generativos sin modificar el head del generador.
  • ✓: se pueden extraer características intrínsecas de alta calidad.
  • ~: se pueden extraer características intrínsecas de calidad media.
  • ✗: no se pueden extraer características intrínsecas.

Comparación de generación de mapas intrínsecos con I-LoRA

  • Se muestra en una figura una comparación entre los mapas intrínsecos generados con este método usando Stable Diffusion 2.1 mejorado y un ground truth similar.

La opinión de GN⁺

  • INTRINSIC LoRA (I-LoRA) es un enfoque innovador que expande a una nueva dimensión las capacidades latentes de los modelos generativos existentes.
  • Este estudio ofrece una nueva perspectiva sobre la capacidad de comprensión visual de la inteligencia artificial al mostrar que los modelos generativos van más allá de la simple generación de imágenes y entienden las propiedades intrínsecas de escenas reales.
  • Esta tecnología tiene potencial de aplicación en diversos campos como visión por computadora, gráficos y AR/VR, por lo que representa un avance muy interesante para investigadores y desarrolladores del área.

1 comentarios

 
GN⁺ 2024-02-25
Opiniones de Hacker News
  • Una de las reacciones entusiastas a Sora fue la sensación de que parece tener una simulación del mundo físico en su interior. Esto sugiere que detrás hay algo más que simplemente unir distintos videos.

    • Los modelos aprenden a renderizar escenas 3D y a tomar fotografías. Lo sorprendente es que no intentamos construir un motor 3D, sino que arrojamos imágenes al álgebra lineal y las optimizamos, y de ahí surgió un simulador del mundo.
  • El nombre hace referencia al programa ficticio "Hollywoo Stars and Celebrities: What Do They Know? Do They Know Things?? Let's Find Out!" del show "Bojack Horseman".

  • Esto recuerda la experiencia de haber intentado extraer el G-buffer en un proyecto de prueba de Unity High Definition Rendering Pipeline.

    • No estoy seguro de que este paper realmente esté demostrando algo. Se está entrenando un enorme modelo UNET Lora, así que no queda claro si se está "extrayendo" algo de un modelo existente, o si simplemente se está creando un modelo nuevo capaz de generar canales que parecerían salir de un pipeline de renderizado diferido.
  • Como alguien no familiarizado con la IA de generación de imágenes, leí el paper por encima, pero fue difícil de entender.

    • I-LoRA dice que extrae propiedades intrínsecas de la escena, como normales, profundidad, albedo y sombreado, usando el decodificador existente del modelo sin capas adicionales; se pide una explicación de qué significa exactamente eso.
  • Esto es bastante notable. Los modelos realmente están aprendiendo representaciones que los humanos podemos entender, y no solo haciendo magia en hiperplanos de miles de millones de dimensiones que no podemos descifrar.

  • Esta investigación es una buena noticia para VR (o computación espacial). Si el modelo entiende bien el mundo físico, generar dos proyecciones de una escena no parece tan difícil. Hay mucha expectativa por lo que pueda venir.

  • Esta tecnología puede tomar imágenes reales y predecir albedo e iluminación. Alguien pidió que se use esto para crear escenas de Gaussian Splatting con reiluminación. La iluminación dinámica ampliaría enormemente la utilidad de los escaneos 3D creados a partir de fotos, y todavía no ha visto resultados que se puedan llamar realmente "buenos".

  • ¿Es esto GPT para imágenes? Se toma un modelo generativo y, mediante LoRA, se aplica ajuste fino a subtareas como las normales de superficie, y se concluye que estos modelos aprenden de forma intrínseca esas representaciones. Muestra mejores resultados que los enfoques supervisados.

  • No es por ser escéptico, pero ¿cómo podemos saber que los normal maps y similares no estaban ya ampliamente incluidos en los datasets por parte de las empresas de generación de imágenes?

    • El paper enlaza a modelos open source con los que eso se puede validar, aunque esto también podría ser un ingrediente secreto de modelos más avanzados.
  • Por ejemplo, ¿cómo se obtiene un normal map? ¿La IA lo genera antes de crear la imagen y luego se leen desde su estado interno?