¿Qué saben los modelos generativos? ¿De verdad saben algo?

(intrinsic-lora.github.io)

1 puntos por GN⁺ 2024-02-25 | 1 comentarios | Compartir por WhatsApp

Los atributos intrínsecos de la escena como profundidad, normales, albedo y sombreado podrían estar implícitamente presentes dentro de modelos GAN, autorregresivos y de difusión que generan escenas reales de forma convincente
El método propuesto usa LoRA, menos atado a la arquitectura del modelo, para reutilizar tal cual los decodificadores existentes de generación de imágenes y restaurar representaciones intrínsecas
En VQGAN y Stable Diffusion se agregan LoRA ligeros a las capas de atención, y en StyleGAN a las capas affine, para obtener imágenes intrínsecas sin un decoding head específico para la tarea
En Stable Diffusion, con rank 2, solo se añaden como parámetros entrenables el 0.04% del total de los pesos del modelo, y es posible generar imágenes intrínsecas con apenas 250 imágenes etiquetadas
En los experimentos de control apareció una tendencia donde, cuanto mayor era la calidad del modelo generativo, mayor era también la precisión de los atributos intrínsecos de la escena recuperados, aunque la posibilidad de extracción varía según el modelo y el dominio

Pregunta de investigación y enfoque con LoRA

El trabajo parte de la pregunta de si, cuando un modelo generativo reproduce bien escenas reales, su representación interna también podría contener atributos intrínsecos de la escena (scene intrinsic)
El estudio busca verificar cuatro puntos
- Qué tipo de intrinsic knowledge codifican los modelos GAN, autorregresivos y de difusión
- Si es posible construir un marco general para restaurar intrinsic representation sin depender de la arquitectura o del tipo de modelo
- Qué tan pocos pueden ser los parámetros de entrenamiento y los datos etiquetados necesarios
- Si existe una conexión directa entre la calidad del modelo generativo y la precisión de los atributos intrínsecos restaurados
El centro del método es Low-Rank Adaptation (LoRA)
- En VQGAN y Stable Diffusion, LoRA se aplica a las capas de atención
- En StyleGAN, LoRA se aplica a las capas affine
- Sin añadir un decoding head o capa específica para la tarea, se usa el mismo decoder head empleado para generar imágenes
Material relacionado

Resultados de restauración y diferencias entre modelos

Con un LoRA pequeño es posible restaurar depth, normals, albedo y shading en varios modelos generativos
En Stable Diffusion, con LoRA rank 2, los parámetros entrenables se reducen hasta 0.04% del total de los pesos del modelo
Incluso con solo 250 imágenes etiquetadas, se pueden generar imágenes intrínsecas mediante el módulo LoRA
En los experimentos de control se confirmó una correlación positiva entre la calidad del modelo y la precisión de los atributos intrínsecos restaurados
Los resultados de extracción de atributos intrínsecos varían según el modelo y el dominio
- VQGAN / Autoregressive / FFHQ: calidad media en normal y depth, alta en albedo y shading
- StyleGAN-v2 / GAN / FFHQ: alta calidad en normal, albedo y shading; calidad media en depth
- StyleGAN-v2 / GAN / LSUN Bed: alta calidad en normal, depth, albedo y shading
- StyleGAN-XL / GAN / FFHQ: alta calidad en normal, albedo y shading; calidad media en depth
- StyleGAN-XL / GAN / ImageNet: no se pueden extraer normal, depth, albedo ni shading
- Stable Diffusion-UNet / Diffusion / Open: alta calidad en normal, depth, albedo y shading
- Stable Diffusion / Diffusion / Open: alta calidad en normal, depth, albedo y shading
Los intrinsic map de un método extendido sobre Stable Diffusion 2.1 se comparan con pseudo ground truth, y los elementos comparados son surface normals, depth, albedo y shading

1 comentarios

GN⁺ 2024-02-25

Opiniones de Hacker News

Una de las razones por las que había tanta expectativa por Sora era que, al ver algunos videos, se sentía como si por dentro estuviera corriendo una simulación del mundo físico y el video fuera una filmación de esa escena 3D con una cámara.
Existía la intuición de que detrás estaba ocurriendo mucho más que simplemente pegar fragmentos de otros videos, y este paper parece ser evidencia de eso.
Incluso en generadores de imágenes estáticas se ve que el modelo, en la práctica, aprende a renderizar una escena 3D y a tomarle una foto. No es que intentaran crear un motor 3D, sino que metieron un montón de imágenes en álgebra lineal y lo optimizaron, y de ahí salió un simulador de mundo, lo cual es sorprendente.
- Los humanos vivimos en un mundo 3D, y los datos de aprendizaje también son un flujo visual binocular continuo donde vemos la misma escena desde múltiples ángulos. En cambio, Sora aprendió el mundo como si estuviera viendo televisión, así que quizá necesite jugar más videojuegos para aprender la representación implícita y el renderizado de escenas 3D.
- Me sigue sorprendiendo que haya gente que piense que en realidad solo pega fragmentos de video.
- La frase “no intentaban crear un motor 3D, sino que lanzaron imágenes al álgebra lineal y, al optimizar, salió un simulador de mundo” suena como algo que una evolución antropomorfizada diría sobre la mente.
- Incluso en los videos elegidos por la productora había una escena en la que a un gato le aparecía una quinta pata y desaparecía enseguida; me pregunto cómo encaja ese tipo de fenómeno con esta narrativa optimista.
- Las redes neuronales no son álgebra lineal. Si asumimos que hoy la mayoría usa activaciones ReLU, el núcleo de una red neuronal es una estructura semi-lineal, y esa linealidad a medias es lo que le da fuerza.
El nombre viene del game show ficticio de Bojack Horseman Hollywoo Stars and Celebrities: What Do They Know? Do They Know Things?? Let's Find Out!
https://bojackhorseman.fandom.com/wiki/Hollywoo_Stars_and_Ce...!
- Me encanta tanto ese programa que hasta tengo una calcomanía en mi laptop. Si no han visto Bojack Horseman, es una obra divertida pero sincera, con una vibra muy existencial; si es su estilo, vale muchísimo la pena verla.
  Como paquete de animación bien logrado, me parece mucho mejor que Futurama. Tiene mucha profundidad con la que uno puede identificarse y pega fuerte, pero se mantiene lo bastante ligera como para que después de verla te quedes bien.
  Ahora que trabajo en filmtech, la calcomanía de Hollywoo me queda todavía mejor.
- Le di upvote a este artículo solo por el título.
- Cito bastante seguido el título de ese game show en particular, pero me da pena que no mucha gente lo entienda y termino pareciendo simplemente una persona rara.
- También es muy gracioso que dentro del show lo llamen todo el tiempo HSaCWDTKDTKTLFO. Leer una sigla larguísima letra por letra como si fuera una sigla corta quizá sea mi chiste recurrente favorito del programa.
- Siento que encontré a mi gente. He visto ese show unas 6 veces.
Me recordó cuando intenté extraer el G-buffer de un proyecto de prueba de Unity High Definition Rendering Pipeline: https://www.youtube.com/watch?v=Fwtc694qNUM
Dicho eso, no estoy muy seguro de que este paper realmente demuestre algo. Aquí están entrenando un modelo UNet LoRA enorme, y no queda claro si están “extrayendo” algo del modelo existente o si están creando un modelo nuevo que produce canales similares a los que saldrían de un pipeline de renderizado diferido.
El renderizado diferido, que combina normales, albedo y profundidad, es solo una de varias técnicas para crear escenas 3D, y ni siquiera se usaba en videojuegos hasta el juego de Shrek para Xbox de principios de los 2000 (https://sites.google.com/site/richgel99/the-early-history-of...)
Lo verdaderamente genial sería un modelo LoRA capaz de extraer de un modelo generador de imágenes las matrices de rotación y traslación de la “cámara”. Eso sería una evidencia mucho más fuerte y, al mismo tiempo, bastante útil.
- Si miras el material complementario, hay un experimento donde entrenan LoRA con un UNet inicializado aleatoriamente. En ese caso, a diferencia de cuando usan el UNet preentrenado de Stable Diffusion, casi no logran extraer normales de superficie, lo que deja bastante claro que las características existentes dentro del modelo son importantes para el rendimiento.
- No es que sepa mucho del tema, pero creo que la parte de que “los parámetros recién entrenados son menos del 0.6% del total de parámetros del modelo generativo” quizá responda esa duda.
  0.6% suena como una cifra pequeña, aunque me pregunto si están midiendo lo correcto. El modelo no necesariamente tuvo que haber codificado exactamente la misma representación que estamos extrayendo, pero si codificó algo que, desde el punto de vista del tamaño del modelo, puede mapearse de forma barata y estable a normales, albedo y profundidad, eso por sí solo parece muy significativo.
  No importa qué vectores base use; basta con saber cómo mapearlos a mi representación.
Le eché un vistazo al paper, pero muchas partes me resultaron difíciles. Como alguien que no está familiarizado con la IA generadora de imágenes, me pregunto qué significa exactamente esta frase que parece central: “I-LoRA modulates key feature maps to extract intrinsic scene properties such as normals, depth, albedo, and shading, using the models' existing decoders without additional layers, revealing their deep understanding of scene intrinsics”.
Quisiera entender qué significa eso de “modular mapas de características clave para extraer propiedades intrínsecas de la escena” y cómo generaron imágenes de esas propiedades de escena sin capas adicionales de decodificación.
- Supón que tienes una red neuronal de 1,000 millones de parámetros; le agregas por aquí y por allá unos 5 millones de parámetros y luego, con el método LoRA, sigues entrenando solo esos parámetros nuevos, sin tocar la red base. Así se convierte en una red modulada que predice propiedades de la escena.
  Lo interesante es que se agregan muy pocos parámetros, lo que sugiere que la red original ya estaba bastante cerca de ese punto.
No sé por qué Toyota o Adobe financian investigaciones con nombres así, pero me encanta. Ojalá la ciencia recupere un poco de espíritu lúdico
En términos más prácticos, cuando la descripción dice que “un enfoque independiente del modelo, optimizado con un pequeño número de imágenes etiquetadas, se adapta a distintas arquitecturas generativas como modelos de difusión, GAN y modelos autorregresivos”, me pregunto si esto es una herramienta puramente visual-espacial
¿Será que los ejemplos son visuales solo por casualidad, o no hay forma de extenderlo a modelos de texto? Es la primera vez que veo un enfoque de interpretabilidad como este, y me parece muy impresionante
- También hay investigaciones sobre editar información factual en modelos de lenguaje. https://rome.baulab.info/
- ¿De verdad no se entiende por qué Toyota o Adobe financian investigación en visión por computadora?
- Es la referencia a Bojack Horseman que no sabíamos que necesitábamos
Bastante sorprendente. Estos modelos no solo hacen magia en hiperplanos de miles de millones de dimensiones imposibles de descifrar, sino que en realidad aprenden representaciones interpretables por humanos
- Como viejo ingeniero de gráficos 3D, el hecho de que haya albedo ahí dentro es previsible y, aun así, realmente impresionante
  Los componentes clave del renderizado basado en física son la posición, las normales de superficie, la luz entrante y, como mínimo, alguna propiedad del material de la superficie como albedo y reflectividad/rugosidad. La posición se puede derivar de las coordenadas XY de la imagen y la profundidad
  Que la IA modele la profundidad era bastante esperable, y las normales de superficie pueden verse como una convolución local de la profundidad. Pero que modele el albedo separado de la luz entrante es excelente. Me pregunto si la reflectividad también estará escondida en algún lado
- Aunque hay mucha evidencia de que los modelos generativos tienen un modelo interno del mundo bastante complejo, me sorprende que todavía haya gente que insista en que son solo “loros estocásticos” y que “no entienden nada de verdad”
Esta es una buena noticia para VR, o para la computación espacial. Si el modelo entiende el mundo físico tanto como muestra el paper, generar dos proyecciones de una misma escena no suena como una exigencia demasiado difícil. Da muchas ganas de ver lo que viene
Si esto puede predecir albedo e iluminación a partir de imágenes reales, ojalá alguien haga escenas de Gaussian splatting que se puedan volver a iluminar. La iluminación dinámica ampliaría mucho la utilidad de los escaneos 3D hechos con fotos, pero todavía no he visto resultados en ese campo que pueda llamar “buenos”
- ¿Seguro que puede usarse con imágenes reales? Si es posible, creo que la aplicación más útil sería extraer mapas de profundidad de imágenes reales
No quiero sonar escéptico, pero me pregunto cómo podemos saber que las empresas de generación de imágenes no reforzaron sus datasets metiendo cosas como mapas de normales
Entiendo que este paper trata modelos open source verificables, pero ¿no podría ser que la salsa secreta de los modelos más avanzados sea algo así?
- Para eso habría que entrenar con pares de imágenes de mapas de normales e imágenes originales. Hasta donde sé, esa no es una técnica de entrenamiento común, y esta capacidad parece aparecer en varios modelos abiertos
Sería interesante probar si la capacidad perceptiva de los modelos generativos es mejor que la humana usando ilusiones ópticas que engañan a las personas. Por ejemplo, me pregunto si juzgarían correctamente la profundidad en casos como la ilusión de Ponzo

¿Qué saben los modelos generativos? ¿De verdad saben algo?

Pregunta de investigación y enfoque con LoRA

Resultados de restauración y diferencias entre modelos

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News