Generación de ilusiones visuales multivista: investigación con modelos de difusión
- Daniel Geng, Inbum Park y Andrew Owens, de la Universidad de Michigan, presentaron un nuevo método para generar ilusiones visuales desde múltiples puntos de vista usando modelos de difusión.
- Este método crea imágenes que, al transformarse, se ven como otra apariencia o identidad, y admite diversas transformaciones como rotación, volteo, inversión de color, inclinación, reordenamiento tipo rompecabezas y permutación aleatoria.
- La investigación demuestra la validez del método no solo en teoría, sino también mediante ejemplos reales.
Metodología
- El método utilizado es conceptualmente simple y emplea modelos de difusión disponibles comercialmente para estimar el ruido en distintas vistas o transformaciones de una imagen.
- El ruido estimado se alinea aplicando la vista inversa y luego se promedia; después, esta estimación de ruido promediada se usa para avanzar el paso de difusión.
Condiciones sobre las vistas
- No todas las funciones de vista son compatibles con el método anterior; la función de vista debe ser necesariamente invertible.
- Para que la función de vista mantenga la ponderación entre señal y ruido, debe ser lineal, lo que puede lograrse mediante una matriz cuadrada A que represente una transformación lineal.
- El modelo de difusión asume que el ruido se extrae de manera independiente e idéntica de una distribución normal estándar, por lo que el ruido transformado también debe seguir esas estadísticas.
- En el caso de transformaciones lineales, esto equivale a la condición de que A sea una matriz ortogonal.
Transformaciones ortogonales
- La mayoría de las transformaciones ortogonales no tienen significado visual, pero las matrices de permutación son un subconjunto de las matrices ortogonales y pueden interpretarse como reordenamientos de píxeles dentro de una imagen.
- La mayoría de las ilusiones presentadas en esta investigación pueden interpretarse como reordenamientos específicos de píxeles, por ejemplo rotación, volteo, inclinación, "rotación interna", reordenamiento tipo rompecabezas y permutación de parches.
- La inversión de color no es una permutación, pero sí una transformación ortogonal como negación de los valores de los píxeles.
Opinión de GN⁺
- Esta investigación contribuye a ampliar la frontera entre la tecnología de inteligencia artificial y el arte al proponer un nuevo método para generar diversas ilusiones visuales mediante transformaciones de imágenes.
- En particular, el método para crear distintos efectos visuales reorganizando los píxeles de una imagen resulta creativo, y se espera que permita generar nuevas formas de obras artísticas.
- Este artículo resulta interesante porque explora un enfoque original para crear ilusiones visuales aprovechando modelos de difusión existentes, y es una investigación que también puede brindar nueva inspiración a ingenieros de software principiantes.
1 comentarios
Comentarios en Hacker News