1 puntos por GN⁺ 2023-12-01 | 1 comentarios | Compartir por WhatsApp

Generación de ilusiones visuales multivista: investigación con modelos de difusión

  • Daniel Geng, Inbum Park y Andrew Owens, de la Universidad de Michigan, presentaron un nuevo método para generar ilusiones visuales desde múltiples puntos de vista usando modelos de difusión.
  • Este método crea imágenes que, al transformarse, se ven como otra apariencia o identidad, y admite diversas transformaciones como rotación, volteo, inversión de color, inclinación, reordenamiento tipo rompecabezas y permutación aleatoria.
  • La investigación demuestra la validez del método no solo en teoría, sino también mediante ejemplos reales.

Metodología

  • El método utilizado es conceptualmente simple y emplea modelos de difusión disponibles comercialmente para estimar el ruido en distintas vistas o transformaciones de una imagen.
  • El ruido estimado se alinea aplicando la vista inversa y luego se promedia; después, esta estimación de ruido promediada se usa para avanzar el paso de difusión.

Condiciones sobre las vistas

  • No todas las funciones de vista son compatibles con el método anterior; la función de vista debe ser necesariamente invertible.
  • Para que la función de vista mantenga la ponderación entre señal y ruido, debe ser lineal, lo que puede lograrse mediante una matriz cuadrada A que represente una transformación lineal.
  • El modelo de difusión asume que el ruido se extrae de manera independiente e idéntica de una distribución normal estándar, por lo que el ruido transformado también debe seguir esas estadísticas.
  • En el caso de transformaciones lineales, esto equivale a la condición de que A sea una matriz ortogonal.

Transformaciones ortogonales

  • La mayoría de las transformaciones ortogonales no tienen significado visual, pero las matrices de permutación son un subconjunto de las matrices ortogonales y pueden interpretarse como reordenamientos de píxeles dentro de una imagen.
  • La mayoría de las ilusiones presentadas en esta investigación pueden interpretarse como reordenamientos específicos de píxeles, por ejemplo rotación, volteo, inclinación, "rotación interna", reordenamiento tipo rompecabezas y permutación de parches.
  • La inversión de color no es una permutación, pero sí una transformación ortogonal como negación de los valores de los píxeles.

Opinión de GN⁺

  • Esta investigación contribuye a ampliar la frontera entre la tecnología de inteligencia artificial y el arte al proponer un nuevo método para generar diversas ilusiones visuales mediante transformaciones de imágenes.
  • En particular, el método para crear distintos efectos visuales reorganizando los píxeles de una imagen resulta creativo, y se espera que permita generar nuevas formas de obras artísticas.
  • Este artículo resulta interesante porque explora un enfoque original para crear ilusiones visuales aprovechando modelos de difusión existentes, y es una investigación que también puede brindar nueva inspiración a ingenieros de software principiantes.

1 comentarios

 
GN⁺ 2023-12-01
Comentarios en Hacker News
  • Un usuario comentó que tuvo una idea similar a inicios del año pasado e hizo experimentos usando un método de tablero de ajedrez. Puso como ejemplo una sola imagen de un gato hecha con dibujos de gatos en el estilo de 9 pintores famosos. Mencionó que esta técnica no está relacionada con la imagen de ControlNet "spiral" que causó controversia hace unos meses, y que fue creada con base en DeepFloyd-IF.
  • Otro usuario dijo que la imagen invertida de hombre/mujer le pareció impresionante, y que aunque puede rotar mentalmente una imagen para verla desde otra perspectiva, le resulta difícil con la inversión de colores.
  • Otro usuario dijo que le gustó mucho la imagen invertida de hombre/mujer y se preguntó cuántas permutaciones podrían generarse a partir de una sola imagen al expandir esta misma técnica. Comentó que no tiene suficiente comprensión matemática para saber si aplicar dos transformaciones ortogonales de forma consecutiva seguiría dando una transformación ortogonal.
  • Un usuario evaluó que todos los ejemplos presentados están "más o menos" y mencionó que la imagen de pingüino/jirafa probablemente es la mejor. Sintió que la imagen de anciano/vestido no se parecía mucho a ninguno de los dos.
  • También hubo un usuario que pensó que usar redes neuronales podría ser excesivo para esta tarea y quizá no sea el mejor sustituto de una comprensión teórica de las ilusiones ópticas, pero que los resultados son indiscutibles.
  • También hay usuarios que disfrutan este tipo de imágenes y consideraron que es una publicación excelente.
  • Un usuario también propuso la idea de crear imágenes que se vean distintas bajo luz roja/azul.
  • Otro usuario opinó que sería realmente genial que la imagen de pato/conejo se usara en un rompecabezas deslizante para ofrecer dos soluciones válidas.
  • También hubo quien se preguntó si existen rompecabezas de este tipo que realmente se puedan comprar.