- Google Research y la Universidad de Cornell desarrollaron un nuevo enfoque generativo para el completado de imágenes
- RealFill busca rellenar las partes faltantes de una imagen con el contenido que originalmente debería estar ahí, para crear imágenes más realistas
- El modelo se personaliza usando varias imágenes de referencia, que no necesariamente deben coincidir con la imagen objetivo y pueden variar en punto de vista, condiciones de iluminación, apertura de la cámara o estilo de imagen
- RealFill supera ampliamente a los enfoques existentes en un nuevo benchmark de completado de imágenes que cubre escenarios diversos y desafiantes
- Este proceso incluye el ajuste fino de un modelo de difusión para inpainting previamente entrenado sobre las imágenes de referencia y objetivo, lo que le permite aprender el contenido, la iluminación y el estilo de la escena de la imagen de entrada
- Luego, el modelo ajustado se usa para rellenar las regiones faltantes de la imagen objetivo mediante un proceso estándar de muestreo por difusión
- RealFill genera imágenes de alta calidad, fieles a la escena original y visualmente atractivas, incluso cuando hay grandes diferencias entre la referencia y el objetivo
- Entre las limitaciones de RealFill están un proceso de ajuste fino relativamente lento basado en gradientes y la dificultad para reconstruir escenas 3D cuando el cambio de punto de vista entre la referencia y la imagen objetivo es muy grande
- RealFill también tiene dificultades en casos desafiantes para modelos base preentrenados como Stable Diffusion
1 comentarios
Opiniones de Hacker News