Emu Video: generación de video de alta calidad a partir de texto basada en un solo modelo de difusión
- Separa el proceso en dos etapas
- Primero genera una imagen condicionada según el prompt de texto
- Luego genera un video condicionado tanto por el texto como por la imagen generada
- Este enfoque "factorizado" o dividido permite entrenar de forma eficiente el modelo de generación de video
- A diferencia de trabajos previos que requerían superponer varios modelos (por ejemplo, Make-A-Video usaba 5 modelos), su implementación es más simple y puede generar videos de 4 segundos a 512x512 y 16 cuadros por segundo con solo dos modelos de difusión
- En la práctica, el 96% de los participantes lo prefirió sobre Make-A-Video en calidad, y el 85% en fidelidad al prompt de texto
- Además, este modelo volvió a superar ampliamente trabajos anteriores al aplicar "animación" a imágenes proporcionadas por el usuario a partir de prompts de texto
Emu Edit: edición precisa de imágenes mediante tareas de percepción y generación
- Para crear la imagen deseada hay que ajustar continuamente el prompt, y por eso surgió la ingeniería de prompts
- Pero todavía hay límites cuando se trata de control preciso
- Emu Edit simplifica diversas tareas de manipulación de imágenes y ofrece mejores capacidades y precisión en la edición
- Permite edición de formato libre mediante instrucciones que abarcan tareas como edición local y global, eliminación y adición de fondo, transformaciones de color y geometría, detección y segmentación
- Los métodos actuales suelen modificar demasiado la imagen o rendir mal en distintas tareas de edición
- A diferencia de muchos modelos de IA generativa actuales, Emu Edit sigue las instrucciones con precisión, por lo que mantiene intactos los píxeles de la imagen de entrada que no están relacionados con la instrucción
- Por ejemplo, al agregar el texto "¡Aloha!" a una gorra de béisbol, la gorra en sí no debería cambiar
- Para entrenar el modelo, desarrollaron un conjunto de datos con 10 millones de muestras sintéticas, cada una con una imagen de entrada, una descripción de la tarea a realizar y una imagen objetivo de salida
- Es el conjunto de datos más grande hasta la fecha
- Como resultado, el modelo Emu Edit muestra resultados de edición sin precedentes en términos de fidelidad a las instrucciones y calidad de imagen
- Tanto en evaluaciones cualitativas como cuantitativas sobre diversas tareas de edición de imágenes, logra nuevos resultados de vanguardia y demuestra un rendimiento superior a los métodos existentes
1 comentarios
Emu Edit me llama bastante la atención. Con DALLE, si le das una instrucción de edición, aunque fijes la semilla, termina generando algo completamente nuevo, así que es difícil hacer ajustes pequeños; si se puede editar de esa manera, parece que será mucho más cómodo de usar.