Meta presenta los modelos de IA Emu Video/Edit para síntesis y edición de video

(ai.meta.com)

15 puntos por xguru 2023-11-21 | 1 comentarios | Compartir por WhatsApp

Emu Video: generación de video de alta calidad a partir de texto basada en un solo modelo de difusión

Separa el proceso en dos etapas
- Primero genera una imagen condicionada según el prompt de texto
- Luego genera un video condicionado tanto por el texto como por la imagen generada
Este enfoque "factorizado" o dividido permite entrenar de forma eficiente el modelo de generación de video
A diferencia de trabajos previos que requerían superponer varios modelos (por ejemplo, Make-A-Video usaba 5 modelos), su implementación es más simple y puede generar videos de 4 segundos a 512x512 y 16 cuadros por segundo con solo dos modelos de difusión
En la práctica, el 96% de los participantes lo prefirió sobre Make-A-Video en calidad, y el 85% en fidelidad al prompt de texto
Además, este modelo volvió a superar ampliamente trabajos anteriores al aplicar "animación" a imágenes proporcionadas por el usuario a partir de prompts de texto

Emu Edit: edición precisa de imágenes mediante tareas de percepción y generación

Para crear la imagen deseada hay que ajustar continuamente el prompt, y por eso surgió la ingeniería de prompts
Pero todavía hay límites cuando se trata de control preciso
Emu Edit simplifica diversas tareas de manipulación de imágenes y ofrece mejores capacidades y precisión en la edición
Permite edición de formato libre mediante instrucciones que abarcan tareas como edición local y global, eliminación y adición de fondo, transformaciones de color y geometría, detección y segmentación
Los métodos actuales suelen modificar demasiado la imagen o rendir mal en distintas tareas de edición
A diferencia de muchos modelos de IA generativa actuales, Emu Edit sigue las instrucciones con precisión, por lo que mantiene intactos los píxeles de la imagen de entrada que no están relacionados con la instrucción
- Por ejemplo, al agregar el texto "¡Aloha!" a una gorra de béisbol, la gorra en sí no debería cambiar
Para entrenar el modelo, desarrollaron un conjunto de datos con 10 millones de muestras sintéticas, cada una con una imagen de entrada, una descripción de la tarea a realizar y una imagen objetivo de salida
- Es el conjunto de datos más grande hasta la fecha
Como resultado, el modelo Emu Edit muestra resultados de edición sin precedentes en términos de fidelidad a las instrucciones y calidad de imagen
- Tanto en evaluaciones cualitativas como cuantitativas sobre diversas tareas de edición de imágenes, logra nuevos resultados de vanguardia y demuestra un rendimiento superior a los métodos existentes

1 comentarios

xguru 2023-11-21

Emu Edit me llama bastante la atención. Con DALLE, si le das una instrucción de edición, aunque fijes la semilla, termina generando algo completamente nuevo, así que es difícil hacer ajustes pequeños; si se puede editar de esa manera, parece que será mucho más cómodo de usar.

Meta presenta los modelos de IA Emu Video/Edit para síntesis y edición de video

Emu Video: generación de video de alta calidad a partir de texto basada en un solo modelo de difusión

Emu Edit: edición precisa de imágenes mediante tareas de percepción y generación

Lecturas relacionadas

1 comentarios