Lumiere: un modelo de difusión espacio-temporal para generar videos realistas

(lumiere-video.github.io)

1 puntos por GN⁺ 2024-01-26 | 1 comentarios | Compartir por WhatsApp

Para mejorar la difícil consistencia del movimiento en la generación de video, Lumiere de Google Research es un modelo de difusión de texto a video orientado a sintetizar videos realistas y diversos
La clave es Space-Time U-Net, que en lugar de crear primero fotogramas clave distantes y luego interpolar, genera todo el intervalo temporal en una sola pasada del modelo
Usa downsampling y upsampling tanto en la dimensión espacial como en la temporal, y aprovecha un modelo de difusión de texto a imagen preentrenado para crear directamente videos de baja resolución a la tasa completa de cuadros
Las demos abarcan una amplia variedad de tareas de generación y edición, desde texto a video, imagen a video, generación estilizada, estilización de video, cinemagraph e inpainting de video
Aunque permite que usuarios principiantes creen contenido visual con flexibilidad, por el posible uso indebido en contenidos falsos o dañinos también se requiere detección de sesgos y usos maliciosos

Objetivo y materiales publicados de Lumiere

Lumiere es un modelo de difusión de texto a video enfocado en mejorar el realismo, la diversidad y la consistencia temporal del movimiento en la síntesis de video
En la página del proyecto se pueden ver el paper y varios videos de demostración
Además de tareas de generación, también muestra aplicaciones de edición de video

Una arquitectura que genera todo el intervalo temporal de una vez

Lumiere introduce la arquitectura Space-Time U-Net para generar toda la duración temporal del video en una sola pasada del modelo
Los modelos de video existentes suelen sintetizar primero fotogramas clave distantes y luego aplicar superresolución temporal, lo que dificulta mantener la consistencia temporal global
Este modelo aplica downsampling y upsampling no solo en el espacio, sino también en la dimensión temporal
Aprovecha un modelo de difusión de texto a imagen preentrenado para generar directamente videos de baja resolución a tasa completa de cuadros en múltiples escalas espacio-temporales

Generación de video a partir de texto e imágenes

La demo Text-to-Video genera videos solo a partir de prompts de texto
- Los ejemplos incluyen un senderista en la cima de una montaña, un astronauta alrededor de una base en Marte, un perro con lentes de sol conduciendo, jarabe de chocolate vertiéndose sobre helado de vainilla, fuegos artificiales y un timelapse de un atardecer en la playa
La demo Image-to-Video crea videos a partir de una imagen de entrada y un prompt
- Los ejemplos incluyen un gato triste con camisa a rayas, un oso de peluche bailando en la nieve, una tortuga nadando en el mar, un mono usando una laptop mientras toma café y un gato tocando el piano

Generación estilizada y edición de video

Stylized Generation usa una única imagen de referencia para generar videos con el estilo objetivo
En este proceso se utilizan pesos de un modelo de texto a imagen ajustado mediante fine-tuning
Los ejemplos de referencia de estilo incluyen Sticker, 3D Melting Gold, Flat cartoon, 3D Rendering, Line drawing, Glowing y Watercolor painting
En Video Stylization, se puede realizar edición de video consistente mediante un método de edición de imágenes basado en texto
- Los prompts de estilo de ejemplo incluyen “Made of wooden blocks”, “Origami folded paper art”, “Made of colorful toy bricks” y “Made of flowers”

Animación por regiones e inpainting

La función Cinemagraphs permite animar solo regiones específicas indicadas por el usuario dentro del contenido de una imagen
La demo Video Inpainting toma como entrada un video original con máscara aplicada y genera un video de salida
Los ejemplos de inpainting incluyen prompts para cambiar vestimenta o accesorios
- “wearing a gold strapless gown”
- “wearing sunglasses”
- “wearing a red scarf”
- “wearing rain boots”

Impacto social y seguridad

El objetivo principal de Lumiere es permitir que usuarios principiantes generen contenido visual de forma creativa y flexible
La misma tecnología también puede ser usada indebidamente para crear contenido falso o dañino
Para un uso seguro y justo, es necesario desarrollar y aplicar herramientas que detecten sesgos y casos de uso malicioso

1 comentarios

GN⁺ 2024-01-26

Opiniones de Hacker News

Me resulta muy desagradable que este trabajo se presente con el ropaje de la investigación científica.
Esto no parece más que presumir, publicidad y marketing, y no se describe ningún procedimiento reproducible.
Un diagrama de arquitectura puede inspirar a otras personas, pero no ofrece lo más importante en la ciencia: la falsabilidad.
Como no hay forma de verificar si Google está mintiendo, hay que asumir que todos los ejemplos fueron seleccionados y posprocesados.
También hay que asumir que los datos de entrenamiento del modelo se obtuvieron de forma ilegal, y como Google ahora repite afirmaciones imposibles de comprobar, hay que partir de un escepticismo extremo.
Si se compara el rendimiento de Gemini en Bard con GPT-4, queda muy por detrás, y el video que afirmaban que era una interacción con el modelo en realidad no lo era.
Ninguna organización debería operar así, pero Google se ha vuelto un infractor reincidente especialmente grave.
- Esa actitud no parece productiva para la ciencia.
  Si no crees en los resultados, puedes ignorar los outputs afirmados y quedarte solo con la idea central.
  No hace falta asumir mala fe para invalidar lo que llaman publicidad.
  Esa actitud puede hacerte sentir un poco mejor, pero vuelve políticas las afirmaciones y, si en realidad son ciertas, te hace avanzar más lento.
  Hay un historial de muchos papers de Google que incluían muy pocos resultados reproducibles y aun así terminaron siendo la base de tecnologías útiles.
- Como referencia, usar datos para entrenar un modelo no es ilegal en sí mismo.
  Lo ilegal es hacer que el modelo emita esos mismos datos para obtener beneficios comerciales.
  Esta diferencia se difumina deliberadamente, pero conviene entenderla.
- Me pregunto cómo accedieron a Gemini Ultra.
  ¿O se refieren a Gemini Pro, que es el que se compara con GPT-3.5?
- Este video casi con toda seguridad parece dirigido a los inversionistas de Google: “¡No estamos muertos, y la búsqueda tampoco está muerta! ¡Es un oso bailarín!”.
  Aun así, si la tecnología es tal como la anuncian, es muy impresionante.
- Como a Google ya lo atraparon manipulando demos de IA, es razonable pensar que es muy probable que estén mintiendo o seleccionando ejemplos para que se vean bien.
  En el mundo real de la investigación, si te atrapan haciendo algo así, no solo tus trabajos posteriores sino también los anteriores quedan sujetos a una verificación rigurosa.
Los ejemplos son mucho más coherentes y se sostienen durante más tiempo que otras técnicas que había visto antes.
En comparación con otros modelos, las piernas se deslizan menos sobre el piso.
En cambio, los rostros humanos no se veían bien; por ejemplo, en la escena de la sonrisa de Mona Lisa.
Personalmente, parece el primer modelo de generación de video decente.
Edición: acabo de ver que es de Google. Entonces nunca tendrá un lanzamiento público.
- Si se publica, creo que en una semana habrá un modelo NSFW basado en esto en Civitai.
- No, los investigadores harán lo de siempre: seguirán construyendo encima de esta investigación, y al final alguna empresa creará un producto exitoso basado en muchos resultados de investigación, incluido este.
  Entonces estaremos quejándonos de que Google se quedó atrás.
  Es bastante genial que Google financie tanta investigación de punta y la comparta públicamente.
  No sé cuánto tiempo durará eso.
- Me pregunto cuántas de las muestras de este video demo son reales.
  https://arstechnica.com/information-technology/2023/12/googl...
- Dijiste “sonrisa de Mona Lisa”, pero no es la "Mona Lisa"[1] de Leonardo da Vinci, sino "Girl with a Pearl Earring"[2] de Johannes Vermeer.
  [1] https://en.wikipedia.org/wiki/Mona_Lisa
  [2] https://en.wikipedia.org/wiki/Girl_with_a_Pearl_Earring
En este momento no hay nada en su GitHub aparte de la página enlazada.
https://github.com/lumiere-video
No es que hubieran afirmado que habría algo ahí, pero aun así lo revisé, y tampoco vi un enlace al perfil de GitHub.
Dejo el enlace para quienes no quieran escribir manualmente la dirección del perfil a partir de la URL del sitio web alojado.
- Es una práctica que se ve a menudo en IA/machine learning: suben a GitHub información sobre algo que no está publicado y dicen que “está en GitHub”.
- Lamentablemente, los modelos de lenguaje grandes crearon una nueva moda.
El inpainting de video es interesante.
Mis hijos estuvieron viendo episodios viejos de SpongeBob recientemente, y la relación de aspecto 4:3 resultaba bastante molesta.
Pensé que podría ser un caso de uso interesante hacer inpainting de los bordes laterales para devolverlo a 16:9, aunque para manejar objetos que entran al cuadro desde un costado probablemente haría falta algún tipo de ajuste fino basado en vista previa.
- De hecho, suena como un producto que alguien en la industria de TV y cine compraría.
  Sería estirar videos con relación de aspecto fija o ajustarlos dinámicamente a tamaños no originales sin distorsiones visibles.
  Solo habría que estimar los bordes añadidos con suficiente precisión para que el público no los note.
  4:3 <-> 16:9 <-> 143:100 (IMAX) <-> 11:8 (Academy) <-> 3:2 (35mm) <-> 16:10 (tablets/escritorio)
  También sería posible hacer que una película nueva parezca una película clásica muda en blanco y negro y luego darle el encuadre adecuado.
  Se podría adaptar cualquier película para que funcione de forma natural en una pantalla IMAX.
- ¿No bastaría con procesar el video al revés?
Al ver el carácter raro, inquietante y onírico de estas pequeñas muestras de generación de video con IA, siempre me da pena que los papers nunca pongan como easter egg el prompt "dreaming of electric sheep".
Maldición, este anuncio habría sido impactante hace apenas 2 o 3 años.
Todos nos acostumbramos a que estos lanzamientos nuevos lleguen rapidísimo, pero aun así es asombroso.
Quiero poder usar pronto software con estas capacidades.
Edición: no, es de Google. Esperaré a que salga algo open source.
Parece que a menudo mezclan imágenes antiguas con datasets modernos.
Si le das un retrato de George Washington y usas como prompt “hombre sonriendo”, ¿se verán [dentaduras postizas][1] o dientes blanquísimos?
[1] https://en.wikipedia.org/wiki/George_Washington%27s_teeth
- Ese tipo de datos fuera de distribución probablemente habría que proporcionarlos explícitamente en el prompt.
  No está claro si estos modelos han construido un enorme modelo del mundo basado en hechos, como los modelos de lenguaje a gran escala más grandes; más bien parecen estar entendiendo principalmente cómo se mueven las cosas.
  En el dataset, la mayoría de las personas muestran dientes blanquísimos, y no hay videos de la boca de Washington, así que supongo que ese será el valor por defecto a menos que describas con detalle las dentaduras postizas que quieres.
Algunas ideas: como es Google, probablemente nunca podremos probarlo directamente.
Aun así, la idea es muy interesante. El modelo aprende primero a generar una pequeña representación temporal completa del video y luego hace upscaling tanto en el tiempo como en los píxeles.
En esencia, si antes vimos modelos que agregaban mapas de profundidad, esto agrega un mapa temporal como otra dimensión.
A simple vista, la coherencia es bastante buena.
Lo raro parece tener más que ver con la parte en la que el modelo decide “qué debe hacer” un objeto a lo largo del tiempo, que con los fallos habituales al mantener la coherencia fotograma a fotograma.
La gran intuición de los investigadores de Google es que se puede condicionar, aprender y generar la coherencia en sí, y luego rellenar los fotogramas.
Me parece que varios proveedores de modelos, como Stability, podrían replicarlo lo suficiente; no hay nada que parezca imposible de implementar.
Un post con tema de píxeles para un paper con tema de píxeles.
Es bastante impresionante, y pronto parece que derivará en una avalancha de programas para “hacer una película con un solo párrafo”.
Como es una obra de Google, probablemente termine encerrada en una caja y se convierta en una herramienta de Rick and Morty que nunca veremos.
Me gusta el formato de atribución de autores.
Notaciones como 1,2,3,4,*,+ sirven para distinguir bien autores principales, afiliaciones institucionales y contribuyentes clave.
Al leer muchos papers de astronomía y física, a menudo hay más de 10 autores y no queda nada claro quién hizo qué.
Por ejemplo, en el enlace de arXiv no se ve un formato similar.
Y esto probablemente se usará de inmediato para porno de abuso.
Quinta variante del ejemplo Walking Woman: “Wearing no clothing”
- No lo había pensado, pero sí. Con esta tecnología, el porno de abuso pronto se volverá omnipresente.
  Pronto todas las personas del mundo podrían tener porno explícito realista con su cara pegada.
Este año veremos la primera película de largometraje generada por IA.
Si suena descabellado, basta pensar que en los primeros tiempos del cine la duración promedio de un plano era de 12 segundos, y hoy es de apenas 2.5 segundos.
Todavía hay que pulir algunas técnicas importantes, como mantener la consistencia de los sujetos entre generaciones.
Pero creo que muchas incoherencias pueden cubrirse con métodos existentes, como separar capas según la profundidad para usar imágenes más estáticas, o crear modelos 3D simples con texturas donde se necesite más profundidad.
Con suficiente esfuerzo y habilidad, parece posible incluso con la tecnología actual.
- Es fácil imaginar a cineastas creando varias versiones preliminares de una película para pulir el guion y la filmación, tal como hoy usan storyboards.
- ¿Por qué habría que hacer una “película”? ¿No bastaría con crear una trama en la que el espectador pueda cambiar el vestuario a voluntad?
- Como con todo el resto de los medios que la gente produce en masa con estas cosas, probablemente será completamente pésimo.

Lumiere: un modelo de difusión espacio-temporal para generar videos realistas

Objetivo y materiales publicados de Lumiere

Una arquitectura que genera todo el intervalo temporal de una vez

Generación de video a partir de texto e imágenes

Generación estilizada y edición de video

Animación por regiones e inpainting

Impacto social y seguridad

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News