1 puntos por GN⁺ 2024-01-26 | 1 comentarios | Compartir por WhatsApp

Texto a video

  • El equipo de investigación de Google presentó Lumiere, un modelo de difusión de texto a video.
  • Este modelo se enfoca en sintetizar videos que expresan movimientos realistas, diversos y consistentes.
  • Utiliza una arquitectura U-Net espacio-temporal para generar toda la duración del video de una sola vez.

Imagen a video

  • Con Lumiere, es posible generar videos con el estilo objetivo usando una sola imagen de referencia.
  • Aprovecha pesos ajustados finamente de un modelo de texto a imagen.

Estilización de video

  • A través de Lumiere, los métodos existentes de edición de imágenes basados en texto pueden usarse para una edición de video consistente.

Cinemagraph

  • El modelo Lumiere puede animar el contenido de una imagen dentro de regiones específicas proporcionadas por el usuario.

Inpainting de video

  • El modelo Lumiere puede restaurar el contenido de un video enmascarado para generar un video completo.

Autores y agradecimientos

  • El equipo de investigación está compuesto por coautores de Google Research y varias universidades.
  • Expresan su agradecimiento a los autores que contribuyeron a la investigación durante sus pasantías y a diversas personas que brindaron colaboración y apoyo.

Opinión de GN⁺:

  • El modelo Lumiere representa un avance importante en el campo de la síntesis de video. La capacidad de generar videos con movimientos realistas y diversos será de gran ayuda para creadores de contenido y editores de video.
  • Esta tecnología podría contribuir especialmente a fortalecer la narrativa visual y ampliar la expresión creativa en la industria del cine y la publicidad.
  • El desarrollo de Lumiere muestra cómo las herramientas creativas basadas en inteligencia artificial están transformando el trabajo creativo.

1 comentarios

 
GN⁺ 2024-01-26
Comentarios en Hacker News
    • Me siento muy incómodo con este trabajo presentado en nombre de la investigación científica. Esto solo puede describirse como presumir, publicidad y marketing. No se describe ningún proceso reproducible, y el diagrama de arquitectura puede ser inspirador, pero no permite la refutación, que es el aspecto más importante de un intento científico. No hay forma de verificar si Google está mintiendo, así que hay que asumir que todos los ejemplos fueron seleccionados y posprocesados. Hay que asumir que los datos usados para entrenar el modelo se obtuvieron de forma ilegal. Como Google ahora hace afirmaciones imposibles de demostrar de forma rutinaria, hay que partir de un escepticismo extremo. Por ejemplo, el rendimiento de Gemini en Bard está muy por debajo de GPT-4. Cuando publicaron un video afirmando que interactuaban con el modelo, en realidad no era así.
    • Los ejemplos se ven mucho más consistentes y largos que las tecnologías que había visto antes. Comparado con otros modelos, las piernas se deslizan mucho menos sobre el suelo. Por otro lado, los rostros humanos no se ven bien. Por ejemplo, la Mona Lisa sonriendo. Esto parece el primer buen modelo de generación de video. Edit: acabo de darme cuenta de que lo hizo Google, así que no se va a publicar.
    • En su GitHub no hay nada aparte de la página enlazada actualmente. Tampoco afirmaron que lo fueran a publicar. Aun así tenía que revisarlo, y no vi ningún enlace a un perfil de GitHub. Comparto aquí el enlace para quien no quiera escribir manualmente la URL del sitio web alojado.
    • El video inpainting es interesante. Hace poco mis hijos estaban viendo episodios viejos de Bob Esponja y me sorprendió la relación de aspecto 4:3. Inpintar los bordes laterales para volverlo a 16:9 parece un caso de uso interesante. Pero parecería requerir algún tipo de capacidad de anticipar objetos que entran desde los lados.
    • Por la cualidad extraña y onírica de estas pequeñas muestras de generación de video por IA, siempre me decepciona que estos papers no incluyan como easter egg el prompt de "sueñan con ovejas eléctricas".
    • Si esta presentación se hubiera adelantado solo 2 o 3 años, habría sido realmente asombrosa. Todos ya nos acostumbramos a que estos nuevos productos salgan muy rápido y muy seguido, pero aun así me sigue pareciendo sorprendente. No veo la hora de que llegue el día en que tengamos software con esta capacidad. Edit: como lo hizo Google, esperaré hasta que salga una versión open source.
    • A menudo parece que mezclan imágenes antiguas con datasets modernos. Si tomas un retrato de George Washington y pides "hombre sonriendo", ¿se verán sus dentaduras postizas o dientes blancos?
    • Algunos comentarios: como es de Google, no podremos usarlo nosotros mismos. Aun así, la idea es muy interesante: entrenar un modelo para que genere una pequeña representación temporal completa del video y luego hacer upscale tanto en el tiempo como en los píxeles. He visto modelos que agregan mapas de profundidad, pero este modelo agrega un "mapa de tiempo" como otra dimensión. La consistencia se ve bastante bien. Se nota más torpeza en cómo el modelo decide qué "debe hacer" a lo largo del tiempo. La gran intuición de los googlers es que se puede condicionar, entrenar y generar la consistencia como algo propio. Parece que esto podría ser replicado por otros proveedores de modelos como Stability; no hay nada que parezca imposible de implementar.
    • Un paper con temática de píxeles para una publicación con temática de píxeles. Bastante impresionante, y probablemente pronto provoque una enorme ola de programas de "haz una película con un párrafo". Como es de Google, probablemente termine guardado en una caja como un artefacto de Rick and Morty que nunca llegaremos a ver. El formato de la lista de autores está bueno. Me gusta la notación 1,2,3,4,*,+ para autor principal, afiliación institucional y colaboradores clave. He leído muchos papers de astronomía y física con más de 10 autores, pero no tengo idea de quién hizo qué. Por ejemplo, el enlace de arXiv no muestra un formato similar. Probablemente se use de inmediato para porno abusivo. Ejemplo de la mujer caminando: (quinta variación) "sin ropa"
    • Este año veremos la primera película de larga duración generada por IA. Si creen que estoy loco, consideren que incluso en los albores del cine la duración promedio de los planos era de 12 segundos y hoy es de apenas 2.5 segundos. Hay algunas técnicas importantes que deben refinarse, como mantener un tema consistente entre generaciones, pero muchas inconsistencias pueden compensarse aplicando métodos existentes que separan capas según la profundidad para usar imágenes más estáticas, o generando modelos 3D simples con texturas donde se necesite más profundidad. Alguien con suficiente esfuerzo y habilidad probablemente podría hacerlo incluso con la tecnología actual.