Google DeepMind Veo - el modelo de video generativo más potente

(deepmind.google)

11 puntos por GN⁺ 2024-05-15 | 2 comentarios | Compartir por WhatsApp

Veo es el modelo de generación de video más potente hasta la fecha.
Puede generar videos de alta calidad en resolución 1080p de más de 1 minuto.
Admite una amplia variedad de estilos cinematográficos y visuales.
Capta con precisión los matices y el tono de los prompts, y ofrece control creativo.
Entiende efectos cinematográficos como time-lapse o tomas aéreas de paisajes.
Ayuda a hacer que la producción de video sea accesible para cualquiera.
Abre nuevas posibilidades para cineastas con experiencia, creadores, educadores y más.
Planea ofrecer algunas funciones a través de una nueva herramienta experimental llamada VideoFX.
También planea aplicar las capacidades de Veo en YouTube Shorts y otros productos en el futuro.

Una comprensión más profunda del lenguaje y la visión

Debe interpretar con precisión los prompts de texto y combinarlos con referencias visuales relevantes.
Genera videos que siguen fielmente los prompts gracias a una comprensión avanzada del lenguaje natural y del significado visual.
Renderiza con precisión los detalles dentro de escenas complejas.

Funciones de control para la producción cinematográfica

Si se proporciona un video de entrada y comandos de edición, Veo los aplica para generar un nuevo video editado.
Admite edición con máscaras para modificar áreas específicas del video.
Si se proporcionan juntos imágenes y prompts de texto, genera videos que siguen ese estilo e instrucciones.
Puede generar y extender clips de video de más de 60 segundos mediante un solo prompt o una serie de prompts.

Mantener la consistencia entre fotogramas de video

Mantener la consistencia visual en los modelos de generación de video es un desafío.
El transformador de difusión latente más reciente de Veo reduce la aparición de estas inconsistencias.
Mantiene personajes, objetos y estilos de forma realista.

Basado en años de investigación en generación de video

Veo se basa en investigaciones como Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet y Lumiere.
Aprovecha la arquitectura Transformer y Gemini.
Añade más detalles a los subtítulos de cada video para comprender y seguir los prompts con mayor precisión.
Mejora el rendimiento mediante representaciones de video comprimidas de alta calidad.

Diseño responsable

Es importante que Veo se introduzca al mundo de manera responsable.
Los videos generados por Veo llevan marcas de agua usando SynthID.
Mitiga riesgos de privacidad, derechos de autor y sesgos mediante filtros de seguridad y procesos de memory check.
Diseña el futuro de Veo en colaboración con creadores y cineastas clave.
A través de sus comentarios, mejora la tecnología de video generativo y aporta beneficios a una comunidad creativa más amplia.

La opinión de GN⁺

La innovación de Veo: Veo es un modelo de generación de video de alta calidad que abre nuevas posibilidades para los creadores.
Uso educativo: Puede ser de gran ayuda para que los educadores transmitan conocimiento a través de video.
Adopción responsable de la tecnología: Veo puede usarse de manera responsable mediante marcas de agua y filtros de seguridad.
Productos competidores: Es necesario compararlo con otros modelos de generación de video que ofrecen funciones similares.
Consideraciones para su adopción: Al adoptar Veo, se deben considerar suficientemente los temas de privacidad y derechos de autor.

2 comentarios

xguru 2024-05-15

Igual, si Sora no existiera sería excelente... pero la comparación se hace inevitable. Cómo terminó Google así 😢

GN⁺ 2024-05-15

Opiniones en Hacker News

Resumen de comentarios de Hacker News

Limitaciones desde la perspectiva de la producción cinematográfica
- Opinión: Con la tecnología actual, no tiene un gran impacto en la producción cinematográfica. Se necesita una función que permita al director dar instrucciones específicas. Por ahora, está más en el nivel de contenido tipo B-roll.
Tecnología SynthID de Google
- Opinión: Google usa la tecnología SynthID para añadir marcas de agua a videos generados por IA. Esta tecnología se aplica no solo a video, sino también a imágenes, texto y audio.
Comparación con Sora
- Opinión: Sora resulta más impresionante. Maneja bien clips largos y movimientos rápidos. En cambio, el demo actual solo incluye clips cortos y movimientos lentos. Lo único medianamente comparable es el video cyberpunk, pero le falta consistencia.
Video de ejemplo de 60 segundos
- Opinión: Se comparte un enlace a un video de ejemplo de 60 segundos. Enlace de YouTube
Ausencia de videos con humanos
- Opinión: El hecho de que no haya videos con humanos puede indicar que la tecnología todavía tiene dificultades para generar personas.
Cambios en la duración de los planos en el cine
- Opinión: Según un artículo de Wired de 2014, la duración promedio de los planos en películas en inglés cayó de 12 segundos en los años 30 a 2.5 segundos en la actualidad. Esta tecnología podría tener un impacto mayor en el mundo real. Enlace al artículo de Wired
Impresión del video demo
- Opinión: El video demo es interesante. Sin embargo, comparado con el demo de Sora, no impresiona tanto. Para venir de Google, quedó por debajo de lo esperado. Sora todavía no se ha publicado, y es posible que Veo termine ofreciendo más.
Cómo mantiene la consistencia
- Opinión: Hay curiosidad sobre cómo la tecnología más reciente de Veo logra mantener la consistencia. Se preguntan si existe algún tipo de memoria temporal entre cuadros.
Similitud con Westworld
- Opinión: La miniatura del primer prompt de ejemplo se parece al androide Gunslinger de Westworld de 1973. En ese momento, fue uno de los primeros casos de uso de gráficos por computadora. Enlace de YouTube
Confusión con el segmento de Donald Glover
- Opinión: El segmento de Donald Glover fue confuso. Como solo mostraron unos pocos clips cortos, se esperaba un cortometraje y terminó siendo decepcionante.