- Veo 2 es un modelo de generación de video de última generación que ofrece movimiento realista y salida de alta calidad de hasta 4K
- Permite explorar diversos estilos y encontrar un estilo propio mediante un amplio control de cámara
- Redefiniendo la calidad y el control
- Veo 2 sigue fielmente instrucciones simples y complejas, y simula de forma convincente la física del mundo real y diversos estilos visuales
- Mayor realismo y fidelidad: mejora significativamente frente a otros modelos de video con IA en detalles, realismo y reducción de artefactos
- Funciones avanzadas de movimiento: gracias a su comprensión de la física y a su capacidad para seguir instrucciones detalladas, representa el movimiento con alta precisión
- Más opciones de control de cámara: interpreta y genera con precisión diversos estilos de toma, ángulos y movimientos
- Benchmarks
- Veo logró resultados de vanguardia en comparaciones realizadas por evaluadores humanos frente a otros modelos líderes de generación de video
- Se evaluaron 1003 prompts y sus videos correspondientes en MovieGenBench, y Veo 2 mostró el mejor desempeño tanto en preferencia general como en capacidad para seguir con precisión los prompts
- Limitaciones
- Aunque Veo 2 mostró avances notables en la generación de videos realistas, dinámicos y complejos, mantener una consistencia total en escenas complejas o con movimientos intrincados sigue siendo un desafío
- Planean seguir desarrollando y mejorando el rendimiento en estas áreas
1 comentarios
Opiniones en Hacker News
Un usuario compartió comentarios sobre un video generado con el prompt "A pelican riding a bicycle along a coastal path overlooking a harbor". De cuatro versiones, dos mostraban a un pelícano andando en bicicleta, una a un pelícano corriendo por la carretera, otra a un pelícano sentado en una bicicleta, y la última a un pelícano con un casco extraño. El resultado fue mejor que Sora
Resulta impresionante que haya superado a Sora Turbo por 2:1 en preferencia de usuarios. Tiene limitaciones similares a las de Sora, pero parece imitar un poco mejor el movimiento natural y la física. En la publicación del blog se explica que puede escalar hasta resolución 4K y extenderse a varios minutos de duración
Se expresó curiosidad sobre la similitud entre los ejemplos mostrados en el anuncio y los datos de entrenamiento. Se cuestiona cuánto de los detalles del prompt se refleja realmente en el resultado. Por ejemplo, se preguntan qué efecto tiene en el video la descripción de la presencia cautivadora del DJ y el poder de la música
El video de skate se ve poco realista, pero algunos videos parecen muy convincentes
Se mencionó que la página falló en Chrome para iPad
Después del gran anuncio de Google, OpenAI publicó un preview de Sora y opacó a Google, pero Veo 2 parece más avanzado que Sora
Un amigo que trabaja en una estación de TV ya está usando estas herramientas para programas de anuncios de servicio público
Se cree que Google podría dominar la transición de texto/imagen a video gracias a su acceso a YouTube
Se expresó confusión sobre que la duración de muestra de Veo 2 sea de 8 segundos, la de VideoGen de 10 segundos y la de otros modelos de 5 segundos. Se cuestiona si los resultados positivos de Veo 2 se deben a que los evaluadores prefieren videos más largos
Se comparó la división de IA de Google con un enorme submarino nuclear frente al vistoso yate de OpenAI. Se planteó la posibilidad de que Google se haya acercado al AGI, y también se mencionó la situación de Microsoft y Amazon