Google presenta Veo 3, Imagen 4 y Flow, nuevas herramientas para la producción cinematográfica
(blog.google)- Google DeepMind presentó Veo 3, Imagen 4 y Flow, ampliando de forma innovadora las herramientas de video, imagen y producción cinematográfica
- Veo 3 ofrece capacidades como generación de video con audio, reflejo de física real y sincronización labial
- Imagen 4 favorece la creación de materiales finales gracias a su representación detallada y mejora en el manejo de tipografía
- Flow es una nueva herramienta creativa que integra varios modelos para hacer posible la producción cinematográfica basada en lenguaje natural
- Todo el contenido generado incluye la marca de agua SynthID, y también se lanzó una herramienta de detección para reforzar la transparencia
Da rienda suelta a tu creatividad con nuevos modelos y herramientas de medios generativos
- Google anunció sus modelos de medios generativos más recientes: Veo 3, Imagen 4, y la nueva herramienta de producción cinematográfica Flow
- Estos modelos generan imágenes, video y música, y ayudan a los creadores a hacer realidad los mundos que imaginan
- Google DeepMind colaboró con realizadores audiovisuales, músicos y artistas para codiseñar estas herramientas y enfatizó el uso responsable de la IA
Veo 3: generación avanzada de video con audio
- Veo 3 genera video con mejor calidad que Veo 2 y, por primera vez, permite crear videos que incluyen audio como sonido ambiente y diálogos
- A través de prompts basados en texto o imágenes, permite crear video con física realista y también ofrece sincronización labial precisa
- Ya está disponible en Estados Unidos para usuarios del plan Ultra a través de la app Gemini, Flow y Vertex AI
Veo 2: nuevas funciones basadas en comentarios de creadores
-
A Veo 2 se le agregaron las siguientes funciones con base en los comentarios de los creadores:
- Generación de video basada en referencias: permite ingresar imágenes de personajes, estilos u objetos para generar video consistente
- Control de cámara: permite configurar movimientos de cámara como giro, zoom y dolly
- Outpainting: permite ampliar el encuadre para pasar de vertical a horizontal y extender escenas de forma natural
- Agregar y eliminar objetos: permite editar de forma natural considerando incluso el tamaño, las sombras y la interacción de los objetos
-
Estas funciones pueden usarse en Flow y se aplicarán gradualmente en la API de Vertex AI
Flow: herramienta de cine con IA optimizada para Veo
- Flow integra Veo, Imagen y Gemini para configurar escenas, personajes y estilos mediante lenguaje natural y convertirlos en video
- Está disponible para usuarios en Estados Unidos de los planes AI Pro y Ultra, y se expandirá gradualmente a otros países
Imagen 4: mejoras en resolución, detalle y tipografía
- Imagen 4 ofrece representación de texturas finas, soporte para estilos fotorrealistas y abstractos y salida en resolución 2K
- Su capacidad tipográfica también mejoró, por lo que resulta útil para crear tarjetas, pósters y cómics
- Puede usarse en la app Gemini, Vertex AI, Slides, Docs, Whisk y otros servicios, y pronto se lanzará una versión hasta 10 veces más rápida
Lyria 2: generación musical interactiva
- Es un modelo incluido en Music AI Sandbox para músicos, que apoya la experimentación creativa y permite explorar nueva música
- Puede usarse en YouTube Shorts, Vertex AI y MusicFX DJ, y también ofrece interacción en tiempo real a través de API y AI Studio
SynthID permite identificar contenido generado por IA
- SynthID, lanzado en 2023, ha insertado marcas de agua en más de 10 mil millones de piezas de contenido generado por IA, incluyendo imágenes, video, audio y texto
- Con el nuevo SynthID Detector, los usuarios también pueden determinar si algo fue generado
- Google sigue impulsando el diseño responsable de herramientas y la colaboración abierta para que la IA generativa se use en apoyo de la creatividad
1 comentarios
Opiniones de Hacker News
Al probarlo directamente, no parece que el rendimiento de Imagen 4 haya mejorado mucho frente a Imagen 3, y la precisión del prompt ronda el 60%
Me queda la duda de si esta prueba evalúa “si el modelo puede acertar” o “si acierta con frecuencia”
Me parece más adecuado fijar una tasa de éxito o un umbral de éxito, y medir con un número fijo de intentos
Me parece un recurso interesante para entender los límites de los modelos actuales
Gemini no indica qué modelo usa, así que no sé si estarán usando Vertex AI
Ahora da la impresión de que las herramientas profesionales les llevan bastante ventaja a las versiones open source
modelos gratuitos como wan o hunyuan son excelentes, pero los resultados más recientes de Google o Runway se sienten un escalón arriba
Sobre todo, las herramientas de edición —movimiento, dirección, cortes, inserción de audio— marcan más diferencia que la capacidad pura de generación
Se siente que las grandes empresas están apuntando claramente al sector de agencias publicitarias/Hollywood
Espero que estas herramientas se vuelvan estándar de la industria más pronto de lo que muchos creen
Aún necesitan una o dos generaciones más de mejora, pero los resultados ya son muy buenos
En generación local también se evita la moderación de contenido de plataformas que pueden ser excesivamente estrictas
Comfy UI puede ser difícil para principiantes, pero frente a herramientas cerradas sin mucho control, creo que muchos canales pequeños de YouTube y producciones modestas seguirán eligiendo herramientas open source
Cuando eso pase, significará que se podrá codificar cualquier cosa con cualquier nivel de calidad
Hunyuan Image 2.0 fue anunciado y la calidad y velocidad en texto a imagen e imagen a imagen son muy impresionantes
Incluso crearon una app de lienzo de dibujo 2D en tiempo real que ya implementa prácticamente todo lo que ofrecía Krea
A diferencia de antes, esta vez es closed source, lo cual decepciona
Hunyuan 3D 2.0 también fue bueno, pero 3D 2.5 aún no se publica
Hunyuan Video no muestra avances frente a Wan, pero Wan ha llamado la atención recientemente gracias a VACE, una capa multimodal/de edición
También comenta que la comunidad de Comfy está logrando resultados muy buenos con VACE y Wan
La razón por la que incluso una película indie de bajo presupuesto puede generar inmersión, risas y emoción aunque falle en dirección o actuación, es que mantiene una consistencia de calidad en el conjunto
En cambio, aunque cada clip de video con IA pueda estar muy bien logrado por separado, todavía hay límites al intentar unir varios clips en una sola obra sin perder inmersión
El video con IA podría funcionar en contenidos que mantengan el "hilo rojo" de la historia con una introducción o con el sonido, pero todavía no es momento para que Hollywood se preocupe
También se menciona por qué elementos como el grano del film y el formato 24p siguen siendo decisiones artísticas
Está construyendo un universo cinematográfico basado en video con IA, tiene 180 mil suscriptores y es un show muy entretenido
Sostiene que la idea de que “todavía falta mucho para poder hilar varios clips de video con IA y volverlos inmersivos” ya fue desmentida en la práctica
El video nativo de IA puede ser muy distinto de la estructura clásica de tres actos de Hollywood, pero si los espectadores migran hacia eso, Hollywood terminará siguiendo ese camino
El verdadero problema no es la calidad del contenido sino la capacidad de distribución, y se critica que Google, como el mayor distribuidor cultural del mundo, ignore el núcleo del sufrimiento del arte y esté metiendo fuerza en la dirección equivocada
Ya llegamos a un punto en el que casi todos han visto alguna vez un video generado por IA y pensaron que era real
Los casos más obvios son fáciles de detectar, pero mientras más exposición hay, más naturalmente se integra el video con IA a nuestro entorno
Google está colaborando con Primordial Soup, el estudio de IA de Darren Aronofsky
Durante la huelga de SAG-AFTRA se discutió prohibir el uso de IA en Hollywood, así que surge la duda de por qué este nuevo estudio no se vio afectado
Así que no puede contratar actores sindicalizados, pero por la naturaleza de la empresa eso no parece ser un gran problema
El nivel técnico de este trabajo es sorprendente, y realmente impresiona lo bien sincronizados que están el audio y el video, además de que los diálogos son excelentes, casi al nivel de un modelo de voz dedicado
En el video del búho y en el del anciano sentí un poco de uncanny valley, y el video de origami me pareció algo amenazante y agresivo
Antes, para hacer un video inquietante de este tipo se necesitaban grandes equipos de desarrollo, artistas, clústeres de supercomputadoras y mucho tiempo de render; ahora basta con un gran clúster y tiempo de inferencia
Esta tecnología es asombrosa y de verdad admiro al equipo de desarrollo
Al mismo tiempo, también deja una sensación de tristeza
Ojalá la IA automatice más el trabajo no creativo y no entierre a los creadores bajo una avalancha de contenido generado por IA
La precisión actual de la IA sigue rondando el 80%, y completar el 20% restante es un camino realmente duro
Incluso si llegas rápido en avión (la tecnología), el último tramo hacia la meta sigue siendo como avanzar entre tráfico pesado
Hay expectativa por las nuevas posibilidades creativas que la IA podría abrir
Con la música pasó algo similar: antes de la tecnología de grabación, solo la interpretación en vivo era lo auténtico
Desde esa perspectiva, la era digital podría ser en realidad una etapa extraña dentro de la historia del arte
De hecho, hay quien ve como trabajo no creativo el pasar decenas de horas modelando y haciendo rigging manualmente
Me parece interesante la lógica de que los modelos de IA generan creatividad y permiten a los artistas materializar una visión creativa
En esta nueva era, el rol cambia de “hacer algo” a “extraerlo”
Eso lleva a preguntarse si crear a partir de prompts de texto es realmente “visión”, y si el arte sigue existiendo sin “proceso”; en el fondo, es una reflexión sobre la esencia misma de la creación
Se siente que el propio concepto de crear se está redefiniendo de forma sutil
Para ellas es una redefinición muy conveniente
La esencia del arte, su resultado, su proceso y la relación entre esas cosas darían para debatir sin fin
Es una analogía interesante con confundir los punteros de una estructura de datos con los datos mismos
Así como un ingeniero de software materializa una visión mediante código fuente, se predice que el ámbito creativo también cambiará
(música digital/TV/arte digital)
Según ese análisis, solo quedó una minoría que valora los métodos anteriores como arte elevado
Me pregunto si alguien ha usado Veo3 en la práctica
Los videos de demostración son impresionantes, pero al usar Sora la experiencia real fue muy frustrante, con resultados muy impredecibles entre aciertos y fallos