2 puntos por GN⁺ 2025-05-21 | 1 comentarios | Compartir por WhatsApp
  • Google DeepMind presentó Veo 3, Imagen 4 y Flow, ampliando de forma innovadora las herramientas de video, imagen y producción cinematográfica
  • Veo 3 ofrece capacidades como generación de video con audio, reflejo de física real y sincronización labial
  • Imagen 4 favorece la creación de materiales finales gracias a su representación detallada y mejora en el manejo de tipografía
  • Flow es una nueva herramienta creativa que integra varios modelos para hacer posible la producción cinematográfica basada en lenguaje natural
  • Todo el contenido generado incluye la marca de agua SynthID, y también se lanzó una herramienta de detección para reforzar la transparencia

Da rienda suelta a tu creatividad con nuevos modelos y herramientas de medios generativos

  • Google anunció sus modelos de medios generativos más recientes: Veo 3, Imagen 4, y la nueva herramienta de producción cinematográfica Flow
  • Estos modelos generan imágenes, video y música, y ayudan a los creadores a hacer realidad los mundos que imaginan
  • Google DeepMind colaboró con realizadores audiovisuales, músicos y artistas para codiseñar estas herramientas y enfatizó el uso responsable de la IA

Veo 3: generación avanzada de video con audio

  • Veo 3 genera video con mejor calidad que Veo 2 y, por primera vez, permite crear videos que incluyen audio como sonido ambiente y diálogos
  • A través de prompts basados en texto o imágenes, permite crear video con física realista y también ofrece sincronización labial precisa
  • Ya está disponible en Estados Unidos para usuarios del plan Ultra a través de la app Gemini, Flow y Vertex AI

Veo 2: nuevas funciones basadas en comentarios de creadores

  • A Veo 2 se le agregaron las siguientes funciones con base en los comentarios de los creadores:

    • Generación de video basada en referencias: permite ingresar imágenes de personajes, estilos u objetos para generar video consistente
    • Control de cámara: permite configurar movimientos de cámara como giro, zoom y dolly
    • Outpainting: permite ampliar el encuadre para pasar de vertical a horizontal y extender escenas de forma natural
    • Agregar y eliminar objetos: permite editar de forma natural considerando incluso el tamaño, las sombras y la interacción de los objetos
  • Estas funciones pueden usarse en Flow y se aplicarán gradualmente en la API de Vertex AI

Flow: herramienta de cine con IA optimizada para Veo

  • Flow integra Veo, Imagen y Gemini para configurar escenas, personajes y estilos mediante lenguaje natural y convertirlos en video
  • Está disponible para usuarios en Estados Unidos de los planes AI Pro y Ultra, y se expandirá gradualmente a otros países

Imagen 4: mejoras en resolución, detalle y tipografía

  • Imagen 4 ofrece representación de texturas finas, soporte para estilos fotorrealistas y abstractos y salida en resolución 2K
  • Su capacidad tipográfica también mejoró, por lo que resulta útil para crear tarjetas, pósters y cómics
  • Puede usarse en la app Gemini, Vertex AI, Slides, Docs, Whisk y otros servicios, y pronto se lanzará una versión hasta 10 veces más rápida

Lyria 2: generación musical interactiva

  • Es un modelo incluido en Music AI Sandbox para músicos, que apoya la experimentación creativa y permite explorar nueva música
  • Puede usarse en YouTube Shorts, Vertex AI y MusicFX DJ, y también ofrece interacción en tiempo real a través de API y AI Studio

SynthID permite identificar contenido generado por IA

  • SynthID, lanzado en 2023, ha insertado marcas de agua en más de 10 mil millones de piezas de contenido generado por IA, incluyendo imágenes, video, audio y texto
  • Con el nuevo SynthID Detector, los usuarios también pueden determinar si algo fue generado
  • Google sigue impulsando el diseño responsable de herramientas y la colaboración abierta para que la IA generativa se use en apoyo de la creatividad

1 comentarios

 
GN⁺ 2025-05-21
Opiniones de Hacker News
  • Al probarlo directamente, no parece que el rendimiento de Imagen 4 haya mejorado mucho frente a Imagen 3, y la precisión del prompt ronda el 60%

    • Me pregunto por qué, cuando acierta, solo se intenta una vez, pero con los modelos que fallan se repite varias veces
      Me queda la duda de si esta prueba evalúa “si el modelo puede acertar” o “si acierta con frecuencia”
      Me parece más adecuado fijar una tasa de éxito o un umbral de éxito, y medir con un número fijo de intentos
    • En "The Yarrctic Circle", OpenAI 4o ganó, pero falla por completo en aspectos básicos: no sostiene una cimitarra, la imagen es bonita pero la perspectiva no tiene sentido y anatómicamente las piernas parecen 150% más largas de lo normal
      Me parece un recurso interesante para entender los límites de los modelos actuales
    • En la obra ganadora de "Not the Bees", la mano sale completamente distinta a la del conductor, así que cuesta verla como un acierto real
    • Me pregunto cómo verifican si realmente están usando Imagen 4 o Imagen 3
      Gemini no indica qué modelo usa, así que no sé si estarán usando Vertex AI
    • Propone ejemplos más difíciles para elevar el nivel de la prueba
      • una copa de vino completamente llena
      • manecillas marcando las 10 y las 2 (es decir, un reloj que no forme una V)
      • instrucciones de armado de una repisa IKEA de 9 pasos
      • cualquier tipo de gimnasia o acrobacia
  • Ahora da la impresión de que las herramientas profesionales les llevan bastante ventaja a las versiones open source
    modelos gratuitos como wan o hunyuan son excelentes, pero los resultados más recientes de Google o Runway se sienten un escalón arriba
    Sobre todo, las herramientas de edición —movimiento, dirección, cortes, inserción de audio— marcan más diferencia que la capacidad pura de generación
    Se siente que las grandes empresas están apuntando claramente al sector de agencias publicitarias/Hollywood
    Espero que estas herramientas se vuelvan estándar de la industria más pronto de lo que muchos creen
    Aún necesitan una o dos generaciones más de mejora, pero los resultados ya son muy buenos

    • Aunque el open source se queda atrás en comodidad, en entornos profesionales su gran fortaleza es poder agregar elementos deseados a mitad del proceso de generación mediante custom lora, control net y funciones similares
      En generación local también se evita la moderación de contenido de plataformas que pueden ser excesivamente estrictas
      Comfy UI puede ser difícil para principiantes, pero frente a herramientas cerradas sin mucho control, creo que muchos canales pequeños de YouTube y producciones modestas seguirán eligiendo herramientas open source
    • La verdadera prueba de existencia de la GAI llegará cuando desaparezca la diferencia de calidad
      Cuando eso pase, significará que se podrá codificar cualquier cosa con cualquier nivel de calidad
    • Hay quien opina que el verdadero objetivo del enfoque en agencias/Hollywood es la publicidad
    • Analiza el avance del equipo de Tencent Hunyuan
      Hunyuan Image 2.0 fue anunciado y la calidad y velocidad en texto a imagen e imagen a imagen son muy impresionantes
      Incluso crearon una app de lienzo de dibujo 2D en tiempo real que ya implementa prácticamente todo lo que ofrecía Krea
      A diferencia de antes, esta vez es closed source, lo cual decepciona
      Hunyuan 3D 2.0 también fue bueno, pero 3D 2.5 aún no se publica
      Hunyuan Video no muestra avances frente a Wan, pero Wan ha llamado la atención recientemente gracias a VACE, una capa multimodal/de edición
      También comenta que la comunidad de Comfy está logrando resultados muy buenos con VACE y Wan
  • La razón por la que incluso una película indie de bajo presupuesto puede generar inmersión, risas y emoción aunque falle en dirección o actuación, es que mantiene una consistencia de calidad en el conjunto
    En cambio, aunque cada clip de video con IA pueda estar muy bien logrado por separado, todavía hay límites al intentar unir varios clips en una sola obra sin perder inmersión
    El video con IA podría funcionar en contenidos que mantengan el "hilo rojo" de la historia con una introducción o con el sonido, pero todavía no es momento para que Hollywood se preocupe
    También se menciona por qué elementos como el grano del film y el formato 24p siguen siendo decisiones artísticas

    • Recomienda el canal de YouTube NeuralViz
      Está construyendo un universo cinematográfico basado en video con IA, tiene 180 mil suscriptores y es un show muy entretenido
      Sostiene que la idea de que “todavía falta mucho para poder hilar varios clips de video con IA y volverlos inmersivos” ya fue desmentida en la práctica
    • El impacto del video con IA sobre Hollywood sería similar al impacto que tuvo la fotografía sobre la pintura
      El video nativo de IA puede ser muy distinto de la estructura clásica de tres actos de Hollywood, pero si los espectadores migran hacia eso, Hollywood terminará siguiendo ese camino
    • Ya vivimos en una época con abundancia de buen contenido para ver
      El verdadero problema no es la calidad del contenido sino la capacidad de distribución, y se critica que Google, como el mayor distribuidor cultural del mundo, ignore el núcleo del sufrimiento del arte y esté metiendo fuerza en la dirección equivocada
  • Ya llegamos a un punto en el que casi todos han visto alguna vez un video generado por IA y pensaron que era real
    Los casos más obvios son fáciles de detectar, pero mientras más exposición hay, más naturalmente se integra el video con IA a nuestro entorno

  • Google está colaborando con Primordial Soup, el estudio de IA de Darren Aronofsky
    Durante la huelga de SAG-AFTRA se discutió prohibir el uso de IA en Hollywood, así que surge la duda de por qué este nuevo estudio no se vio afectado

    • Porque Primordial Soup es una empresa no vinculada al sindicato y por eso no queda sujeta al acuerdo de huelga
      Así que no puede contratar actores sindicalizados, pero por la naturaleza de la empresa eso no parece ser un gran problema
  • El nivel técnico de este trabajo es sorprendente, y realmente impresiona lo bien sincronizados que están el audio y el video, además de que los diálogos son excelentes, casi al nivel de un modelo de voz dedicado

  • En el video del búho y en el del anciano sentí un poco de uncanny valley, y el video de origami me pareció algo amenazante y agresivo

    • Se siente el enorme avance de los últimos 20 años
      Antes, para hacer un video inquietante de este tipo se necesitaban grandes equipos de desarrollo, artistas, clústeres de supercomputadoras y mucho tiempo de render; ahora basta con un gran clúster y tiempo de inferencia
    • Más abajo en la página, la versión del personaje tejido se sentía mucho mejor, lo que sugiere que mientras más se aleja de la realidad, más fácil es evitar el uncanny valley
    • El video del búho tenía ese típico “brillo” de las imágenes de IA, mientras que el del anciano resultó muy impactante
    • En el origami, el audio dio la impresión de ser más real que el video, como si cada uno estuviera viendo su propio reflejo en ello
  • Esta tecnología es asombrosa y de verdad admiro al equipo de desarrollo
    Al mismo tiempo, también deja una sensación de tristeza
    Ojalá la IA automatice más el trabajo no creativo y no entierre a los creadores bajo una avalancha de contenido generado por IA

    • La automatización del trabajo no creativo también llegará, pero requiere mucha más precisión, así que es más difícil y tardará más
      La precisión actual de la IA sigue rondando el 80%, y completar el 20% restante es un camino realmente duro
      Incluso si llegas rápido en avión (la tecnología), el último tramo hacia la meta sigue siendo como avanzar entre tráfico pesado
    • Cuando surge este tema aparece muchísimo gatekeeping, pero hay quien valora positivamente que la IA permita a más personas acceder a la creación
      Hay expectativa por las nuevas posibilidades creativas que la IA podría abrir
    • Otra opinión es que los datos para tareas no creativas son más difíciles de recolectar sin el consentimiento de otras personas
    • Antes, las obras de arte —sobre todo las digitales— no circulaban con esta facilidad
      Con la música pasó algo similar: antes de la tecnología de grabación, solo la interpretación en vivo era lo auténtico
      Desde esa perspectiva, la era digital podría ser en realidad una etapa extraña dentro de la historia del arte
    • Se dice que “la IA entierra a los creadores bajo montones de trabajos hechos con IA”, pero afinar prompts para IA también es una forma de creación
      De hecho, hay quien ve como trabajo no creativo el pasar decenas de horas modelando y haciendo rigging manualmente
  • Me parece interesante la lógica de que los modelos de IA generan creatividad y permiten a los artistas materializar una visión creativa
    En esta nueva era, el rol cambia de “hacer algo” a “extraerlo”
    Eso lleva a preguntarse si crear a partir de prompts de texto es realmente “visión”, y si el arte sigue existiendo sin “proceso”; en el fondo, es una reflexión sobre la esencia misma de la creación
    Se siente que el propio concepto de crear se está redefiniendo de forma sutil

    • Se critica que, en medio de esa redefinición, dos o tres grandes plataformas terminen monopolizando los medios de producción
      Para ellas es una redefinición muy conveniente
    • Para creer que una visión creativa puede condensarse en un solo prompt, habría que asumir que la imaginación misma tiene límites
      La esencia del arte, su resultado, su proceso y la relación entre esas cosas darían para debatir sin fin
      Es una analogía interesante con confundir los punteros de una estructura de datos con los datos mismos
    • Los prompts de texto son muy breves, pero si mejora mucho la capacidad de seguir instrucciones, el cambio será inevitable
      Así como un ingeniero de software materializa una visión mediante código fuente, se predice que el ámbito creativo también cambiará
    • Hay quien opina que las empresas de LLM buscan volver dependientes a las personas de sus servicios, para tomar una ganancia intermedia en toda actividad económica
    • La ópera, el teatro y el arte hecho a mano pasaron por procesos parecidos, y al final la gente fue migrando hacia formas más fáciles y cómodas de consumir
      (música digital/TV/arte digital)
      Según ese análisis, solo quedó una minoría que valora los métodos anteriores como arte elevado
  • Me pregunto si alguien ha usado Veo3 en la práctica
    Los videos de demostración son impresionantes, pero al usar Sora la experiencia real fue muy frustrante, con resultados muy impredecibles entre aciertos y fallos