Vista previa de Gemini 2.0 Flash: Google presenta generación y edición de imágenes

(developers.googleblog.com)

3 puntos por GN⁺ 2025-05-08 | 1 comentarios | Compartir por WhatsApp

Google lanzó en vista previa para desarrolladores la función de generación de imágenes con el modelo Gemini 2.0 Flash
Mediante instrucciones basadas en texto, permite generar, modificar y editar parcialmente imágenes, con mejoras en la calidad visual y el renderizado de texto
Se presentan varios casos de uso, como reskin de productos, creación de SKU y edición colaborativa en tiempo real
Ya se puede probar directamente en [Google AI Studio] y [Vertex AI], y también se aumentaron los límites de uso de la API

Vista previa de la generación de imágenes en Gemini 2.0 Flash

En respuesta a los comentarios de los desarrolladores, Google ofrece la función de generación de imágenes mediante el modelo Gemini 2.0 Flash en versión preliminar
Los usuarios pueden usarla a través de Google AI Studio o Vertex AI

Principales mejoras

Mejor calidad visual (frente a la versión experimental anterior)
Mayor precisión en el renderizado de texto
Menor tasa de bloqueos por filtros

Ejemplos de funciones de generación de imágenes que se pueden usar

Reambientación de imágenes de productos: permite reconfigurar fotos de productos existentes con distintos fondos y entornos
Edición colaborativa en tiempo real: en la app Gemini Co-Drawing, ofrece edición de imágenes en tiempo real para múltiples usuarios
Edición conversacional de solo una parte de la imagen: sin cambiar todo, permite modificar únicamente áreas específicas mediante instrucciones conversacionales
Generación dinámica de SKU de productos: al combinar imagen y texto, genera automáticamente nuevas variantes de producto (color, etiqueta, etc.)
Lluvia de ideas con Gemini: mediante combinaciones de texto + imagen, permite crear distintos escenarios para cocina, productos, planeación y más

Ejemplo de uso de la API (Python)

from google import genai  
from google.genai import types  
  
client = genai.Client(api_key="GEMINI_API_KEY")  
response = client.models.generate_content(  
    model="gemini-2.0-flash-preview-image-generation",  
    contents=("Show me how to bake a macaron with images."),  
    config=types.GenerateContentConfig(  
        response_modalities=["TEXT", "IMAGE"]  
    ),  
)

Próximos planes

Google planea seguir ampliando esta función con mayor calidad, nuevas capacidades, más velocidad y mejoras en los planes de precios
Para más detalles, consulta la guía de generación de imágenes de la API de Gemini

1 comentarios

GN⁺ 2025-05-08

Opiniones en Hacker News

Se probó Gemini 2.0 comparándolo con varios modelos de generación de imágenes. No está claro cuánto de Imagen 3.0 de Google está incluido, pero en general la calidad estética parece bastante inferior
- La principal ventaja es el aspecto multimodal para mantener la paridad con el producto de OpenAI, además de una velocidad mucho mayor que la generación de imágenes de OpenAI 4o
Cada vez que se usa la herramienta, a menudo hay que intentarlo varias veces para obtener el resultado deseado. Hay dudas sobre el uso de una interfaz conversacional
Hay que usarlo con cuidado. Por ejemplo, al pedir una receta de butter chicken vegetariano, devolvió 41 MB de JSON y 28 imágenes en base64. A 4 centavos por imagen, una sola solicitud costó más de 1 dólar
Se usó Gemini 2.0 para generar 100 recetas e imágenes, y los resultados salieron bastante bien. Se usaron datos sin procesar y metadatos tabulares en lugar de prompts de texto
El precio por imagen de la generación de imágenes de Gemini 2.0 es de $0.039, más caro que Imagen 3. Gemini puede generar imágenes mediante conversación, mientras que Imagen 3 funciona con entrada de texto y salida de imagen
En la demo de co-drawing se obtuvieron resultados mixtos. Se esperaba esbozar una escena y que el modelo la ampliara, pero terminó generando una figura de palitos renderizada en 3D
La salida del modelo es aceptable, y en un proyecto reciente se actualizó a este nuevo modelo. Sigue habiendo muchos modos de fallo, pero hace falta un gran recetario que muestre un buen flujo de trabajo
Lo que Google y otras empresas de IA buscan es un mundo de objetos infinitos generados por IA que puedan usarse para compras o comercio electrónico. Esto representa un desafío para la verdadera artesanía humana y los objetos que existen en la realidad

Vista previa de Gemini 2.0 Flash: Google presenta generación y edición de imágenes

Vista previa de la generación de imágenes en Gemini 2.0 Flash

Principales mejoras

Ejemplos de funciones de generación de imágenes que se pueden usar

Ejemplo de uso de la API (Python)

Próximos planes

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News