- Google lanzó en vista previa para desarrolladores la función de generación de imágenes con el modelo Gemini 2.0 Flash
- Mediante instrucciones basadas en texto, permite generar, modificar y editar parcialmente imágenes, con mejoras en la calidad visual y el renderizado de texto
- Se presentan varios casos de uso, como reskin de productos, creación de SKU y edición colaborativa en tiempo real
- Ya se puede probar directamente en [Google AI Studio] y [Vertex AI], y también se aumentaron los límites de uso de la API
Vista previa de la generación de imágenes en Gemini 2.0 Flash
- En respuesta a los comentarios de los desarrolladores, Google ofrece la función de generación de imágenes mediante el modelo Gemini 2.0 Flash en versión preliminar
- Los usuarios pueden usarla a través de Google AI Studio o Vertex AI
Principales mejoras
- Mejor calidad visual (frente a la versión experimental anterior)
- Mayor precisión en el renderizado de texto
- Menor tasa de bloqueos por filtros
Ejemplos de funciones de generación de imágenes que se pueden usar
- Reambientación de imágenes de productos: permite reconfigurar fotos de productos existentes con distintos fondos y entornos
- Edición colaborativa en tiempo real: en la app Gemini Co-Drawing, ofrece edición de imágenes en tiempo real para múltiples usuarios
- Edición conversacional de solo una parte de la imagen: sin cambiar todo, permite modificar únicamente áreas específicas mediante instrucciones conversacionales
- Generación dinámica de SKU de productos: al combinar imagen y texto, genera automáticamente nuevas variantes de producto (color, etiqueta, etc.)
- Lluvia de ideas con Gemini: mediante combinaciones de texto + imagen, permite crear distintos escenarios para cocina, productos, planeación y más
Ejemplo de uso de la API (Python)
from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.0-flash-preview-image-generation",
contents=("Show me how to bake a macaron with images."),
config=types.GenerateContentConfig(
response_modalities=["TEXT", "IMAGE"]
),
)
Próximos planes
1 comentarios
Opiniones en Hacker News