3 puntos por GN⁺ 2025-05-08 | 1 comentarios | Compartir por WhatsApp
  • Google lanzó en vista previa para desarrolladores la función de generación de imágenes con el modelo Gemini 2.0 Flash
  • Mediante instrucciones basadas en texto, permite generar, modificar y editar parcialmente imágenes, con mejoras en la calidad visual y el renderizado de texto
  • Se presentan varios casos de uso, como reskin de productos, creación de SKU y edición colaborativa en tiempo real
  • Ya se puede probar directamente en [Google AI Studio] y [Vertex AI], y también se aumentaron los límites de uso de la API

Vista previa de la generación de imágenes en Gemini 2.0 Flash

  • En respuesta a los comentarios de los desarrolladores, Google ofrece la función de generación de imágenes mediante el modelo Gemini 2.0 Flash en versión preliminar
  • Los usuarios pueden usarla a través de Google AI Studio o Vertex AI

Principales mejoras

  • Mejor calidad visual (frente a la versión experimental anterior)
  • Mayor precisión en el renderizado de texto
  • Menor tasa de bloqueos por filtros

Ejemplos de funciones de generación de imágenes que se pueden usar

  • Reambientación de imágenes de productos: permite reconfigurar fotos de productos existentes con distintos fondos y entornos
  • Edición colaborativa en tiempo real: en la app Gemini Co-Drawing, ofrece edición de imágenes en tiempo real para múltiples usuarios
  • Edición conversacional de solo una parte de la imagen: sin cambiar todo, permite modificar únicamente áreas específicas mediante instrucciones conversacionales
  • Generación dinámica de SKU de productos: al combinar imagen y texto, genera automáticamente nuevas variantes de producto (color, etiqueta, etc.)
  • Lluvia de ideas con Gemini: mediante combinaciones de texto + imagen, permite crear distintos escenarios para cocina, productos, planeación y más

Ejemplo de uso de la API (Python)

from google import genai  
from google.genai import types  
  
client = genai.Client(api_key="GEMINI_API_KEY")  
response = client.models.generate_content(  
    model="gemini-2.0-flash-preview-image-generation",  
    contents=("Show me how to bake a macaron with images."),  
    config=types.GenerateContentConfig(  
        response_modalities=["TEXT", "IMAGE"]  
    ),  
)  

Próximos planes

1 comentarios

 
GN⁺ 2025-05-08
Opiniones en Hacker News
  • Se probó Gemini 2.0 comparándolo con varios modelos de generación de imágenes. No está claro cuánto de Imagen 3.0 de Google está incluido, pero en general la calidad estética parece bastante inferior
    • La principal ventaja es el aspecto multimodal para mantener la paridad con el producto de OpenAI, además de una velocidad mucho mayor que la generación de imágenes de OpenAI 4o
  • Cada vez que se usa la herramienta, a menudo hay que intentarlo varias veces para obtener el resultado deseado. Hay dudas sobre el uso de una interfaz conversacional
  • Hay que usarlo con cuidado. Por ejemplo, al pedir una receta de butter chicken vegetariano, devolvió 41 MB de JSON y 28 imágenes en base64. A 4 centavos por imagen, una sola solicitud costó más de 1 dólar
  • Se usó Gemini 2.0 para generar 100 recetas e imágenes, y los resultados salieron bastante bien. Se usaron datos sin procesar y metadatos tabulares en lugar de prompts de texto
  • El precio por imagen de la generación de imágenes de Gemini 2.0 es de $0.039, más caro que Imagen 3. Gemini puede generar imágenes mediante conversación, mientras que Imagen 3 funciona con entrada de texto y salida de imagen
  • En la demo de co-drawing se obtuvieron resultados mixtos. Se esperaba esbozar una escena y que el modelo la ampliara, pero terminó generando una figura de palitos renderizada en 3D
  • La salida del modelo es aceptable, y en un proyecto reciente se actualizó a este nuevo modelo. Sigue habiendo muchos modos de fallo, pero hace falta un gran recetario que muestre un buen flujo de trabajo
  • Lo que Google y otras empresas de IA buscan es un mundo de objetos infinitos generados por IA que puedan usarse para compras o comercio electrónico. Esto representa un desafío para la verdadera artesanía humana y los objetos que existen en la realidad