OpenAI lanza la generación de imágenes también en la API

(openai.com)

1 puntos por GN⁺ 2025-04-25 | 1 comentarios | Compartir por WhatsApp

La función de generación de imágenes que OpenAI incorporó a ChatGPT el mes pasado alcanzó el hito de más de 700 millones de imágenes generadas en su primera semana
Ahora se lanzó el modelo gpt-image-1, que extiende esta capacidad a la API, permitiendo que desarrolladores y empresas la integren en sus propias plataformas
Ya se está utilizando en diseño, creación de logotipos, marketing, edición de video y más en múltiples industrias
Se reforzaron las funciones de seguridad, y por defecto los datos de los clientes no se usan para entrenamiento cuando se utiliza la API
Según la calidad, el costo aproximado por imagen es de $0.02 (baja), $0.07 (media), $0.19 (alta)

Se publica un modelo de generación de imágenes a través de la API

OpenAI lanzó el modelo gpt-image-1, llevando a la API la popular función de generación de imágenes de ChatGPT
Este modelo puede generar diversos estilos, renderizar texto con precisión, seguir fielmente lineamientos personalizados y aprovechar conocimiento del mundo
Empresas y startups ya lo están usando en diseño, comercio electrónico, educación, videojuegos y otros campos

Casos de uso principales

Adobe: ofrece funciones de generación de imágenes en Firefly y la app Express para experimentar con distintos estilos estéticos
Airtable: usa IA para aumentar la productividad creativa en flujos de trabajo a gran escala
Figma: integra funciones de generación y edición de imágenes en su plataforma mediante gpt-image-1, para que los usuarios puedan explorar ideas de forma visual
Canva integra gpt-image-1 en Canva AI y Magic Studio para ampliar sus funciones de creación y edición de diseño
- Por ejemplo, permite convertir bocetos a mano en elementos gráficos refinados o realizar edición de alta precisión
GoDaddy está probando la generación de imágenes para creación y edición de logotipos
- Permite eliminar fondos, generar tipografía y crear contenido que refleje la identidad de marca
- También apoya la creación de contenido para redes sociales y materiales de marketing mediante integración con GoDaddy Airo®
HubSpot está probando funciones de generación de imágenes para crear materiales de marketing y ventas
- Incluso sin diseñadores, podría servir para crear imágenes de alta calidad para correos electrónicos, redes sociales y landing pages
Gamma: genera más de 5 millones de imágenes con IA al día para ayudar con presentaciones y sitios web
HeyGen: mejora funciones de creación y edición de avatares para ofrecer experiencias más personalizadas
OpusClip: genera miniaturas orientadas al clic para creadores de YouTube
Instacart está probando la API de generación de imágenes para agregar imágenes a recetas o listas de compras
invideo adoptó gpt-image-1 y añadió funciones de mejora en generación de texto, control de edición precisa y guías de estilo

Seguridad

gpt-image-1 usa las mismas protecciones de seguridad que la generación de imágenes de 4o utilizada en ChatGPT
Evita la generación de imágenes dañinas e incluye metadatos C2PA en las imágenes generadas
Mediante el parámetro moderation se puede ajustar la sensibilidad del filtrado (valor predeterminado: auto, baja sensibilidad: low)
OpenAI no entrena sus modelos con datos de clientes de la API, y las entradas/salidas siguen las políticas de uso de la API

Precios

Tokens de entrada de texto: $5 por cada 1 millón de tokens
Tokens de entrada de imagen: $10 por cada 1 millón de tokens
Tokens de salida de imagen: $40 por cada 1 millón de tokens
Dependiendo de la calidad, el costo aproximado por imagen es de $0.02 (baja), $0.07 (media), $0.19 (alta)

Cómo empezar

gpt-image-1 está disponible globalmente en la Images API, y pronto también será compatible con Responses API
Algunos desarrolladores podrían tener que pasar por un proceso de verificación de organización para usarlo
Se puede probar la función en Playground y comenzar con la documentación de guía

1 comentarios

GN⁺ 2025-04-25

Opiniones en Hacker News

Ayer se quejaban de que la tasa de rechazo era muy alta para trabajos relacionados con el gobierno y el ejército. Esto podría hacer que los contratistas usen modelos open source desarrollados en CN, lo que podría comprometer el trabajo
- Hoy descubrieron que existe una capa de acceso API con casi nada de censura de contenido para empresas que trabajan en ese sector. No saben cómo solicitar esa capa de acceso, pero ya hablaron con 4 contratistas de defensa que la están usando
Por curiosidad, generaron el mismo prompt para cada tipo de calidad: 'Auto', 'low', 'medium', 'high'
- Prompt: "Un perro lindo está abrazando a un gato lindo"
- Mostraron en los comentarios algunas imágenes de DALL:E 3 para compararlas
Generaron 5 imágenes en el playground. Una usó solo texto como prompt, y las otras 4 usaron una imagen del teléfono. Gastaron $0.85 en retratos estilo Studio Ghibli para el chat grupal familiar, pero es demasiado caro para usarlo en un producto para clientes
Les da curiosidad qué aplicaciones necesitan generar cientos o miles de imágenes. Les gusta convertir fotos familiares al estilo Ghibli, pero no necesitan hacerlo en volumen. Cada vez que usaron generación de imágenes fue para algo puntual, y hacerlo en la UI de ChatGPT les pareció suficiente
En términos de precio, esta API sería difícil de justificar salvo que obtengas valor al proporcionar referencias. La generación en 'medium' de 1024x1024 cuesta $0.04 por imagen, así que cae en la misma clase de costo que Imagen 3 y Flux 1.1 Pro. Según pruebas en el nuevo playground, la imagen medium tiene menor calidad que esos dos modelos competidores y además sigue tardando más de 15 segundos en generarse
- El prompting del modelo es bastante diferente y más difícil que en los modelos tradicionales. Los trucos tradicionales para imágenes básicamente no funcionan, y es difícil lograr algo útil sin reforzar mucho el prompt
"Edición de video: invideo permite que millones de usuarios usen IA para convertir ideas en videos. Con la integración de gpt-image-1, la plataforma ahora ofrece generación de texto mejorada, control de edición más fino y guía de estilo avanzada"
- Se preguntan si eso significa que también procesa video de alguna forma
El uso de gpt-image-1 se cobra por token, con precios separados para tokens de texto y de imagen
- Tokens de entrada de texto (texto del prompt): $5 por 1M tokens
- Tokens de entrada de imagen (imagen de entrada): $10 por 1M tokens
- Tokens de salida de imagen (imagen generada): $40 por 1M tokens
- En la práctica, esto se traduce en aproximadamente $0.02, $0.07 y $0.19 por imagen cuadrada de calidad baja, media y alta, respectivamente
- Es un precio algo caro para startups
Para quienes tengan curiosidad, esto está basado en LLM y no en difusión. Eso hace que siga los prompts de texto con mucha mayor precisión
- Por ejemplo, un usuario de una app de generación de imágenes (incluyéndome) intentó crear una foto de una persona dentro de la bolsa de un canguro
- No funcionó sin importar qué prompt usaran
- Este nuevo modelo lo hizo a la primera
GoDaddy está experimentando activamente con integrar generación de imágenes para que los clientes puedan crear logos fácilmente editables
- Recuerdo haber conocido en Discord, hace 1 o 2 años, a alguien que trabajaba en iconos generados para clientes de GoDaddy. Un modelo personalizado de esa escala podría ser reemplazado por gpt-image-1
¿Alguien tiene idea de qué representa "tokens de imagen" en el esquema de precios?
- Se preguntan si son bloques de imagen de tamaño fijo

OpenAI lanza la generación de imágenes también en la API

Se publica un modelo de generación de imágenes a través de la API

Casos de uso principales

Seguridad

Precios

Cómo empezar

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News