- La función de generación de imágenes que OpenAI incorporó a ChatGPT el mes pasado alcanzó el hito de más de 700 millones de imágenes generadas en su primera semana
- Ahora se lanzó el modelo gpt-image-1, que extiende esta capacidad a la API, permitiendo que desarrolladores y empresas la integren en sus propias plataformas
- Ya se está utilizando en diseño, creación de logotipos, marketing, edición de video y más en múltiples industrias
- Se reforzaron las funciones de seguridad, y por defecto los datos de los clientes no se usan para entrenamiento cuando se utiliza la API
- Según la calidad, el costo aproximado por imagen es de $0.02 (baja), $0.07 (media), $0.19 (alta)
Se publica un modelo de generación de imágenes a través de la API
- OpenAI lanzó el modelo gpt-image-1, llevando a la API la popular función de generación de imágenes de ChatGPT
- Este modelo puede generar diversos estilos, renderizar texto con precisión, seguir fielmente lineamientos personalizados y aprovechar conocimiento del mundo
- Empresas y startups ya lo están usando en diseño, comercio electrónico, educación, videojuegos y otros campos
Casos de uso principales
- Adobe: ofrece funciones de generación de imágenes en Firefly y la app Express para experimentar con distintos estilos estéticos
- Airtable: usa IA para aumentar la productividad creativa en flujos de trabajo a gran escala
- Figma: integra funciones de generación y edición de imágenes en su plataforma mediante
gpt-image-1, para que los usuarios puedan explorar ideas de forma visual
- Canva integra gpt-image-1 en Canva AI y Magic Studio para ampliar sus funciones de creación y edición de diseño
- Por ejemplo, permite convertir bocetos a mano en elementos gráficos refinados o realizar edición de alta precisión
- GoDaddy está probando la generación de imágenes para creación y edición de logotipos
- Permite eliminar fondos, generar tipografía y crear contenido que refleje la identidad de marca
- También apoya la creación de contenido para redes sociales y materiales de marketing mediante integración con GoDaddy Airo®
- HubSpot está probando funciones de generación de imágenes para crear materiales de marketing y ventas
- Incluso sin diseñadores, podría servir para crear imágenes de alta calidad para correos electrónicos, redes sociales y landing pages
- Gamma: genera más de 5 millones de imágenes con IA al día para ayudar con presentaciones y sitios web
- HeyGen: mejora funciones de creación y edición de avatares para ofrecer experiencias más personalizadas
- OpusClip: genera miniaturas orientadas al clic para creadores de YouTube
- Instacart está probando la API de generación de imágenes para agregar imágenes a recetas o listas de compras
- invideo adoptó gpt-image-1 y añadió funciones de mejora en generación de texto, control de edición precisa y guías de estilo
Seguridad
- gpt-image-1 usa las mismas protecciones de seguridad que la generación de imágenes de 4o utilizada en ChatGPT
- Evita la generación de imágenes dañinas e incluye metadatos C2PA en las imágenes generadas
- Mediante el parámetro
moderation se puede ajustar la sensibilidad del filtrado (valor predeterminado: auto, baja sensibilidad: low)
- OpenAI no entrena sus modelos con datos de clientes de la API, y las entradas/salidas siguen las políticas de uso de la API
Precios
- Tokens de entrada de texto: $5 por cada 1 millón de tokens
- Tokens de entrada de imagen: $10 por cada 1 millón de tokens
- Tokens de salida de imagen: $40 por cada 1 millón de tokens
- Dependiendo de la calidad, el costo aproximado por imagen es de $0.02 (baja), $0.07 (media), $0.19 (alta)
Cómo empezar
- gpt-image-1 está disponible globalmente en la Images API, y pronto también será compatible con Responses API
- Algunos desarrolladores podrían tener que pasar por un proceso de verificación de organización para usarlo
- Se puede probar la función en Playground y comenzar con la documentación de guía
1 comentarios
Opiniones en Hacker News
Ayer se quejaban de que la tasa de rechazo era muy alta para trabajos relacionados con el gobierno y el ejército. Esto podría hacer que los contratistas usen modelos open source desarrollados en CN, lo que podría comprometer el trabajo
Por curiosidad, generaron el mismo prompt para cada tipo de calidad: 'Auto', 'low', 'medium', 'high'
Generaron 5 imágenes en el playground. Una usó solo texto como prompt, y las otras 4 usaron una imagen del teléfono. Gastaron $0.85 en retratos estilo Studio Ghibli para el chat grupal familiar, pero es demasiado caro para usarlo en un producto para clientes
Les da curiosidad qué aplicaciones necesitan generar cientos o miles de imágenes. Les gusta convertir fotos familiares al estilo Ghibli, pero no necesitan hacerlo en volumen. Cada vez que usaron generación de imágenes fue para algo puntual, y hacerlo en la UI de ChatGPT les pareció suficiente
En términos de precio, esta API sería difícil de justificar salvo que obtengas valor al proporcionar referencias. La generación en 'medium' de 1024x1024 cuesta $0.04 por imagen, así que cae en la misma clase de costo que Imagen 3 y Flux 1.1 Pro. Según pruebas en el nuevo playground, la imagen medium tiene menor calidad que esos dos modelos competidores y además sigue tardando más de 15 segundos en generarse
"Edición de video: invideo permite que millones de usuarios usen IA para convertir ideas en videos. Con la integración de gpt-image-1, la plataforma ahora ofrece generación de texto mejorada, control de edición más fino y guía de estilo avanzada"
El uso de gpt-image-1 se cobra por token, con precios separados para tokens de texto y de imagen
Para quienes tengan curiosidad, esto está basado en LLM y no en difusión. Eso hace que siga los prompts de texto con mucha mayor precisión
GoDaddy está experimentando activamente con integrar generación de imágenes para que los clientes puedan crear logos fácilmente editables
¿Alguien tiene idea de qué representa "tokens de imagen" en el esquema de precios?