- La función de generación de imágenes de ChatGPT se actualizó para ofrecer edición más precisa y mayor velocidad de generación
- El modelo GPT‑Image‑1.5 sigue con más precisión las instrucciones de texto y permite editar manteniendo la similitud de la persona, la iluminación y la composición
- A través de la nueva interfaz de barra lateral de Images, ofrece estilos predefinidos, prompts en tendencia y reutilización de apariencia
- En la API también se incluyen las mismas mejoras de rendimiento y una reducción de costos del 20%, adecuada para generar logos de marca e imágenes de producto
- Esta actualización se despliega de inmediato para todos los usuarios de ChatGPT y de la API, mejorando de forma importante la utilidad y la calidad de la generación de imágenes
Presentación de GPT‑Image‑1.5
- Se presenta una nueva versión de ChatGPT Images basada en el modelo de generación de imágenes más potente
- Sigue con mayor precisión las instrucciones de texto y permite editar preservando elementos detallados como la similitud facial
- La velocidad de generación de imágenes es hasta 4 veces más rápida, lo que mejora la eficiencia en pruebas iterativas y exploración de ideas
- El modelo ofrece transformaciones expresivas, renderizado de texto denso y resultados naturales
- Responde desde pequeños ajustes hasta reconstrucciones completas, y permite generar fácilmente eligiendo estilos predefinidos
- Se está desplegando de forma gradual para todos los usuarios de ChatGPT, y en la API se ofrece como GPT‑Image‑1.5
Resultados alineados con la intención del usuario
- El modelo modifica solo las partes solicitadas mientras mantiene de forma consistente la iluminación, la composición y la similitud de la persona
- Con ello logra un alto nivel de coincidencia en edición fotográfica, simulación de ropa y peinados, filtros de estilo y transformación de conceptos
- ChatGPT puede funcionar como un estudio creativo portátil, realizando tanto edición práctica como reconstrucción artística
- Admite varios tipos de edición (agregar, eliminar, combinar, mezclar, etc.)
- Se refuerzan las funciones de transformación creativa para añadir elementos como texto y diseño
- En comparación con GPT Image 1.0, hay mejor comprensión de instrucciones, lo que permite ediciones más detalladas
- Mejora la calidad del renderizado de texto pequeño y denso
Nuevo espacio para generar imágenes
- Se introduce una barra lateral dedicada a Images dentro de ChatGPT para acortar el proceso de exploración y generación de imágenes
- Incluye filtros predefinidos, prompts en tendencia y reutilización de apariencia
- Permite reutilizar una sola carga repetidamente sin necesidad de volver a usar el carrete de la cámara
- La velocidad de generación de imágenes mejora hasta 4 veces, y es posible crear varias imágenes al mismo tiempo
- Ofrece resultados alineados con la visión del usuario, desde pequeños ajustes hasta reconstrucciones completas
Mejoras adicionales de calidad
- Mejoras de calidad listas para uso inmediato, como representación de múltiples rostros pequeños y renderizado de resultados naturales
- Ejemplo: recrea con realismo una escena callejera del Londres de los años 70, mejorando el enfoque en los detalles y la representación de las personas
Mejoras y limitaciones
- Frente a la versión inicial, se confirma una mejora clara del rendimiento en diversos casos
- Sin embargo, algunos resultados siguen siendo imperfectos, y aún hay margen de mejora en áreas como múltiples rostros y procesamiento multilingüe
Disponibilidad de GPT Image 1.5 en la API
- La versión de la API incluye las mismas mejoras que ChatGPT Images
- Mantiene la consistencia de logos de marca y visuales clave
- Es adecuada para generar imágenes para marketing y comercio electrónico
- Los costos de entrada y salida se reducen en 20%, permitiendo generar más imágenes con el mismo presupuesto
- Se puede probar en OpenAI Playground, la galería y la guía de prompts
- Empresas como Wix, Canva, Figma y Envato ya la están usando
- Wix la evaluó como “generación de imágenes de alta calidad y alta consistencia que respalda flujos de trabajo de producción rápidos”
Lanzamiento y despliegue
- El nuevo modelo de ChatGPT Images se despliega de inmediato para todos los usuarios de ChatGPT y de la API en todo el mundo
- Puede usarse sin seleccionar un modelo aparte, y la versión anterior se mantiene en forma de GPT personalizado
- OpenAI considera esta actualización como un paso importante en el avance de la tecnología de generación de imágenes
- En el futuro se prevén más mejoras, como edición más detallada y soporte multilingüe
1 comentarios
Comentarios en Hacker News
Compartió los resultados de gpt-image 1.5 en el sitio GenAI Showdown
OpenAI seguía destacando en comprensión de prompts, pero tendía a flojear en la fidelidad de imagen. Con esta actualización, esa debilidad mejoró bastante
En particular, realiza bien las ediciones localizadas (localized edit) sin arruinar la estética general
La puntuación previa pasó de 4/12 a 8/12, duplicándose, y fue el único modelo que superó el “Giraffe prompt”
La steerability del modelo también es alta, alrededor del 90%
Entre las funciones nuevas están una sección de casos fallidos por modelo (outtakes), la incorporación de los modelos REVE y Flux.2 Dev, y un sistema de puntuación basado en pesos
Para comparar los tres modelos (gpt-image-1, gpt-image-1.5, NB Pro), ver este enlace
Está preparando una entrada de blog que resume experimentos relacionados con Nano Banana
Al probar el nuevo modelo de imágenes de ChatGPT, vio que era mucho peor que Nano Banana Pro, pero mejor que Nano Banana base
El precio no está claro, pero parece que gpt-image-1.5 es aproximadamente un 20% más barato que el modelo anterior
Un caso interesante es la generación de grids (grid generation). NBP pierde consistencia del prompt por encima de 4x4, pero impresionó que OpenAI intentara un ejemplo de 6x6
Mientras tanto, los resultados impresionantes de NB Pro pueden verse en este blog
NB Pro logró resultados sorprendentes, como armar un rompecabezas nunca antes visto, estimar terreno 3D y convertir ventanas en espejos
Por ejemplo, al pedir dos personas remando, el bote salió tan pequeño que casi no cabían
Además, fue muy molesto un bug por el que cada prompt de edición hacía desaparecer la conversación previa
Para obtener resultados naturales, añadía frases como “shaky amateur smartphone photo” al principio del prompt
Como referencia, también puede verse la reacción relacionada en este tuit
gpt-image-1 supera con mucho a Nano Banana(Pro) en la función de previz-to-render
Nano Banana conserva tal cual los elementos de previs de baja resolución, pero gpt-image-1 entiende la pose de los personajes y el blocking de la escena, además de hacer upscale
Videos de ejemplo: 3D + Posing + Blocking, versión con reutilización de set, Gaussian splats, ejemplo adicional
A futuro, hará falta un modelo con control de estilo, velocidad y stylization basada en imágenes de referencia
Adobe también está experimentando con funciones parecidas, y mostró demos de Relighting, edición de Image→3D, edición Gaussian, conversión 3D→Image
Está implementando estas funciones por su cuenta como una herramienta de escritorio open source, desarrollada en Rust
Si en 2010 hubiera sido un servicio donde gente experta en Photoshop combinaba imágenes, probablemente habría causado gran controversia
Ahora estamos en una era en la que la IA está derrumbando los conceptos de copyright y autoría, y surge la duda de cómo se podrá proteger el contenido nuevo
Antes le pasó que gpt reprodujo casi tal cual una foto suya de un estilo raro
En cuanto se publica, hay que asumir cierto nivel de uso indebido. Todavía no hay precedentes legales para los casos en que un modelo sobreajusta al original
Probó generar sprite maps y UV texture maps con gpt-image-1.5, y captó muy bien la vibra de Megaman Legends
Ejemplo 1, Ejemplo 2
Aun así, como no hay un modelo 3D real, no está seguro de que sea un UV map correcto. Las primeras versiones de Nano Banana no podían hacer este tipo de trabajo
Se podría usar una textura así, pero tendría mucha distorsión
El enfoque correcto es hacer unwrap del modelo y usar un wireframe UV map como entrada
El modelo real de Crash puede verse aquí
Hizo un experimento aplicando tema oscuro a un producto de software
Gemini/Nano apenas cambiaban algunos paneles a gris, pero GPT tematizó toda la app de forma elegante
Aun así, los detalles del diseño siguen necesitando la mano de un diseñador
Le daba curiosidad por qué las imágenes de ChatGPT siempre tenían un tono amarillento
La propuesta de producto de “crear imágenes con recuerdos que no existen” le parece extraña
Él la usa sobre todo para tareas centradas en texto, como programación, wikis y matemáticas
Esto le recuerda a cuando estaban de moda los filtros de Snapchat. Él prefería dejar todo en modo normal
Al final, todos podrían terminar suscritos a vidas virtuales, y cuando falle el pago de la tarjeta, volverían a la realidad
Como el nuevo modelo supuestamente funciona en la API, actualizó grail, su SDK de Golang,
pero al invocarlo obtiene un error 500 del servidor. Tampoco aparece gpt-image-1.5 en la lista de modelos
Ver ejemplo de código
En su playground local (gpt-image-1-playground) modificó el manejo para capturar el 404
Si se pone mal el nombre del modelo, aparece el mensaje de que “los valores compatibles son gpt-image-1 y gpt-image-1-mini”
Sigue usando Midjourney. Los otros modelos grandes todavía carecen de creatividad estilística y se enfocan demasiado en el fotorrealismo
Para crear no una sola imagen sino una secuencia con contexto, esas funciones son esenciales
Ya había una tendencia a valorar el arte solo por la “capacidad técnica de renderizado”, ignorando el significado de la creación cultural dentro de su contexto social