Lanzamiento de GPT Images 1.5

(openai.com)

3 puntos por GN⁺ 2025-12-17 | 1 comentarios | Compartir por WhatsApp

La función de generación de imágenes de ChatGPT se actualizó para ofrecer edición más precisa y mayor velocidad de generación
El modelo GPT‑Image‑1.5 sigue con más precisión las instrucciones de texto y permite editar manteniendo la similitud de la persona, la iluminación y la composición
A través de la nueva interfaz de barra lateral de Images, ofrece estilos predefinidos, prompts en tendencia y reutilización de apariencia
En la API también se incluyen las mismas mejoras de rendimiento y una reducción de costos del 20%, adecuada para generar logos de marca e imágenes de producto
Esta actualización se despliega de inmediato para todos los usuarios de ChatGPT y de la API, mejorando de forma importante la utilidad y la calidad de la generación de imágenes

Presentación de GPT‑Image‑1.5

Se presenta una nueva versión de ChatGPT Images basada en el modelo de generación de imágenes más potente
- Sigue con mayor precisión las instrucciones de texto y permite editar preservando elementos detallados como la similitud facial
- La velocidad de generación de imágenes es hasta 4 veces más rápida, lo que mejora la eficiencia en pruebas iterativas y exploración de ideas
El modelo ofrece transformaciones expresivas, renderizado de texto denso y resultados naturales
- Responde desde pequeños ajustes hasta reconstrucciones completas, y permite generar fácilmente eligiendo estilos predefinidos
Se está desplegando de forma gradual para todos los usuarios de ChatGPT, y en la API se ofrece como GPT‑Image‑1.5

Resultados alineados con la intención del usuario

El modelo modifica solo las partes solicitadas mientras mantiene de forma consistente la iluminación, la composición y la similitud de la persona
Con ello logra un alto nivel de coincidencia en edición fotográfica, simulación de ropa y peinados, filtros de estilo y transformación de conceptos
ChatGPT puede funcionar como un estudio creativo portátil, realizando tanto edición práctica como reconstrucción artística
- Admite varios tipos de edición (agregar, eliminar, combinar, mezclar, etc.)
- Se refuerzan las funciones de transformación creativa para añadir elementos como texto y diseño
- En comparación con GPT Image 1.0, hay mejor comprensión de instrucciones, lo que permite ediciones más detalladas
- Mejora la calidad del renderizado de texto pequeño y denso

Nuevo espacio para generar imágenes

Se introduce una barra lateral dedicada a Images dentro de ChatGPT para acortar el proceso de exploración y generación de imágenes
- Incluye filtros predefinidos, prompts en tendencia y reutilización de apariencia
- Permite reutilizar una sola carga repetidamente sin necesidad de volver a usar el carrete de la cámara
La velocidad de generación de imágenes mejora hasta 4 veces, y es posible crear varias imágenes al mismo tiempo
Ofrece resultados alineados con la visión del usuario, desde pequeños ajustes hasta reconstrucciones completas

Mejoras adicionales de calidad

Mejoras de calidad listas para uso inmediato, como representación de múltiples rostros pequeños y renderizado de resultados naturales
Ejemplo: recrea con realismo una escena callejera del Londres de los años 70, mejorando el enfoque en los detalles y la representación de las personas

Mejoras y limitaciones

Frente a la versión inicial, se confirma una mejora clara del rendimiento en diversos casos
Sin embargo, algunos resultados siguen siendo imperfectos, y aún hay margen de mejora en áreas como múltiples rostros y procesamiento multilingüe

Disponibilidad de GPT Image 1.5 en la API

La versión de la API incluye las mismas mejoras que ChatGPT Images
- Mantiene la consistencia de logos de marca y visuales clave
- Es adecuada para generar imágenes para marketing y comercio electrónico
Los costos de entrada y salida se reducen en 20%, permitiendo generar más imágenes con el mismo presupuesto
Se puede probar en OpenAI Playground, la galería y la guía de prompts
Empresas como Wix, Canva, Figma y Envato ya la están usando
- Wix la evaluó como “generación de imágenes de alta calidad y alta consistencia que respalda flujos de trabajo de producción rápidos”

Lanzamiento y despliegue

El nuevo modelo de ChatGPT Images se despliega de inmediato para todos los usuarios de ChatGPT y de la API en todo el mundo
Puede usarse sin seleccionar un modelo aparte, y la versión anterior se mantiene en forma de GPT personalizado
OpenAI considera esta actualización como un paso importante en el avance de la tecnología de generación de imágenes
- En el futuro se prevén más mejoras, como edición más detallada y soporte multilingüe

1 comentarios

GN⁺ 2025-12-17

Comentarios en Hacker News

Compartió los resultados de gpt-image 1.5 en el sitio GenAI Showdown
OpenAI seguía destacando en comprensión de prompts, pero tendía a flojear en la fidelidad de imagen. Con esta actualización, esa debilidad mejoró bastante
En particular, realiza bien las ediciones localizadas (localized edit) sin arruinar la estética general
La puntuación previa pasó de 4/12 a 8/12, duplicándose, y fue el único modelo que superó el “Giraffe prompt”
La steerability del modelo también es alta, alrededor del 90%
Entre las funciones nuevas están una sección de casos fallidos por modelo (outtakes), la incorporación de los modelos REVE y Flux.2 Dev, y un sistema de puntuación basado en pesos
Para comparar los tres modelos (gpt-image-1, gpt-image-1.5, NB Pro), ver este enlace
Está preparando una entrada de blog que resume experimentos relacionados con Nano Banana
Al probar el nuevo modelo de imágenes de ChatGPT, vio que era mucho peor que Nano Banana Pro, pero mejor que Nano Banana base
El precio no está claro, pero parece que gpt-image-1.5 es aproximadamente un 20% más barato que el modelo anterior
Un caso interesante es la generación de grids (grid generation). NBP pierde consistencia del prompt por encima de 4x4, pero impresionó que OpenAI intentara un ejemplo de 6x6
- Hoy planea correr gpt-image-1.5 en su GenAI Showdown
  Mientras tanto, los resultados impresionantes de NB Pro pueden verse en este blog
  NB Pro logró resultados sorprendentes, como armar un rompecabezas nunca antes visto, estimar terreno 3D y convertir ventanas en espejos
- Tras probar GPT1.5 directamente, la calidad de imagen le pareció similar a la de NBP, pero peor en consistencia del prompt y comprensión del world model
  Por ejemplo, al pedir dos personas remando, el bote salió tan pequeño que casi no cabían
  Además, fue muy molesto un bug por el que cada prompt de edición hacía desaparecer la conversación previa
  Para obtener resultados naturales, añadía frases como “shaky amateur smartphone photo” al principio del prompt
  Como referencia, también puede verse la reacción relacionada en este tuit
- Desde la perspectiva de alguien que lleva más de 10 años haciendo cine, hace mucha falta una herramienta de composición de escenas consistente
  gpt-image-1 supera con mucho a Nano Banana(Pro) en la función de previz-to-render
  Nano Banana conserva tal cual los elementos de previs de baja resolución, pero gpt-image-1 entiende la pose de los personajes y el blocking de la escena, además de hacer upscale
  Videos de ejemplo: 3D + Posing + Blocking, versión con reutilización de set, Gaussian splats, ejemplo adicional
  A futuro, hará falta un modelo con control de estilo, velocidad y stylization basada en imágenes de referencia
  Adobe también está experimentando con funciones parecidas, y mostró demos de Relighting, edición de Image→3D, edición Gaussian, conversión 3D→Image
  Está implementando estas funciones por su cuenta como una herramienta de escritorio open source, desarrollada en Rust
- Recibió comentarios diciendo que los experimentos parecieron interesantes. Gracias a eso, mejoró su forma de escribir prompts y ajustó sus expectativas de manera más realista
Si en 2010 hubiera sido un servicio donde gente experta en Photoshop combinaba imágenes, probablemente habría causado gran controversia
Ahora estamos en una era en la que la IA está derrumbando los conceptos de copyright y autoría, y surge la duda de cómo se podrá proteger el contenido nuevo
Antes le pasó que gpt reprodujo casi tal cual una foto suya de un estilo raro
- El uso de imágenes de referencia es una práctica estándar en la industria del arte digital. Aun así, con IA existe el riesgo de copiar demasiado parecido
- Para proteger contenido, la única forma es un air gap: no subirlo a internet
  En cuanto se publica, hay que asumir cierto nivel de uso indebido. Todavía no hay precedentes legales para los casos en que un modelo sobreajusta al original
- Probablemente estamos entrando en una era post-copyright. La ley terminará alcanzando esa realidad
- Se plantea si realmente sería algo malo que alguien copiara su obra si eso hiciera que muchísima gente la viera
Probó generar sprite maps y UV texture maps con gpt-image-1.5, y captó muy bien la vibra de Megaman Legends
Ejemplo 1, Ejemplo 2
Aun así, como no hay un modelo 3D real, no está seguro de que sea un UV map correcto. Las primeras versiones de Nano Banana no podían hacer este tipo de trabajo
- Para ser claros, esto no es un UV map real. Por ejemplo, falta la parte trasera del modelo de Crash
  Se podría usar una textura así, pero tendría mucha distorsión
  El enfoque correcto es hacer unwrap del modelo y usar un wireframe UV map como entrada
  El modelo real de Crash puede verse aquí
Hizo un experimento aplicando tema oscuro a un producto de software
Gemini/Nano apenas cambiaban algunos paneles a gris, pero GPT tematizó toda la app de forma elegante
Aun así, los detalles del diseño siguen necesitando la mano de un diseñador
Le daba curiosidad por qué las imágenes de ChatGPT siempre tenían un tono amarillento
- Es un fenómeno que apareció en cierto momento. Parece estar relacionado con el refuerzo derivado del boom del estilo Ghibli
- Su hipótesis es que OpenAI quizá calculó mal la normalización de imagen. En este modelo nuevo ya desapareció
- Los Codec Avatars de Meta también sufrieron un problema parecido. Reunieron datos con equipos de millones de dólares, pero por un fallo de calibración de cámara todo quedó con un tinte verdoso
- Otra hipótesis es que el típico “filtro México” del cine se filtró a los datos de entrenamiento
- Al hacer ajuste de estilo basado en preferencias humanas, se generó un sesgo sutil hacia el amarillo, y ese sesgo se fue acumulando conforme se repetían las ediciones
La propuesta de producto de “crear imágenes con recuerdos que no existen” le parece extraña
- A él también le parece así, pero viendo estudios de mercado, la generación de imágenes es muy popular
  Él la usa sobre todo para tareas centradas en texto, como programación, wikis y matemáticas
  Esto le recuerda a cuando estaban de moda los filtros de Snapchat. Él prefería dejar todo en modo normal
- Si con ese prompt salieran animales de origami, sería aún más inquietante
- Algún día podría llegar una era en la que actores vendan su imagen para crear fotos falsas
  Al final, todos podrían terminar suscritos a vidas virtuales, y cuando falle el pago de la tarjeta, volverían a la realidad
Como el nuevo modelo supuestamente funciona en la API, actualizó grail, su SDK de Golang,
pero al invocarlo obtiene un error 500 del servidor. Tampoco aparece gpt-image-1.5 en la lista de modelos
Ver ejemplo de código
- En realidad todavía no está disponible en la API. Tampoco aparece en el Image Playground que enlazó OpenAI
  En su playground local (gpt-image-1-playground) modificó el manejo para capturar el 404
  - También lo intentó y obtuvo el mismo error 500.
    Si se pone mal el nombre del modelo, aparece el mensaje de que “los valores compatibles son gpt-image-1 y gpt-image-1-mini”
  - Parece que está en despliegue gradual, y todavía tampoco se confirma en el backend
Sigue usando Midjourney. Los otros modelos grandes todavía carecen de creatividad estilística y se enfocan demasiado en el fotorrealismo
- No está al tanto de las últimas actualizaciones de Midjourney, pero son importantes las funciones de consistencia de estilo y persistencia de personajes
  Para crear no una sola imagen sino una secuencia con contexto, esas funciones son esenciales
- Esto puede verse como la diferencia entre “modelos con opinión” vs. modelos orientados a la elección del usuario”. Cuando los primeros funcionan bien, tienen una ventaja
- También hubo reacciones de sorpresa, y gente preguntando si existe una galería que reúna imágenes relacionadas
- Esta tendencia es un problema cultural que existe desde antes de la generación de imágenes
  Ya había una tendencia a valorar el arte solo por la “capacidad técnica de renderizado”, ignorando el significado de la creación cultural dentro de su contexto social

Lanzamiento de GPT Images 1.5

Presentación de GPT‑Image‑1.5

Resultados alineados con la intención del usuario

Nuevo espacio para generar imágenes

Mejoras adicionales de calidad

Mejoras y limitaciones

Disponibilidad de GPT Image 1.5 en la API

Lanzamiento y despliegue

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News