3 puntos por GN⁺ 2025-12-17 | 1 comentarios | Compartir por WhatsApp
  • La función de generación de imágenes de ChatGPT se actualizó para ofrecer edición más precisa y mayor velocidad de generación
  • El modelo GPT‑Image‑1.5 sigue con más precisión las instrucciones de texto y permite editar manteniendo la similitud de la persona, la iluminación y la composición
  • A través de la nueva interfaz de barra lateral de Images, ofrece estilos predefinidos, prompts en tendencia y reutilización de apariencia
  • En la API también se incluyen las mismas mejoras de rendimiento y una reducción de costos del 20%, adecuada para generar logos de marca e imágenes de producto
  • Esta actualización se despliega de inmediato para todos los usuarios de ChatGPT y de la API, mejorando de forma importante la utilidad y la calidad de la generación de imágenes

Presentación de GPT‑Image‑1.5

  • Se presenta una nueva versión de ChatGPT Images basada en el modelo de generación de imágenes más potente
    • Sigue con mayor precisión las instrucciones de texto y permite editar preservando elementos detallados como la similitud facial
    • La velocidad de generación de imágenes es hasta 4 veces más rápida, lo que mejora la eficiencia en pruebas iterativas y exploración de ideas
  • El modelo ofrece transformaciones expresivas, renderizado de texto denso y resultados naturales
    • Responde desde pequeños ajustes hasta reconstrucciones completas, y permite generar fácilmente eligiendo estilos predefinidos
  • Se está desplegando de forma gradual para todos los usuarios de ChatGPT, y en la API se ofrece como GPT‑Image‑1.5

Resultados alineados con la intención del usuario

  • El modelo modifica solo las partes solicitadas mientras mantiene de forma consistente la iluminación, la composición y la similitud de la persona
  • Con ello logra un alto nivel de coincidencia en edición fotográfica, simulación de ropa y peinados, filtros de estilo y transformación de conceptos
  • ChatGPT puede funcionar como un estudio creativo portátil, realizando tanto edición práctica como reconstrucción artística
    • Admite varios tipos de edición (agregar, eliminar, combinar, mezclar, etc.)
    • Se refuerzan las funciones de transformación creativa para añadir elementos como texto y diseño
    • En comparación con GPT Image 1.0, hay mejor comprensión de instrucciones, lo que permite ediciones más detalladas
    • Mejora la calidad del renderizado de texto pequeño y denso

Nuevo espacio para generar imágenes

  • Se introduce una barra lateral dedicada a Images dentro de ChatGPT para acortar el proceso de exploración y generación de imágenes
    • Incluye filtros predefinidos, prompts en tendencia y reutilización de apariencia
    • Permite reutilizar una sola carga repetidamente sin necesidad de volver a usar el carrete de la cámara
  • La velocidad de generación de imágenes mejora hasta 4 veces, y es posible crear varias imágenes al mismo tiempo
  • Ofrece resultados alineados con la visión del usuario, desde pequeños ajustes hasta reconstrucciones completas

Mejoras adicionales de calidad

  • Mejoras de calidad listas para uso inmediato, como representación de múltiples rostros pequeños y renderizado de resultados naturales
  • Ejemplo: recrea con realismo una escena callejera del Londres de los años 70, mejorando el enfoque en los detalles y la representación de las personas

Mejoras y limitaciones

  • Frente a la versión inicial, se confirma una mejora clara del rendimiento en diversos casos
  • Sin embargo, algunos resultados siguen siendo imperfectos, y aún hay margen de mejora en áreas como múltiples rostros y procesamiento multilingüe

Disponibilidad de GPT Image 1.5 en la API

  • La versión de la API incluye las mismas mejoras que ChatGPT Images
    • Mantiene la consistencia de logos de marca y visuales clave
    • Es adecuada para generar imágenes para marketing y comercio electrónico
  • Los costos de entrada y salida se reducen en 20%, permitiendo generar más imágenes con el mismo presupuesto
  • Se puede probar en OpenAI Playground, la galería y la guía de prompts
  • Empresas como Wix, Canva, Figma y Envato ya la están usando
    • Wix la evaluó como “generación de imágenes de alta calidad y alta consistencia que respalda flujos de trabajo de producción rápidos

Lanzamiento y despliegue

  • El nuevo modelo de ChatGPT Images se despliega de inmediato para todos los usuarios de ChatGPT y de la API en todo el mundo
  • Puede usarse sin seleccionar un modelo aparte, y la versión anterior se mantiene en forma de GPT personalizado
  • OpenAI considera esta actualización como un paso importante en el avance de la tecnología de generación de imágenes
    • En el futuro se prevén más mejoras, como edición más detallada y soporte multilingüe

1 comentarios

 
GN⁺ 2025-12-17
Comentarios en Hacker News
  • Compartió los resultados de gpt-image 1.5 en el sitio GenAI Showdown
    OpenAI seguía destacando en comprensión de prompts, pero tendía a flojear en la fidelidad de imagen. Con esta actualización, esa debilidad mejoró bastante
    En particular, realiza bien las ediciones localizadas (localized edit) sin arruinar la estética general
    La puntuación previa pasó de 4/12 a 8/12, duplicándose, y fue el único modelo que superó el “Giraffe prompt”
    La steerability del modelo también es alta, alrededor del 90%
    Entre las funciones nuevas están una sección de casos fallidos por modelo (outtakes), la incorporación de los modelos REVE y Flux.2 Dev, y un sistema de puntuación basado en pesos
    Para comparar los tres modelos (gpt-image-1, gpt-image-1.5, NB Pro), ver este enlace

  • Está preparando una entrada de blog que resume experimentos relacionados con Nano Banana
    Al probar el nuevo modelo de imágenes de ChatGPT, vio que era mucho peor que Nano Banana Pro, pero mejor que Nano Banana base
    El precio no está claro, pero parece que gpt-image-1.5 es aproximadamente un 20% más barato que el modelo anterior
    Un caso interesante es la generación de grids (grid generation). NBP pierde consistencia del prompt por encima de 4x4, pero impresionó que OpenAI intentara un ejemplo de 6x6

    • Hoy planea correr gpt-image-1.5 en su GenAI Showdown
      Mientras tanto, los resultados impresionantes de NB Pro pueden verse en este blog
      NB Pro logró resultados sorprendentes, como armar un rompecabezas nunca antes visto, estimar terreno 3D y convertir ventanas en espejos
    • Tras probar GPT1.5 directamente, la calidad de imagen le pareció similar a la de NBP, pero peor en consistencia del prompt y comprensión del world model
      Por ejemplo, al pedir dos personas remando, el bote salió tan pequeño que casi no cabían
      Además, fue muy molesto un bug por el que cada prompt de edición hacía desaparecer la conversación previa
      Para obtener resultados naturales, añadía frases como “shaky amateur smartphone photo” al principio del prompt
      Como referencia, también puede verse la reacción relacionada en este tuit
    • Desde la perspectiva de alguien que lleva más de 10 años haciendo cine, hace mucha falta una herramienta de composición de escenas consistente
      gpt-image-1 supera con mucho a Nano Banana(Pro) en la función de previz-to-render
      Nano Banana conserva tal cual los elementos de previs de baja resolución, pero gpt-image-1 entiende la pose de los personajes y el blocking de la escena, además de hacer upscale
      Videos de ejemplo: 3D + Posing + Blocking, versión con reutilización de set, Gaussian splats, ejemplo adicional
      A futuro, hará falta un modelo con control de estilo, velocidad y stylization basada en imágenes de referencia
      Adobe también está experimentando con funciones parecidas, y mostró demos de Relighting, edición de Image→3D, edición Gaussian, conversión 3D→Image
      Está implementando estas funciones por su cuenta como una herramienta de escritorio open source, desarrollada en Rust
    • Recibió comentarios diciendo que los experimentos parecieron interesantes. Gracias a eso, mejoró su forma de escribir prompts y ajustó sus expectativas de manera más realista
  • Si en 2010 hubiera sido un servicio donde gente experta en Photoshop combinaba imágenes, probablemente habría causado gran controversia
    Ahora estamos en una era en la que la IA está derrumbando los conceptos de copyright y autoría, y surge la duda de cómo se podrá proteger el contenido nuevo
    Antes le pasó que gpt reprodujo casi tal cual una foto suya de un estilo raro

    • El uso de imágenes de referencia es una práctica estándar en la industria del arte digital. Aun así, con IA existe el riesgo de copiar demasiado parecido
    • Para proteger contenido, la única forma es un air gap: no subirlo a internet
      En cuanto se publica, hay que asumir cierto nivel de uso indebido. Todavía no hay precedentes legales para los casos en que un modelo sobreajusta al original
    • Probablemente estamos entrando en una era post-copyright. La ley terminará alcanzando esa realidad
    • Se plantea si realmente sería algo malo que alguien copiara su obra si eso hiciera que muchísima gente la viera
  • Probó generar sprite maps y UV texture maps con gpt-image-1.5, y captó muy bien la vibra de Megaman Legends
    Ejemplo 1, Ejemplo 2
    Aun así, como no hay un modelo 3D real, no está seguro de que sea un UV map correcto. Las primeras versiones de Nano Banana no podían hacer este tipo de trabajo

    • Para ser claros, esto no es un UV map real. Por ejemplo, falta la parte trasera del modelo de Crash
      Se podría usar una textura así, pero tendría mucha distorsión
      El enfoque correcto es hacer unwrap del modelo y usar un wireframe UV map como entrada
      El modelo real de Crash puede verse aquí
  • Hizo un experimento aplicando tema oscuro a un producto de software
    Gemini/Nano apenas cambiaban algunos paneles a gris, pero GPT tematizó toda la app de forma elegante
    Aun así, los detalles del diseño siguen necesitando la mano de un diseñador

  • Le daba curiosidad por qué las imágenes de ChatGPT siempre tenían un tono amarillento

    • Es un fenómeno que apareció en cierto momento. Parece estar relacionado con el refuerzo derivado del boom del estilo Ghibli
    • Su hipótesis es que OpenAI quizá calculó mal la normalización de imagen. En este modelo nuevo ya desapareció
    • Los Codec Avatars de Meta también sufrieron un problema parecido. Reunieron datos con equipos de millones de dólares, pero por un fallo de calibración de cámara todo quedó con un tinte verdoso
    • Otra hipótesis es que el típico “filtro México” del cine se filtró a los datos de entrenamiento
    • Al hacer ajuste de estilo basado en preferencias humanas, se generó un sesgo sutil hacia el amarillo, y ese sesgo se fue acumulando conforme se repetían las ediciones
  • La propuesta de producto de “crear imágenes con recuerdos que no existen” le parece extraña

    • A él también le parece así, pero viendo estudios de mercado, la generación de imágenes es muy popular
      Él la usa sobre todo para tareas centradas en texto, como programación, wikis y matemáticas
      Esto le recuerda a cuando estaban de moda los filtros de Snapchat. Él prefería dejar todo en modo normal
    • Si con ese prompt salieran animales de origami, sería aún más inquietante
    • Algún día podría llegar una era en la que actores vendan su imagen para crear fotos falsas
      Al final, todos podrían terminar suscritos a vidas virtuales, y cuando falle el pago de la tarjeta, volverían a la realidad
  • Como el nuevo modelo supuestamente funciona en la API, actualizó grail, su SDK de Golang,
    pero al invocarlo obtiene un error 500 del servidor. Tampoco aparece gpt-image-1.5 en la lista de modelos
    Ver ejemplo de código

    • En realidad todavía no está disponible en la API. Tampoco aparece en el Image Playground que enlazó OpenAI
      En su playground local (gpt-image-1-playground) modificó el manejo para capturar el 404
      • También lo intentó y obtuvo el mismo error 500.
        Si se pone mal el nombre del modelo, aparece el mensaje de que “los valores compatibles son gpt-image-1 y gpt-image-1-mini”
      • Parece que está en despliegue gradual, y todavía tampoco se confirma en el backend
  • Sigue usando Midjourney. Los otros modelos grandes todavía carecen de creatividad estilística y se enfocan demasiado en el fotorrealismo

    • No está al tanto de las últimas actualizaciones de Midjourney, pero son importantes las funciones de consistencia de estilo y persistencia de personajes
      Para crear no una sola imagen sino una secuencia con contexto, esas funciones son esenciales
    • Esto puede verse como la diferencia entre “modelos con opinión” vs. modelos orientados a la elección del usuario”. Cuando los primeros funcionan bien, tienen una ventaja
    • También hubo reacciones de sorpresa, y gente preguntando si existe una galería que reúna imágenes relacionadas
    • Esta tendencia es un problema cultural que existe desde antes de la generación de imágenes
      Ya había una tendencia a valorar el arte solo por la “capacidad técnica de renderizado”, ignorando el significado de la creación cultural dentro de su contexto social