Presentan ChatGPT Images 2.0

(openai.com)

6 puntos por GN⁺ 2026-04-22 | 4 comentarios | Compartir por WhatsApp

OpenAI presentó la próxima generación de su modelo de generación de imágenes; incluso la propia publicación de presentación no lo describió con texto escrito directamente, sino solo con texto insertado dentro de imágenes generadas con Images 2.0
Se enfoca en generar resultados listos para usar, incluyendo tareas visuales complejas y renderizado de texto preciso
Es el primer modelo de imágenes con capacidad de thinking, capaz de buscar en la web, generar múltiples imágenes al mismo tiempo y verificar por sí mismo sus propios resultados
La capacidad de renderizar caracteres no latinos mejoró notablemente, incluyendo japonés, coreano, chino, hindi y bengalí, por lo que resulta práctico para crear diseños multilingües
Ofrece soporte flexible de relación de aspecto desde 3:1 hasta 1:3, para adaptarse de inmediato a banners, pósters, pantallas móviles y otros formatos
Plantea un cambio de una herramienta de renderizado a un sistema de diseño estratégico, y está disponible en ChatGPT, Codex y la API

Una nueva era de generación de imágenes

Define las imágenes no como simple decoración, sino como un lenguaje en sí mismo, capaz de explicar mecanismos, crear atmósferas, validar ideas y comunicar argumentos
Si ChatGPT Images, lanzado hace un año, demostró que las imágenes de IA podían ser bellas y útiles, Images 2.0 es el modelo de próxima generación que maneja con precisión tareas visuales complejas
Hay una mejora importante en seguir instrucciones detalladas con fidelidad, ubicar objetos con precisión, expresar relaciones entre elementos y renderizar texto denso
Su composición y sensibilidad visual son tan sólidas que los resultados se sienten más como diseño intencional que como contenido generado por IA
Funciona con precisión en varios idiomas y aprovecha un conocimiento visual y del mundo ampliado para generar imágenes más inteligentes incluso con menos prompts
Este modelo combina la inteligencia de los modelos de razonamiento de OpenAI con comprensión del mundo visual, transformando la generación de imágenes de un simple renderizado a diseño estratégico, y de una herramienta a un sistema visual
Desde hoy está disponible para todos los usuarios de ChatGPT, Codex y la API

Mayor precisión y control

Images 2.0 ofrece un nivel sin precedentes de especificidad y fidelidad en la generación de imágenes
No solo imagina imágenes más sofisticadas, sino que también las implementa eficazmente, con fortalezas en cumplimiento de instrucciones, preservación de detalles solicitados y renderizado de elementos finos
Maneja texto pequeño, íconos, elementos de UI, composiciones densas y restricciones de estilo sutiles que los modelos anteriores no resolvían bien, con hasta resolución 2K
Genera resultados realmente listos para usar, no solo “imágenes más o menos parecidas”

Mejor soporte para texto multilingüe

Los modelos anteriores mostraban un rendimiento consistente en inglés y otros idiomas con escritura latina, pero tenían limitaciones con caracteres no latinos en texto complejo o denso
Images 2.0 mejora la comprensión multilingüe y especialmente el renderizado de texto no latino en japonés, coreano, chino, hindi y bengalí
No solo renderiza con precisión texto no inglés, sino que también puede generar resultados con fluidez lingüística natural
Más allá de traducir etiquetas, mantiene la coherencia visual en pósters, materiales explicativos, diagramas y cómics donde el idioma es parte del diseño
Permite crear visuales en los idiomas que la gente realmente usa, ampliando su utilidad global

Refinamiento estilístico y realismo

Images 2.0 mejora significativamente la fidelidad en una amplia variedad de estilos visuales
Hay avances en la consistencia de textura, iluminación, composición y detalles en lenguajes visuales distintivos como rasgos fotográficos característicos —incluyendo imperfecciones sutiles que aportan realismo—, fotogramas de cine, pixel art y cómics
Genera resultados que reflejan fielmente el estilo solicitado, no solo una aproximación
Es especialmente útil para prototipado de juegos, storyboards, creatividades de marketing y producción de assets para medios o géneros específicos

Soporte flexible de relación de aspecto

Compatible con una amplia gama de relaciones de aspecto, desde 3:1 (horizontal) hasta 1:3 (vertical)
Genera de inmediato resultados ajustados al formato necesario, como banners panorámicos, diapositivas de presentación, pósters, pantallas móviles, separadores y gráficos para redes sociales
Se puede indicar la relación de aspecto deseada en el prompt o volver a generar en un nuevo tamaño eligiendo una opción predefinida

Inteligencia del mundo real

Images 2.0 incorpora una comprensión del mundo más actualizada en la generación de imágenes, con un corte de conocimiento actualizado a diciembre de 2025
Es ventajoso para materiales como documentos explicativos, mapas, gráficos educativos y resúmenes visuales, donde la precisión y la claridad importan tanto como lo estético
Gracias a su mayor inteligencia, puede realizar flujos de trabajo de extremo a extremo, desde sintetizar información hasta redactar copy y visualizarlo
- Además, muestra criterio de diseño limpio y organizado al considerar distribución del espacio, legibilidad y flujo

Un socio para el pensamiento visual

Al elegir el modelo thinking o pro, el modelo dedica más tiempo para entender y ejecutar el trabajo de forma agéntica
Puede buscar información relevante en la web, convertir materiales subidos en recursos visuales explicativos claros y razonar la estructura de una imagen antes de generarla
En este modo, Images 2.0 funciona como un socio de pensamiento visual, reduciendo significativamente la carga de trabajo del usuario desde conceptos preliminares hasta assets terminados
En modo thinking puede generar varias imágenes distintas al mismo tiempo —una función inédita en la generación de imágenes de ChatGPT
- Esto habilita flujos de trabajo como series de páginas de cómic, direcciones de rediseño para toda una casa, familias conceptuales de pósters y conjuntos de gráficos para redes sociales en distintas relaciones de aspecto e idiomas
En lugar de pedir imágenes una por una y combinarlas manualmente, se pueden solicitar de una sola vez hasta 10 resultados consistentes que mantengan continuidad de personajes y objetos
- Cada resultado se construye secuencialmente sobre el anterior

4 comentarios

j2sus91 2026-04-22

Las imágenes ahora incluyen razonamiento, y los resultados están brutales.

Solo le lancé algunas palabras clave relacionadas con un nuevo negocio,
y hasta infiere el mensaje clave y los pain points para incorporarlos en la landing page.

Y ni hablar de que toma tal cual los colores de marca, el tono del mensaje de marca e incluso los modelos del sitio que le dije que usara como referencia.
Viendo que el coreano tampoco se rompe para nada, parece que su potencial de uso va a ser enorme de ahora en adelante..

Ahora sí, el avance de la IA cada vez me da más miedo.

kirinonakar 2026-04-22

Impresionante. También me sorprendió cuando salió Nano Banana, pero esto mejoró aún más. Parece que cuando hay competencia, el avance es rápido.

xguru 2026-04-22

Oh... el manejo del texto era de nanobanana, pero parece que esta vez sí se pusieron las pilas.
Convirtieron en imagen todo el texto del artículo de presentación.
Se puede ver todo el texto desplazándose por imágenes.
La letra cursiva a la mitad es bastante llamativa.

GN⁺ 2026-04-22

Opiniones en Hacker News

Yo probé el nuevo modelo así: con gpt-image-2 generé una "imagen estilo Where's Waldo en la que hay que encontrar un mapache con una radioafición portátil", y el código está aquí. El resultado es esta imagen, pero la verdad ni yo estoy seguro de si el mapache realmente está sosteniendo la radio. En general, este tipo de pruebas estilo Where's Waldo no me dan mucha paciencia para buscar hasta el final
- Yo la volví a correr con el comando que usa la resolución máxima y obtuve un resultado mucho mejor. Tomé como referencia el tamaño recomendado en el cookbook de OpenAI (enlace), y el resultado está aquí. Esta vez sí encontré al raccoon, y parece que cada imagen costó alrededor de 40 centavos
- Agradezco ver esa imagen, pero las caras de la gente son tan extrañas que se sienten como algo que saldría en una pesadilla
- Yo creo que este prompt es una tarea brutalmente difícil para los modelos de tipo diffusion actuales. Por eso mismo, el simple hecho de intentarlo ya me parece impresionante
- Cuando leí lo de "no tengo paciencia para buscar hasta el final", pensé que esto podría convertirse en un nuevo benchmark de IA
- Este tipo de tarea me sigue pareciendo un área en la que la IA inevitablemente falla en el detalle estructural. De lejos se ve convincente, pero de cerca hay demasiados errores: rostros que parecen estar gritando, letreros que apuntan a ambos lados al mismo tiempo, tiendas de emergencias que no existen, perros que parecen monstruos. Las muestras promocionales también se ven parecidas, y ejemplos como anatomía o la tabla periódica se desmoronan cuando los miras de cerca. Al final me deja la duda de si solo estamos gastando enormes cantidades de RAM & GPUs, agua y electricidad para producir una versión peor de Where's Waldo
Mientras experimentaba con Nano Banana Pro, inventé un prompt muy divertido para probar la capacidad de los modelos de imagen de seguir reglas. Era algo como: "coloca los Pokémon cuyos números en la National Pokédex corresponden a los primeros 64 números primos en una cuadrícula de 8x8, y dibújalos en estilos 8-bit, charcoal y Ukiyo-e según la cantidad de dígitos del número". El resultado de NBP está aquí, y en general acertó con los números, los Pokémon y los estilos, aunque hubo debate sobre si la aplicación del estilo fue floja y si la imagen podía parecer plagio. El resultado de correr el mismo prompt con gpt-2-image high está aquí: logró un estilo más creativo y más original, pero aplicó la lógica del estilo por filas en lugar de basarse en los números, se equivocó en varios Pokémon, la tipografía estaba mal y la parte inferior ni siquiera era cuadrada. Fue un resultado bastante curioso
- Me pareció una prueba realmente excelente, y al mismo tiempo me dio risa que gpt-2-image fuera tan malo. Hasta me hizo pensar que una imagen plagiarizada de buscar y pegar sería mejor. Ni siquiera parece haber una verificación básica de si "siguió bien las instrucciones" ni una etapa de posprocesado; las violaciones a la regla de estilos por cantidad de dígitos habrían sido fáciles de detectar. Además, como es caro, decepciona más que el resultado sea prácticamente inutilizable
- Más bien, me dio curiosidad por qué este prompt se considera un buen prompt
Yo resumí que, si generas una imagen de 4096x4096 con gemini-3.1-flash-image-preview, cuesta 2,520 tokens y unos $0.151 por imagen, mientras que una imagen de 3840x2160 con gpt-image-2 cuesta 13,342 tokens y unos $0.4. Así que este modelo es más del doble de caro que Gemini
- A mí esa comparación me parece apples to oranges. En la práctica estás comparando la versión flash con la versión completa, y en detalle fino este se siente como unas 5 veces mejor que flash
Yo siempre uso un hard prompt para probar modelos de generación de imágenes. Consiste en mezclar condiciones como manos de un relojero anciano, un reloj de bolsillo vintage, agua poco profunda, refracción y caústicas, gotas cayendo, un rostro distorsionado reflejado en una superficie de vidrio y un lente macro de 100mm. Subí las imágenes resultantes a Google Drive, y lo probé varias veces tanto en la web como en la API, pero en general no fue tan bueno como Nano Banana
- Me dio curiosidad por qué esto se considera un buen prompt
- Intenté ver las imágenes compartidas, pero parece que el host tiene rate limit; solo quería avisarlo
- Confirmo que los enlaces parecen rotos
Yo creo que gpt-image-1.5 de OpenAI y NB2 de Google están bastante parejos en mi sitio de comparaciones. En evaluaciones centradas en seguir prompts, ambos mostraron alrededor de un 70% de éxito tanto en generación como en edición, y en calidad visual Gemini siempre estuvo un paso por delante. Aun así, gpt-image-1.5 fue un gran salto para OpenAI y eliminó muchos problemas crónicos de antes, como el llamado "piss filter". Los gráficos comparativos pueden verse en edición aquí y en generación aquí. Según la actualización, gpt-image-2 superó la estrella de 9 puntas, que era el llamado model killer del set de pruebas, y acertó 12 de 15 en el benchmark de texto a imagen, superando por 1 punto al modelo líder anterior. Aun así, todavía falló en prompts como la coral snake con orden de colores estricto, un D20 con los primeros 20 números primos escritos en las caras y un planeta tipo tierra plana con personas desbordándose por el borde. La comparación completa está en All Models, y una vista con solo los modelos principales está aquí
Yo resumí la comparación de precios. GPT Image 2 cuesta, en Low, $0.006 para 1024x1024 y $0.005 para 1024x1536 y 1536x1024; en Medium, respectivamente, $0.053, $0.041 y $0.041; y en High, $0.211, $0.165 y $0.165. En cambio, GPT Image 1 cuesta en Low $0.011, $0.016 y $0.016; en Medium $0.042, $0.063 y $0.063; y en High $0.167, $0.25 y $0.25
- Me pareció raro que la limitación de resolución fuera tan grande. Me pregunto si, al generar más grande, el detalle se rompe al ampliar, o si simplemente el costo se dispara demasiado
- Me pareció interesante que en v2 las salidas grandes cuesten más que un cuadrado pequeño, mientras que en v1 era al revés. Me pregunto por qué terminaron con esa estructura de precios
Confirmé que esta vez pasó la prueba de las teclas de piano. Un caso exitoso está aquí, aunque la etiqueta de middle C estuvo mal en este intento. Aun así, al pedirle otra vez, logró corregirlo
- Cuando salió NB 2, subí más la dificultad de esta prueba. Invertí los colores de todas las accidentals y naturals, y aun así lo resolvió perfectamente; el ejemplo está aquí
Me parece que la mejora en el renderizado de texto en chino es realmente muy visible e impresionante. Aun así, la imagen de muestra de Wuxi todavía tenía errores tipográficos; por ejemplo, el carácter 笼 de 小笼包 estaba mal escrito. También había más errores en la sección "极小中文也清晰可读", aunque no impedían mucho la lectura. Incluso así, se siente claramente mucho mejor que los modelos anteriores de generación de imágenes
- Me pregunto si esto incluso es mejor que los modelos chinos locales. Como seguramente tienen muchos más ejemplos en chino en sus datos de entrenamiento, uno esperaría que se enfocaran más en esta parte
Creo que este es un buen momento para mencionar C2PA. Es un estándar para probar activamente el origen de las imágenes, y OpenAI también participa. Si meto una imagen creada por IA en C2PA Viewer, el origen aparece como ChatGPT. Claro, un usuario malicioso puede borrar los metadatos y hacerla pasar por una imagen normal, pero a largo plazo creo que las imágenes sin indicación de origen deberían tratarse como una señal de riesgo, igual que non-https. Se puede consultar más en c2pa.org
- Me cuesta ver el problema solo como algo de bad actors. La mayoría de plataformas, como Instagram o Facebook, eliminan metadatos por privacidad, y EXIF puede incluir información como ubicación, nombre de archivo, hora de creación o datos del dispositivo. Así que, hoy por hoy, más que la manipulación maliciosa, el problema práctico más grande para preservar C2PA parece ser la propia estructura de que la mayoría de sitios eliminan metadatos al subir imágenes
- Quería agregar que OpenAI ha estado adjuntando C2PA manifests a las imágenes generadas desde el principio. Además, según una pequeña evaluación que hice, detectores modernos de imágenes de IA basados en ML como OmniAID identificaron bastante bien imágenes generadas por GPT-Image-2. El paper relacionado está aquí, y yo mismo construí un detector de imágenes de IA on-device combinando ambas cosas
Estuve usando este modelo durante unas horas y, honestamente, me pareció bastante impresionante. Es la primera vez que siento que un modelo de imágenes me ayuda de verdad en mi trabajo, especialmente para hacer diapositivas de PowerPoint y mockups