Presentan ChatGPT Images 2.0

(openai.com)

5 puntos por GN⁺ 8 일 전 | 4 comentarios | Compartir por WhatsApp

OpenAI presentó la próxima generación de su modelo de generación de imágenes y lo anunció usando únicamente texto dentro de imágenes creadas con Images 2.0, sin escribir la presentación como texto normal
Está enfocado en generar resultados listos para usarse, incluyendo tareas visuales complejas y renderizado preciso de texto
Es el primer modelo de imágenes con capacidad de razonamiento (thinking), capaz de hacer búsquedas web, generar varias imágenes al mismo tiempo y verificar sus propias salidas
La capacidad de renderizar caracteres no latinos mejoró de forma importante, incluyendo japonés, coreano, chino, hindi y bengalí, lo que lo vuelve práctico para diseño multilingüe
Ofrece soporte flexible de relación de aspecto de 3:1 a 1:3 para adaptarse de inmediato a banners, pósters, pantallas móviles y más formatos
Promueve el paso de una herramienta de renderizado a un sistema de diseño estratégico, y está disponible en ChatGPT, Codex y la API

Una nueva era de generación de imágenes

Define la imagen no como simple adorno sino como un lenguaje en sí mismo, capaz de explicar mecanismos, crear atmósferas, validar ideas y transmitir argumentos
Si ChatGPT Images, lanzado hace un año, demostró que las imágenes de IA podían ser bellas y útiles, Images 2.0 es el modelo de nueva generación que maneja con precisión tareas visuales complejas
Mejora de forma notable en seguir instrucciones detalladas, ubicar objetos con precisión, expresar relaciones entre elementos y renderizar texto denso
Tiene una composición y sensibilidad visual tan buenas que los resultados se sienten como diseño intencional y no como contenido generado por IA
Funciona con precisión en varios idiomas y aprovecha un conocimiento visual y del mundo más amplio para generar imágenes más inteligentes con menos prompt
Este modelo combina la inteligencia de los modelos de razonamiento de OpenAI con la comprensión visual del mundo, convirtiendo la generación de imágenes de renderizado simple a diseño estratégico, y de herramienta a sistema visual
Disponible desde hoy para usuarios de ChatGPT, Codex y la API

Mayor precisión y control

Images 2.0 ofrece un nivel de especificidad y fidelidad sin precedentes en generación de imágenes
No solo concibe imágenes más sofisticadas, sino que también las ejecuta con eficacia, destacando en obediencia a instrucciones, preservación de detalles solicitados y renderizado de elementos finos
Puede manejar hasta resolución 2K elementos que los modelos anteriores procesaban mal, como texto pequeño, íconos, elementos de UI, composiciones densas y restricciones sutiles de estilo
Genera resultados realmente listos para usarse, no solo “imágenes más o menos parecidas”

Soporte multilingüe de texto reforzado

Los modelos anteriores mostraban rendimiento consistente en inglés y otros idiomas con alfabeto latino, pero tenían carencias con caracteres no latinos en textos complejos o densos
Images 2.0 mejora la comprensión multilingüe y especialmente el renderizado de texto no latino en japonés, coreano, chino, hindi y bengalí
No solo renderiza con precisión texto no inglés, sino que también puede generar resultados con fluidez lingüística natural
Va más allá de traducir etiquetas simples y mantiene coherencia visual en pósters, materiales explicativos, diagramas y cómics donde el idioma forma parte del diseño
Permite crear visuales en el idioma que realmente usan los usuarios, mejorando su utilidad global

Sofisticación estilística y realismo

Images 2.0 mejora de manera importante la fidelidad en una amplia variedad de estilos visuales
Mejora la consistencia en textura, iluminación, composición y detalle de lenguajes visuales distintivos como rasgos fotográficos característicos —incluyendo imperfecciones sutiles que aumentan el realismo—, fotogramas cinematográficos, pixel art y cómic
Genera resultados que reflejan fielmente el estilo solicitado, en lugar de solo aproximarlo
Es especialmente útil para prototipado de juegos, storyboards, creatividades de marketing y creación de assets para medios o géneros específicos

Soporte flexible de relación de aspecto

Soporta una amplia gama de relaciones de aspecto, desde 3:1 (horizontal) hasta 1:3 (vertical)
Genera de inmediato resultados ajustados al formato necesario, como banners panorámicos, diapositivas de presentación, pósters, pantallas móviles, separadores y gráficos para redes sociales
Se puede indicar la relación de aspecto deseada en el prompt o elegirla en opciones preestablecidas para regenerar en un nuevo tamaño

Inteligencia del mundo real

Images 2.0 incorpora una comprensión más actualizada del mundo en la generación de imágenes, con un corte de conocimiento actualizado a diciembre de 2025
Resulta ventajoso para materiales explicativos, mapas, gráficos educativos y resúmenes visuales, donde la precisión y la claridad importan tanto como la estética
Gracias a su inteligencia mejorada, puede realizar flujos de trabajo de punta a punta, desde sintetizar información hasta redactar copy y visualizarlo
- Tiene una sensibilidad de diseño limpia y ordenada, considerando distribución del espacio, legibilidad y flujo

Un socio de pensamiento visual

Al elegir el modelo thinking o pro, el modelo dedica más tiempo para entender y ejecutar tareas de forma agéntica
Puede buscar información relevante en la web, convertir materiales subidos en recursos visuales explicativos claros e inferir la estructura de la imagen antes de generarla
En este modo, Images 2.0 funciona como un socio de pensamiento visual, reduciendo mucho la carga de trabajo del usuario desde conceptos iniciales hasta assets terminados
En modo thinking puede generar varias imágenes distintas al mismo tiempo —una primicia en la generación de imágenes de ChatGPT
- Admite flujos de trabajo como series de páginas de cómic, direcciones de rediseño para toda una casa, familias conceptuales de pósters o conjuntos de gráficos sociales en distintas relaciones de aspecto e idiomas
En vez de ir creando imágenes una por una y combinarlas manualmente, se pueden pedir de una sola vez hasta 10 resultados consistentes que mantengan continuidad de personajes y objetos
- Cada resultado se construye secuencialmente a partir del anterior

4 comentarios

j2sus91 8 일 전

Las imágenes ahora incluyen razonamiento, y los resultados están brutales.

Solo le lancé algunas palabras clave relacionadas con un nuevo negocio,
y hasta infiere el mensaje clave y los pain points para incorporarlos en la landing page.

Y ni hablar de que toma tal cual los colores de marca, el tono del mensaje de marca e incluso los modelos del sitio que le dije que usara como referencia.
Viendo que el coreano tampoco se rompe para nada, parece que su potencial de uso va a ser enorme de ahora en adelante..

Ahora sí, el avance de la IA cada vez me da más miedo.

kirinonakar 8 일 전

Impresionante. También me sorprendió cuando salió Nano Banana, pero esto mejoró aún más. Parece que cuando hay competencia, el avance es rápido.

xguru 8 일 전

Oh... el manejo del texto era de nanobanana, pero parece que esta vez sí se pusieron las pilas.
Convirtieron en imagen todo el texto del artículo de presentación.
Se puede ver todo el texto desplazándose por imágenes.
La letra cursiva a la mitad es bastante llamativa.

GN⁺ 8 일 전

Opiniones en Hacker News

Yo probé el nuevo modelo así: con gpt-image-2 generé una "imagen estilo Where's Waldo en la que hay que encontrar un mapache con una radioafición portátil", y el código está aquí. El resultado es esta imagen, pero la verdad ni yo estoy seguro de si el mapache realmente está sosteniendo la radio. En general, este tipo de pruebas estilo Where's Waldo no me dan mucha paciencia para buscar hasta el final
- Yo la volví a correr con el comando que usa la resolución máxima y obtuve un resultado mucho mejor. Tomé como referencia el tamaño recomendado en el cookbook de OpenAI (enlace), y el resultado está aquí. Esta vez sí encontré al raccoon, y parece que cada imagen costó alrededor de 40 centavos
- Agradezco ver esa imagen, pero las caras de la gente son tan extrañas que se sienten como algo que saldría en una pesadilla
- Yo creo que este prompt es una tarea brutalmente difícil para los modelos de tipo diffusion actuales. Por eso mismo, el simple hecho de intentarlo ya me parece impresionante
- Cuando leí lo de "no tengo paciencia para buscar hasta el final", pensé que esto podría convertirse en un nuevo benchmark de IA
- Este tipo de tarea me sigue pareciendo un área en la que la IA inevitablemente falla en el detalle estructural. De lejos se ve convincente, pero de cerca hay demasiados errores: rostros que parecen estar gritando, letreros que apuntan a ambos lados al mismo tiempo, tiendas de emergencias que no existen, perros que parecen monstruos. Las muestras promocionales también se ven parecidas, y ejemplos como anatomía o la tabla periódica se desmoronan cuando los miras de cerca. Al final me deja la duda de si solo estamos gastando enormes cantidades de RAM & GPUs, agua y electricidad para producir una versión peor de Where's Waldo
Mientras experimentaba con Nano Banana Pro, inventé un prompt muy divertido para probar la capacidad de los modelos de imagen de seguir reglas. Era algo como: "coloca los Pokémon cuyos números en la National Pokédex corresponden a los primeros 64 números primos en una cuadrícula de 8x8, y dibújalos en estilos 8-bit, charcoal y Ukiyo-e según la cantidad de dígitos del número". El resultado de NBP está aquí, y en general acertó con los números, los Pokémon y los estilos, aunque hubo debate sobre si la aplicación del estilo fue floja y si la imagen podía parecer plagio. El resultado de correr el mismo prompt con gpt-2-image high está aquí: logró un estilo más creativo y más original, pero aplicó la lógica del estilo por filas en lugar de basarse en los números, se equivocó en varios Pokémon, la tipografía estaba mal y la parte inferior ni siquiera era cuadrada. Fue un resultado bastante curioso
- Me pareció una prueba realmente excelente, y al mismo tiempo me dio risa que gpt-2-image fuera tan malo. Hasta me hizo pensar que una imagen plagiarizada de buscar y pegar sería mejor. Ni siquiera parece haber una verificación básica de si "siguió bien las instrucciones" ni una etapa de posprocesado; las violaciones a la regla de estilos por cantidad de dígitos habrían sido fáciles de detectar. Además, como es caro, decepciona más que el resultado sea prácticamente inutilizable
- Más bien, me dio curiosidad por qué este prompt se considera un buen prompt
Yo resumí que, si generas una imagen de 4096x4096 con gemini-3.1-flash-image-preview, cuesta 2,520 tokens y unos $0.151 por imagen, mientras que una imagen de 3840x2160 con gpt-image-2 cuesta 13,342 tokens y unos $0.4. Así que este modelo es más del doble de caro que Gemini
- A mí esa comparación me parece apples to oranges. En la práctica estás comparando la versión flash con la versión completa, y en detalle fino este se siente como unas 5 veces mejor que flash
Yo siempre uso un hard prompt para probar modelos de generación de imágenes. Consiste en mezclar condiciones como manos de un relojero anciano, un reloj de bolsillo vintage, agua poco profunda, refracción y caústicas, gotas cayendo, un rostro distorsionado reflejado en una superficie de vidrio y un lente macro de 100mm. Subí las imágenes resultantes a Google Drive, y lo probé varias veces tanto en la web como en la API, pero en general no fue tan bueno como Nano Banana
- Me dio curiosidad por qué esto se considera un buen prompt
- Intenté ver las imágenes compartidas, pero parece que el host tiene rate limit; solo quería avisarlo
- Confirmo que los enlaces parecen rotos
Yo creo que gpt-image-1.5 de OpenAI y NB2 de Google están bastante parejos en mi sitio de comparaciones. En evaluaciones centradas en seguir prompts, ambos mostraron alrededor de un 70% de éxito tanto en generación como en edición, y en calidad visual Gemini siempre estuvo un paso por delante. Aun así, gpt-image-1.5 fue un gran salto para OpenAI y eliminó muchos problemas crónicos de antes, como el llamado "piss filter". Los gráficos comparativos pueden verse en edición aquí y en generación aquí. Según la actualización, gpt-image-2 superó la estrella de 9 puntas, que era el llamado model killer del set de pruebas, y acertó 12 de 15 en el benchmark de texto a imagen, superando por 1 punto al modelo líder anterior. Aun así, todavía falló en prompts como la coral snake con orden de colores estricto, un D20 con los primeros 20 números primos escritos en las caras y un planeta tipo tierra plana con personas desbordándose por el borde. La comparación completa está en All Models, y una vista con solo los modelos principales está aquí
Yo resumí la comparación de precios. GPT Image 2 cuesta, en Low, $0.006 para 1024x1024 y $0.005 para 1024x1536 y 1536x1024; en Medium, respectivamente, $0.053, $0.041 y $0.041; y en High, $0.211, $0.165 y $0.165. En cambio, GPT Image 1 cuesta en Low $0.011, $0.016 y $0.016; en Medium $0.042, $0.063 y $0.063; y en High $0.167, $0.25 y $0.25
- Me pareció raro que la limitación de resolución fuera tan grande. Me pregunto si, al generar más grande, el detalle se rompe al ampliar, o si simplemente el costo se dispara demasiado
- Me pareció interesante que en v2 las salidas grandes cuesten más que un cuadrado pequeño, mientras que en v1 era al revés. Me pregunto por qué terminaron con esa estructura de precios
Confirmé que esta vez pasó la prueba de las teclas de piano. Un caso exitoso está aquí, aunque la etiqueta de middle C estuvo mal en este intento. Aun así, al pedirle otra vez, logró corregirlo
- Cuando salió NB 2, subí más la dificultad de esta prueba. Invertí los colores de todas las accidentals y naturals, y aun así lo resolvió perfectamente; el ejemplo está aquí
Me parece que la mejora en el renderizado de texto en chino es realmente muy visible e impresionante. Aun así, la imagen de muestra de Wuxi todavía tenía errores tipográficos; por ejemplo, el carácter 笼 de 小笼包 estaba mal escrito. También había más errores en la sección "极小中文也清晰可读", aunque no impedían mucho la lectura. Incluso así, se siente claramente mucho mejor que los modelos anteriores de generación de imágenes
- Me pregunto si esto incluso es mejor que los modelos chinos locales. Como seguramente tienen muchos más ejemplos en chino en sus datos de entrenamiento, uno esperaría que se enfocaran más en esta parte
Creo que este es un buen momento para mencionar C2PA. Es un estándar para probar activamente el origen de las imágenes, y OpenAI también participa. Si meto una imagen creada por IA en C2PA Viewer, el origen aparece como ChatGPT. Claro, un usuario malicioso puede borrar los metadatos y hacerla pasar por una imagen normal, pero a largo plazo creo que las imágenes sin indicación de origen deberían tratarse como una señal de riesgo, igual que non-https. Se puede consultar más en c2pa.org
- Me cuesta ver el problema solo como algo de bad actors. La mayoría de plataformas, como Instagram o Facebook, eliminan metadatos por privacidad, y EXIF puede incluir información como ubicación, nombre de archivo, hora de creación o datos del dispositivo. Así que, hoy por hoy, más que la manipulación maliciosa, el problema práctico más grande para preservar C2PA parece ser la propia estructura de que la mayoría de sitios eliminan metadatos al subir imágenes
- Quería agregar que OpenAI ha estado adjuntando C2PA manifests a las imágenes generadas desde el principio. Además, según una pequeña evaluación que hice, detectores modernos de imágenes de IA basados en ML como OmniAID identificaron bastante bien imágenes generadas por GPT-Image-2. El paper relacionado está aquí, y yo mismo construí un detector de imágenes de IA on-device combinando ambas cosas
Estuve usando este modelo durante unas horas y, honestamente, me pareció bastante impresionante. Es la primera vez que siento que un modelo de imágenes me ayuda de verdad en mi trabajo, especialmente para hacer diapositivas de PowerPoint y mockups