Presentan ChatGPT Images 2.0
(openai.com)- OpenAI presentó la próxima generación de su modelo de generación de imágenes y lo anunció usando únicamente texto dentro de imágenes creadas con Images 2.0, sin escribir la presentación como texto normal
- Está enfocado en generar resultados listos para usarse, incluyendo tareas visuales complejas y renderizado preciso de texto
- Es el primer modelo de imágenes con capacidad de razonamiento (thinking), capaz de hacer búsquedas web, generar varias imágenes al mismo tiempo y verificar sus propias salidas
- La capacidad de renderizar caracteres no latinos mejoró de forma importante, incluyendo japonés, coreano, chino, hindi y bengalí, lo que lo vuelve práctico para diseño multilingüe
- Ofrece soporte flexible de relación de aspecto de 3:1 a 1:3 para adaptarse de inmediato a banners, pósters, pantallas móviles y más formatos
- Promueve el paso de una herramienta de renderizado a un sistema de diseño estratégico, y está disponible en ChatGPT, Codex y la API
Una nueva era de generación de imágenes
- Define la imagen no como simple adorno sino como un lenguaje en sí mismo, capaz de explicar mecanismos, crear atmósferas, validar ideas y transmitir argumentos
- Si ChatGPT Images, lanzado hace un año, demostró que las imágenes de IA podían ser bellas y útiles, Images 2.0 es el modelo de nueva generación que maneja con precisión tareas visuales complejas
- Mejora de forma notable en seguir instrucciones detalladas, ubicar objetos con precisión, expresar relaciones entre elementos y renderizar texto denso
- Tiene una composición y sensibilidad visual tan buenas que los resultados se sienten como diseño intencional y no como contenido generado por IA
- Funciona con precisión en varios idiomas y aprovecha un conocimiento visual y del mundo más amplio para generar imágenes más inteligentes con menos prompt
- Este modelo combina la inteligencia de los modelos de razonamiento de OpenAI con la comprensión visual del mundo, convirtiendo la generación de imágenes de renderizado simple a diseño estratégico, y de herramienta a sistema visual
- Disponible desde hoy para usuarios de ChatGPT, Codex y la API
Mayor precisión y control
- Images 2.0 ofrece un nivel de especificidad y fidelidad sin precedentes en generación de imágenes
- No solo concibe imágenes más sofisticadas, sino que también las ejecuta con eficacia, destacando en obediencia a instrucciones, preservación de detalles solicitados y renderizado de elementos finos
- Puede manejar hasta resolución 2K elementos que los modelos anteriores procesaban mal, como texto pequeño, íconos, elementos de UI, composiciones densas y restricciones sutiles de estilo
- Genera resultados realmente listos para usarse, no solo “imágenes más o menos parecidas”
Soporte multilingüe de texto reforzado
- Los modelos anteriores mostraban rendimiento consistente en inglés y otros idiomas con alfabeto latino, pero tenían carencias con caracteres no latinos en textos complejos o densos
- Images 2.0 mejora la comprensión multilingüe y especialmente el renderizado de texto no latino en japonés, coreano, chino, hindi y bengalí
- No solo renderiza con precisión texto no inglés, sino que también puede generar resultados con fluidez lingüística natural
- Va más allá de traducir etiquetas simples y mantiene coherencia visual en pósters, materiales explicativos, diagramas y cómics donde el idioma forma parte del diseño
- Permite crear visuales en el idioma que realmente usan los usuarios, mejorando su utilidad global
Sofisticación estilística y realismo
- Images 2.0 mejora de manera importante la fidelidad en una amplia variedad de estilos visuales
- Mejora la consistencia en textura, iluminación, composición y detalle de lenguajes visuales distintivos como rasgos fotográficos característicos —incluyendo imperfecciones sutiles que aumentan el realismo—, fotogramas cinematográficos, pixel art y cómic
- Genera resultados que reflejan fielmente el estilo solicitado, en lugar de solo aproximarlo
- Es especialmente útil para prototipado de juegos, storyboards, creatividades de marketing y creación de assets para medios o géneros específicos
Soporte flexible de relación de aspecto
- Soporta una amplia gama de relaciones de aspecto, desde 3:1 (horizontal) hasta 1:3 (vertical)
- Genera de inmediato resultados ajustados al formato necesario, como banners panorámicos, diapositivas de presentación, pósters, pantallas móviles, separadores y gráficos para redes sociales
- Se puede indicar la relación de aspecto deseada en el prompt o elegirla en opciones preestablecidas para regenerar en un nuevo tamaño
Inteligencia del mundo real
- Images 2.0 incorpora una comprensión más actualizada del mundo en la generación de imágenes, con un corte de conocimiento actualizado a diciembre de 2025
- Resulta ventajoso para materiales explicativos, mapas, gráficos educativos y resúmenes visuales, donde la precisión y la claridad importan tanto como la estética
- Gracias a su inteligencia mejorada, puede realizar flujos de trabajo de punta a punta, desde sintetizar información hasta redactar copy y visualizarlo
- Tiene una sensibilidad de diseño limpia y ordenada, considerando distribución del espacio, legibilidad y flujo
Un socio de pensamiento visual
- Al elegir el modelo thinking o pro, el modelo dedica más tiempo para entender y ejecutar tareas de forma agéntica
- Puede buscar información relevante en la web, convertir materiales subidos en recursos visuales explicativos claros e inferir la estructura de la imagen antes de generarla
- En este modo, Images 2.0 funciona como un socio de pensamiento visual, reduciendo mucho la carga de trabajo del usuario desde conceptos iniciales hasta assets terminados
- En modo thinking puede generar varias imágenes distintas al mismo tiempo —una primicia en la generación de imágenes de ChatGPT
- Admite flujos de trabajo como series de páginas de cómic, direcciones de rediseño para toda una casa, familias conceptuales de pósters o conjuntos de gráficos sociales en distintas relaciones de aspecto e idiomas
- En vez de ir creando imágenes una por una y combinarlas manualmente, se pueden pedir de una sola vez hasta 10 resultados consistentes que mantengan continuidad de personajes y objetos
- Cada resultado se construye secuencialmente a partir del anterior
4 comentarios
Las imágenes ahora incluyen razonamiento, y los resultados están brutales.
Solo le lancé algunas palabras clave relacionadas con un nuevo negocio,
y hasta infiere el mensaje clave y los pain points para incorporarlos en la landing page.
Y ni hablar de que toma tal cual los colores de marca, el tono del mensaje de marca e incluso los modelos del sitio que le dije que usara como referencia.
Viendo que el coreano tampoco se rompe para nada, parece que su potencial de uso va a ser enorme de ahora en adelante..
Ahora sí, el avance de la IA cada vez me da más miedo.
Impresionante. También me sorprendió cuando salió Nano Banana, pero esto mejoró aún más. Parece que cuando hay competencia, el avance es rápido.
Oh... el manejo del texto era de nanobanana, pero parece que esta vez sí se pusieron las pilas.
Convirtieron en imagen todo el texto del artículo de presentación.
Se puede ver todo el texto desplazándose por imágenes.
La letra cursiva a la mitad es bastante llamativa.
Opiniones en Hacker News
gpt-image-2generé una "imagen estilo Where's Waldo en la que hay que encontrar un mapache con una radioafición portátil", y el código está aquí. El resultado es esta imagen, pero la verdad ni yo estoy seguro de si el mapache realmente está sosteniendo la radio. En general, este tipo de pruebas estilo Where's Waldo no me dan mucha paciencia para buscar hasta el finalgemini-3.1-flash-image-preview, cuesta 2,520 tokens y unos $0.151 por imagen, mientras que una imagen de 3840x2160 congpt-image-2cuesta 13,342 tokens y unos $0.4. Así que este modelo es más del doble de caro que Geminigpt-image-1.5de OpenAI y NB2 de Google están bastante parejos en mi sitio de comparaciones. En evaluaciones centradas en seguir prompts, ambos mostraron alrededor de un 70% de éxito tanto en generación como en edición, y en calidad visual Gemini siempre estuvo un paso por delante. Aun así,gpt-image-1.5fue un gran salto para OpenAI y eliminó muchos problemas crónicos de antes, como el llamado "piss filter". Los gráficos comparativos pueden verse en edición aquí y en generación aquí. Según la actualización,gpt-image-2superó la estrella de 9 puntas, que era el llamado model killer del set de pruebas, y acertó 12 de 15 en el benchmark de texto a imagen, superando por 1 punto al modelo líder anterior. Aun así, todavía falló en prompts como la coral snake con orden de colores estricto, un D20 con los primeros 20 números primos escritos en las caras y un planeta tipo tierra plana con personas desbordándose por el borde. La comparación completa está en All Models, y una vista con solo los modelos principales está aquíGPT-Image-2. El paper relacionado está aquí, y yo mismo construí un detector de imágenes de IA on-device combinando ambas cosas