Presentan ChatGPT Images 2.0
(openai.com)- OpenAI presentó la próxima generación de su modelo de generación de imágenes; incluso la propia publicación de presentación no lo describió con texto escrito directamente, sino solo con texto insertado dentro de imágenes generadas con Images 2.0
- Se enfoca en generar resultados listos para usar, incluyendo tareas visuales complejas y renderizado de texto preciso
- Es el primer modelo de imágenes con capacidad de thinking, capaz de buscar en la web, generar múltiples imágenes al mismo tiempo y verificar por sí mismo sus propios resultados
- La capacidad de renderizar caracteres no latinos mejoró notablemente, incluyendo japonés, coreano, chino, hindi y bengalí, por lo que resulta práctico para crear diseños multilingües
- Ofrece soporte flexible de relación de aspecto desde 3:1 hasta 1:3, para adaptarse de inmediato a banners, pósters, pantallas móviles y otros formatos
- Plantea un cambio de una herramienta de renderizado a un sistema de diseño estratégico, y está disponible en ChatGPT, Codex y la API
Una nueva era de generación de imágenes
- Define las imágenes no como simple decoración, sino como un lenguaje en sí mismo, capaz de explicar mecanismos, crear atmósferas, validar ideas y comunicar argumentos
- Si ChatGPT Images, lanzado hace un año, demostró que las imágenes de IA podían ser bellas y útiles, Images 2.0 es el modelo de próxima generación que maneja con precisión tareas visuales complejas
- Hay una mejora importante en seguir instrucciones detalladas con fidelidad, ubicar objetos con precisión, expresar relaciones entre elementos y renderizar texto denso
- Su composición y sensibilidad visual son tan sólidas que los resultados se sienten más como diseño intencional que como contenido generado por IA
- Funciona con precisión en varios idiomas y aprovecha un conocimiento visual y del mundo ampliado para generar imágenes más inteligentes incluso con menos prompts
- Este modelo combina la inteligencia de los modelos de razonamiento de OpenAI con comprensión del mundo visual, transformando la generación de imágenes de un simple renderizado a diseño estratégico, y de una herramienta a un sistema visual
- Desde hoy está disponible para todos los usuarios de ChatGPT, Codex y la API
Mayor precisión y control
- Images 2.0 ofrece un nivel sin precedentes de especificidad y fidelidad en la generación de imágenes
- No solo imagina imágenes más sofisticadas, sino que también las implementa eficazmente, con fortalezas en cumplimiento de instrucciones, preservación de detalles solicitados y renderizado de elementos finos
- Maneja texto pequeño, íconos, elementos de UI, composiciones densas y restricciones de estilo sutiles que los modelos anteriores no resolvían bien, con hasta resolución 2K
- Genera resultados realmente listos para usar, no solo “imágenes más o menos parecidas”
Mejor soporte para texto multilingüe
- Los modelos anteriores mostraban un rendimiento consistente en inglés y otros idiomas con escritura latina, pero tenían limitaciones con caracteres no latinos en texto complejo o denso
- Images 2.0 mejora la comprensión multilingüe y especialmente el renderizado de texto no latino en japonés, coreano, chino, hindi y bengalí
- No solo renderiza con precisión texto no inglés, sino que también puede generar resultados con fluidez lingüística natural
- Más allá de traducir etiquetas, mantiene la coherencia visual en pósters, materiales explicativos, diagramas y cómics donde el idioma es parte del diseño
- Permite crear visuales en los idiomas que la gente realmente usa, ampliando su utilidad global
Refinamiento estilístico y realismo
- Images 2.0 mejora significativamente la fidelidad en una amplia variedad de estilos visuales
- Hay avances en la consistencia de textura, iluminación, composición y detalles en lenguajes visuales distintivos como rasgos fotográficos característicos —incluyendo imperfecciones sutiles que aportan realismo—, fotogramas de cine, pixel art y cómics
- Genera resultados que reflejan fielmente el estilo solicitado, no solo una aproximación
- Es especialmente útil para prototipado de juegos, storyboards, creatividades de marketing y producción de assets para medios o géneros específicos
Soporte flexible de relación de aspecto
- Compatible con una amplia gama de relaciones de aspecto, desde 3:1 (horizontal) hasta 1:3 (vertical)
- Genera de inmediato resultados ajustados al formato necesario, como banners panorámicos, diapositivas de presentación, pósters, pantallas móviles, separadores y gráficos para redes sociales
- Se puede indicar la relación de aspecto deseada en el prompt o volver a generar en un nuevo tamaño eligiendo una opción predefinida
Inteligencia del mundo real
- Images 2.0 incorpora una comprensión del mundo más actualizada en la generación de imágenes, con un corte de conocimiento actualizado a diciembre de 2025
- Es ventajoso para materiales como documentos explicativos, mapas, gráficos educativos y resúmenes visuales, donde la precisión y la claridad importan tanto como lo estético
- Gracias a su mayor inteligencia, puede realizar flujos de trabajo de extremo a extremo, desde sintetizar información hasta redactar copy y visualizarlo
- Además, muestra criterio de diseño limpio y organizado al considerar distribución del espacio, legibilidad y flujo
Un socio para el pensamiento visual
- Al elegir el modelo thinking o pro, el modelo dedica más tiempo para entender y ejecutar el trabajo de forma agéntica
- Puede buscar información relevante en la web, convertir materiales subidos en recursos visuales explicativos claros y razonar la estructura de una imagen antes de generarla
- En este modo, Images 2.0 funciona como un socio de pensamiento visual, reduciendo significativamente la carga de trabajo del usuario desde conceptos preliminares hasta assets terminados
- En modo thinking puede generar varias imágenes distintas al mismo tiempo —una función inédita en la generación de imágenes de ChatGPT
- Esto habilita flujos de trabajo como series de páginas de cómic, direcciones de rediseño para toda una casa, familias conceptuales de pósters y conjuntos de gráficos para redes sociales en distintas relaciones de aspecto e idiomas
- En lugar de pedir imágenes una por una y combinarlas manualmente, se pueden solicitar de una sola vez hasta 10 resultados consistentes que mantengan continuidad de personajes y objetos
- Cada resultado se construye secuencialmente sobre el anterior
4 comentarios
Las imágenes ahora incluyen razonamiento, y los resultados están brutales.
Solo le lancé algunas palabras clave relacionadas con un nuevo negocio,
y hasta infiere el mensaje clave y los pain points para incorporarlos en la landing page.
Y ni hablar de que toma tal cual los colores de marca, el tono del mensaje de marca e incluso los modelos del sitio que le dije que usara como referencia.
Viendo que el coreano tampoco se rompe para nada, parece que su potencial de uso va a ser enorme de ahora en adelante..
Ahora sí, el avance de la IA cada vez me da más miedo.
Impresionante. También me sorprendió cuando salió Nano Banana, pero esto mejoró aún más. Parece que cuando hay competencia, el avance es rápido.
Oh... el manejo del texto era de nanobanana, pero parece que esta vez sí se pusieron las pilas.
Convirtieron en imagen todo el texto del artículo de presentación.
Se puede ver todo el texto desplazándose por imágenes.
La letra cursiva a la mitad es bastante llamativa.
Opiniones en Hacker News
gpt-image-2generé una "imagen estilo Where's Waldo en la que hay que encontrar un mapache con una radioafición portátil", y el código está aquí. El resultado es esta imagen, pero la verdad ni yo estoy seguro de si el mapache realmente está sosteniendo la radio. En general, este tipo de pruebas estilo Where's Waldo no me dan mucha paciencia para buscar hasta el finalgemini-3.1-flash-image-preview, cuesta 2,520 tokens y unos $0.151 por imagen, mientras que una imagen de 3840x2160 congpt-image-2cuesta 13,342 tokens y unos $0.4. Así que este modelo es más del doble de caro que Geminigpt-image-1.5de OpenAI y NB2 de Google están bastante parejos en mi sitio de comparaciones. En evaluaciones centradas en seguir prompts, ambos mostraron alrededor de un 70% de éxito tanto en generación como en edición, y en calidad visual Gemini siempre estuvo un paso por delante. Aun así,gpt-image-1.5fue un gran salto para OpenAI y eliminó muchos problemas crónicos de antes, como el llamado "piss filter". Los gráficos comparativos pueden verse en edición aquí y en generación aquí. Según la actualización,gpt-image-2superó la estrella de 9 puntas, que era el llamado model killer del set de pruebas, y acertó 12 de 15 en el benchmark de texto a imagen, superando por 1 punto al modelo líder anterior. Aun así, todavía falló en prompts como la coral snake con orden de colores estricto, un D20 con los primeros 20 números primos escritos en las caras y un planeta tipo tierra plana con personas desbordándose por el borde. La comparación completa está en All Models, y una vista con solo los modelos principales está aquíGPT-Image-2. El paper relacionado está aquí, y yo mismo construí un detector de imágenes de IA on-device combinando ambas cosas