OpenAI presenta la generación de imágenes de 4o

(openai.com)

12 puntos por GN⁺ 2025-03-26 | 3 comentarios | Compartir por WhatsApp

OpenAI ha creído durante mucho tiempo que la generación de imágenes debe ser una de las funciones centrales de un modelo de lenguaje, y con esa visión ha integrado en GPT‑4o su generador de imágenes más sofisticado y potente
La generación de imágenes de GPT‑4o va más allá de crear imágenes bonitas y produce resultados realmente útiles y valiosos
Es precisa y exacta, y permite generar imágenes de alta calidad con nivel de fotorrealismo
Incluye capacidades multimodales de forma nativa, por lo que permite crear contenido visual aprovechando conjuntamente lenguaje, imágenes y contexto

Funciones útiles de generación de imágenes

Los seres humanos han usado imágenes visuales para transmitir información, persuadir y analizar, desde los murales antiguos hasta las infografías modernas
Los modelos generativos anteriores podían crear imágenes fantásticas o impresionantes, pero tenían dificultades con imágenes prácticas para comunicar información
La generación de imágenes de GPT‑4o destaca en crear imágenes precisas para transmitir significado, como logotipos o diagramas
Incluye funciones avanzadas como renderizado preciso de texto, uso del contexto de la conversación del usuario y generación basada en imágenes subidas
Estas funciones ayudan a que el usuario cree con mayor precisión la imagen que desea

Capacidades de generación de imágenes mejoradas

Aprende la distribución conjunta de imágenes y texto en línea para comprender la relación entre imagen y lenguaje, y entre imágenes
Tras un proceso de ajuste posterior al entrenamiento, mejora su fluidez visual y puede generar imágenes útiles y consistentes

Función de renderizado de texto

Una imagen puede contener miles de palabras, pero unas pocas palabras colocadas en la posición adecuada pueden reforzar su significado
GPT‑4o puede combinar símbolos o texto precisos dentro de una imagen y usarse como herramienta de comunicación visual

Generación de imágenes conversacional

GPT‑4o integra la generación de imágenes como una función nativa, por lo que permite generarlas y editarlas dentro del flujo de la conversación
Ejemplo: al diseñar un personaje de videojuego, permite hacer ajustes iterativos mientras mantiene su apariencia de forma consistente

Reflejo preciso de instrucciones

GPT‑4o refleja con precisión prompts detallados
Mientras que otros sistemas pueden manejar alrededor de 5 a 8 objetos, GPT‑4o puede generar de forma consistente hasta 10 a 20 objetos
Mantiene con mayor precisión los atributos de los objetos y la representación de sus relaciones

Aprendizaje basado en contexto

Analiza imágenes subidas por el usuario e incorpora sus detalles a la generación de imágenes

Conexión con el conocimiento del mundo

GPT‑4o conecta el conocimiento entre texto e imágenes, lo que permite una generación de imágenes más inteligente y eficiente

Fotorrealismo y estilos variados

Fue entrenado con diversos estilos de imagen, lo que permite generar imágenes realistas y transformar estilos

Limitaciones del modelo

No es un modelo perfecto
Después del lanzamiento inicial, se seguirá mejorando de forma continua con base en comentarios de usuarios y datos

Esfuerzos para garantizar la seguridad

Mantiene estándares de seguridad sólidos al tiempo que promueve actividades creativas beneficiosas como desarrollo de videojuegos, exploración histórica y educación
Se están aplicando políticas estrictas para prevenir la generación de imágenes inapropiadas
Transparencia mediante C2PA y herramientas internas de búsqueda
- Todas las imágenes generadas por GPT‑4o incluyen metadatos C2PA para dejar clara su procedencia
- Mediante herramientas internas de búsqueda, es posible verificar el origen de una imagen con base en sus atributos técnicos
Bloqueo de imágenes inapropiadas
- Se bloquean solicitudes para generar imágenes que violen las políticas, como imágenes sexuales de menores o deepfakes
- Se aplican restricciones más estrictas a imágenes que incluyan personas reales
- Opera un sistema estricto de bloqueo preventivo para desnudos e imágenes violentas
Refuerzo de seguridad basado en razonamiento
- Se entrenó un LLM basado en razonamiento que opera a partir de especificaciones de políticas redactadas por humanos
- Se utilizó para identificar y resolver ambigüedades de las políticas, y en combinación con tecnología multimodal ajusta tanto el texto de entrada como la imagen de salida para que cumplan con los criterios de política

Disponibilidad

Desde hoy está disponible como generador de imágenes predeterminado para usuarios Plus, Pro, Team y Free
Enterprise y Edu recibirán soporte próximamente
También puede usarse en Sora, y el modelo DALL·E existente sigue siendo accesible mediante un GPT aparte
La función de generación de imágenes a través de la API estará disponible para desarrolladores en unas semanas
Los usuarios pueden generar imágenes solo con describir lo que quieren, y también especificar proporción, color (código hex), si el fondo debe ser transparente, etc.
Debido a la generación de imágenes de alta precisión, el renderizado puede tardar hasta 1 minuto

3 comentarios

j2sus91 2025-03-26

Todavía no parece verse en el plan free; ¿se abrió solo para Plus, Pro y Team?

laeyoung 2025-03-26

En Pro, si haces clic en los ... debajo de la ventana de chat, aparece como "Crear imagen (actualizado)", así que parece que es eso.
Pero no aparece Best of #, así que no sé si se aplicó o no, me confunde.

GN⁺ 2025-03-26

Comentarios de Hacker News

El nuevo método de generación de imágenes usa tokens para razonar en el espacio de píxeles en lugar de difusión
- Por ejemplo, puede dibujar un bloc de notas con un tres en raya vacío, hacer la primera jugada y luego continuar a medida que el usuario hace sus movimientos
- También permite cambiar el estilo del dibujo o hacer traducciones que preservan la información, como "cambiar el día por noche" o "ponerle un sombrero"
- La resolución del modelo es limitada, pero los avances en esta área abren la posibilidad de diseñar apps paso a paso como imágenes y luego escribir el código
- El modelo puede seguir "razonando" a partir de imágenes externas, así que puede mejorarlas incluso si la generación original no fue buena
- Si el modelo se vuelve más rápido, se puede imaginar una verdadera UI generativa que produzca el siguiente frame de una app según eventos del LLM
- Los modelos de difusión también pueden hacer tareas similares más rápido
Presentan 4o Image Generation: el generador de imágenes más avanzado
- Google Gemini 2.5: el modelo de IA más inteligente
- Presentan Gemini 2.0: el modelo de IA más capaz
- Ojalá esta tendencia desaparezca y Apple use algo efectivo para que las demás empresas copien esa nueva terminología
Me pregunto por qué no agregan benchmarks contra o1
El livestream de GPT-4o Image Generation de OpenAI es lento y tarda unos 30 segundos por imagen
- Sam Altman explicó que "es lento, pero las imágenes generadas valen la pena"
- En lugar de un enfoque de difusión, genera y decodifica tokens de imagen, similar al DALL-E original
- Google Gemini puede generar y editar imágenes en unos pocos segundos
- Todavía no hay API y, por su lentitud, se espera que cueste más que los $0.03+ por imagen de la competencia
Después de probarlo, pude generar de una sola vez la invitación de cumpleaños de mi hija
- Ajustó exactamente los elementos y el estilo que quería
- También funcionó bien cuando le pedí agregar detalles como la fecha y el lugar
- Los modelos anteriores no llegaban ni a la mitad
Da gusto que no sea el estilo CG/cómic sobresaturado
Me pregunto si hay alguna forma de verificar si un prompt dado fue procesado por 4o o por DALL-E
- Parece que por ahora los prompts todavía los procesa este último
- El plan a largo plazo es migrar por completo a 4o y mover DALL-E a una pestaña separada
Todavía falla la prueba de la copa de vino
Me pregunto hasta qué punto están seleccionadas muchas de las imágenes con la etiqueta "Best of 8"
- De las tres imágenes gratuitas, dos fueron impresionantes y una falló
Hay ejemplos de edición iterativa con el nuevo modelo
- Es mucho mejor que los modelos anteriores, pero todavía genera cuerpos con demasiados dedos o demasiados brazos