- OpenAI ha creído durante mucho tiempo que la generación de imágenes debe ser una de las funciones centrales de un modelo de lenguaje, y con esa visión ha integrado en GPT‑4o su generador de imágenes más sofisticado y potente
- La generación de imágenes de GPT‑4o va más allá de crear imágenes bonitas y produce resultados realmente útiles y valiosos
- Es precisa y exacta, y permite generar imágenes de alta calidad con nivel de fotorrealismo
- Incluye capacidades multimodales de forma nativa, por lo que permite crear contenido visual aprovechando conjuntamente lenguaje, imágenes y contexto
Funciones útiles de generación de imágenes
- Los seres humanos han usado imágenes visuales para transmitir información, persuadir y analizar, desde los murales antiguos hasta las infografías modernas
- Los modelos generativos anteriores podían crear imágenes fantásticas o impresionantes, pero tenían dificultades con imágenes prácticas para comunicar información
- La generación de imágenes de GPT‑4o destaca en crear imágenes precisas para transmitir significado, como logotipos o diagramas
- Incluye funciones avanzadas como renderizado preciso de texto, uso del contexto de la conversación del usuario y generación basada en imágenes subidas
- Estas funciones ayudan a que el usuario cree con mayor precisión la imagen que desea
Capacidades de generación de imágenes mejoradas
- Aprende la distribución conjunta de imágenes y texto en línea para comprender la relación entre imagen y lenguaje, y entre imágenes
- Tras un proceso de ajuste posterior al entrenamiento, mejora su fluidez visual y puede generar imágenes útiles y consistentes
Función de renderizado de texto
- Una imagen puede contener miles de palabras, pero unas pocas palabras colocadas en la posición adecuada pueden reforzar su significado
- GPT‑4o puede combinar símbolos o texto precisos dentro de una imagen y usarse como herramienta de comunicación visual
Generación de imágenes conversacional
- GPT‑4o integra la generación de imágenes como una función nativa, por lo que permite generarlas y editarlas dentro del flujo de la conversación
- Ejemplo: al diseñar un personaje de videojuego, permite hacer ajustes iterativos mientras mantiene su apariencia de forma consistente
Reflejo preciso de instrucciones
- GPT‑4o refleja con precisión prompts detallados
- Mientras que otros sistemas pueden manejar alrededor de 5 a 8 objetos, GPT‑4o puede generar de forma consistente hasta 10 a 20 objetos
- Mantiene con mayor precisión los atributos de los objetos y la representación de sus relaciones
Aprendizaje basado en contexto
- Analiza imágenes subidas por el usuario e incorpora sus detalles a la generación de imágenes
Conexión con el conocimiento del mundo
- GPT‑4o conecta el conocimiento entre texto e imágenes, lo que permite una generación de imágenes más inteligente y eficiente
Fotorrealismo y estilos variados
- Fue entrenado con diversos estilos de imagen, lo que permite generar imágenes realistas y transformar estilos
Limitaciones del modelo
- No es un modelo perfecto
- Después del lanzamiento inicial, se seguirá mejorando de forma continua con base en comentarios de usuarios y datos
Esfuerzos para garantizar la seguridad
- Mantiene estándares de seguridad sólidos al tiempo que promueve actividades creativas beneficiosas como desarrollo de videojuegos, exploración histórica y educación
- Se están aplicando políticas estrictas para prevenir la generación de imágenes inapropiadas
-
Transparencia mediante C2PA y herramientas internas de búsqueda
- Todas las imágenes generadas por GPT‑4o incluyen metadatos C2PA para dejar clara su procedencia
- Mediante herramientas internas de búsqueda, es posible verificar el origen de una imagen con base en sus atributos técnicos
-
Bloqueo de imágenes inapropiadas
- Se bloquean solicitudes para generar imágenes que violen las políticas, como imágenes sexuales de menores o deepfakes
- Se aplican restricciones más estrictas a imágenes que incluyan personas reales
- Opera un sistema estricto de bloqueo preventivo para desnudos e imágenes violentas
-
Refuerzo de seguridad basado en razonamiento
- Se entrenó un LLM basado en razonamiento que opera a partir de especificaciones de políticas redactadas por humanos
- Se utilizó para identificar y resolver ambigüedades de las políticas, y en combinación con tecnología multimodal ajusta tanto el texto de entrada como la imagen de salida para que cumplan con los criterios de política
Disponibilidad
- Desde hoy está disponible como generador de imágenes predeterminado para usuarios Plus, Pro, Team y Free
- Enterprise y Edu recibirán soporte próximamente
- También puede usarse en Sora, y el modelo DALL·E existente sigue siendo accesible mediante un GPT aparte
- La función de generación de imágenes a través de la API estará disponible para desarrolladores en unas semanas
- Los usuarios pueden generar imágenes solo con describir lo que quieren, y también especificar proporción, color (código hex), si el fondo debe ser transparente, etc.
- Debido a la generación de imágenes de alta precisión, el renderizado puede tardar hasta 1 minuto
3 comentarios
Todavía no parece verse en el plan free; ¿se abrió solo para Plus, Pro y Team?
En Pro, si haces clic en los ... debajo de la ventana de chat, aparece como "Crear imagen (actualizado)", así que parece que es eso.
Pero no aparece
Best of #, así que no sé si se aplicó o no, me confunde.Comentarios de Hacker News
El nuevo método de generación de imágenes usa tokens para razonar en el espacio de píxeles en lugar de difusión
Presentan 4o Image Generation: el generador de imágenes más avanzado
Me pregunto por qué no agregan benchmarks contra o1
El livestream de GPT-4o Image Generation de OpenAI es lento y tarda unos 30 segundos por imagen
Después de probarlo, pude generar de una sola vez la invitación de cumpleaños de mi hija
Da gusto que no sea el estilo CG/cómic sobresaturado
Me pregunto si hay alguna forma de verificar si un prompt dado fue procesado por 4o o por DALL-E
Todavía falla la prueba de la copa de vino
Me pregunto hasta qué punto están seleccionadas muchas de las imágenes con la etiqueta "Best of 8"
Hay ejemplos de edición iterativa con el nuevo modelo