12 puntos por GN⁺ 2025-03-26 | 3 comentarios | Compartir por WhatsApp
  • OpenAI ha creído durante mucho tiempo que la generación de imágenes debe ser una de las funciones centrales de un modelo de lenguaje, y con esa visión ha integrado en GPT‑4o su generador de imágenes más sofisticado y potente
  • La generación de imágenes de GPT‑4o va más allá de crear imágenes bonitas y produce resultados realmente útiles y valiosos
  • Es precisa y exacta, y permite generar imágenes de alta calidad con nivel de fotorrealismo
  • Incluye capacidades multimodales de forma nativa, por lo que permite crear contenido visual aprovechando conjuntamente lenguaje, imágenes y contexto

Funciones útiles de generación de imágenes

  • Los seres humanos han usado imágenes visuales para transmitir información, persuadir y analizar, desde los murales antiguos hasta las infografías modernas
  • Los modelos generativos anteriores podían crear imágenes fantásticas o impresionantes, pero tenían dificultades con imágenes prácticas para comunicar información
  • La generación de imágenes de GPT‑4o destaca en crear imágenes precisas para transmitir significado, como logotipos o diagramas
  • Incluye funciones avanzadas como renderizado preciso de texto, uso del contexto de la conversación del usuario y generación basada en imágenes subidas
  • Estas funciones ayudan a que el usuario cree con mayor precisión la imagen que desea

Capacidades de generación de imágenes mejoradas

  • Aprende la distribución conjunta de imágenes y texto en línea para comprender la relación entre imagen y lenguaje, y entre imágenes
  • Tras un proceso de ajuste posterior al entrenamiento, mejora su fluidez visual y puede generar imágenes útiles y consistentes

Función de renderizado de texto

  • Una imagen puede contener miles de palabras, pero unas pocas palabras colocadas en la posición adecuada pueden reforzar su significado
  • GPT‑4o puede combinar símbolos o texto precisos dentro de una imagen y usarse como herramienta de comunicación visual

Generación de imágenes conversacional

  • GPT‑4o integra la generación de imágenes como una función nativa, por lo que permite generarlas y editarlas dentro del flujo de la conversación
  • Ejemplo: al diseñar un personaje de videojuego, permite hacer ajustes iterativos mientras mantiene su apariencia de forma consistente

Reflejo preciso de instrucciones

  • GPT‑4o refleja con precisión prompts detallados
  • Mientras que otros sistemas pueden manejar alrededor de 5 a 8 objetos, GPT‑4o puede generar de forma consistente hasta 10 a 20 objetos
  • Mantiene con mayor precisión los atributos de los objetos y la representación de sus relaciones

Aprendizaje basado en contexto

  • Analiza imágenes subidas por el usuario e incorpora sus detalles a la generación de imágenes

Conexión con el conocimiento del mundo

  • GPT‑4o conecta el conocimiento entre texto e imágenes, lo que permite una generación de imágenes más inteligente y eficiente

Fotorrealismo y estilos variados

  • Fue entrenado con diversos estilos de imagen, lo que permite generar imágenes realistas y transformar estilos

Limitaciones del modelo

  • No es un modelo perfecto
  • Después del lanzamiento inicial, se seguirá mejorando de forma continua con base en comentarios de usuarios y datos

Esfuerzos para garantizar la seguridad

  • Mantiene estándares de seguridad sólidos al tiempo que promueve actividades creativas beneficiosas como desarrollo de videojuegos, exploración histórica y educación
  • Se están aplicando políticas estrictas para prevenir la generación de imágenes inapropiadas
  • Transparencia mediante C2PA y herramientas internas de búsqueda

    • Todas las imágenes generadas por GPT‑4o incluyen metadatos C2PA para dejar clara su procedencia
    • Mediante herramientas internas de búsqueda, es posible verificar el origen de una imagen con base en sus atributos técnicos
  • Bloqueo de imágenes inapropiadas

    • Se bloquean solicitudes para generar imágenes que violen las políticas, como imágenes sexuales de menores o deepfakes
    • Se aplican restricciones más estrictas a imágenes que incluyan personas reales
    • Opera un sistema estricto de bloqueo preventivo para desnudos e imágenes violentas
  • Refuerzo de seguridad basado en razonamiento

    • Se entrenó un LLM basado en razonamiento que opera a partir de especificaciones de políticas redactadas por humanos
    • Se utilizó para identificar y resolver ambigüedades de las políticas, y en combinación con tecnología multimodal ajusta tanto el texto de entrada como la imagen de salida para que cumplan con los criterios de política

Disponibilidad

  • Desde hoy está disponible como generador de imágenes predeterminado para usuarios Plus, Pro, Team y Free
  • Enterprise y Edu recibirán soporte próximamente
  • También puede usarse en Sora, y el modelo DALL·E existente sigue siendo accesible mediante un GPT aparte
  • La función de generación de imágenes a través de la API estará disponible para desarrolladores en unas semanas
  • Los usuarios pueden generar imágenes solo con describir lo que quieren, y también especificar proporción, color (código hex), si el fondo debe ser transparente, etc.
  • Debido a la generación de imágenes de alta precisión, el renderizado puede tardar hasta 1 minuto

3 comentarios

 
j2sus91 2025-03-26

Todavía no parece verse en el plan free; ¿se abrió solo para Plus, Pro y Team?

 
laeyoung 2025-03-26

En Pro, si haces clic en los ... debajo de la ventana de chat, aparece como "Crear imagen (actualizado)", así que parece que es eso.
Pero no aparece Best of #, así que no sé si se aplicó o no, me confunde.

 
GN⁺ 2025-03-26
Comentarios de Hacker News
  • El nuevo método de generación de imágenes usa tokens para razonar en el espacio de píxeles en lugar de difusión

    • Por ejemplo, puede dibujar un bloc de notas con un tres en raya vacío, hacer la primera jugada y luego continuar a medida que el usuario hace sus movimientos
    • También permite cambiar el estilo del dibujo o hacer traducciones que preservan la información, como "cambiar el día por noche" o "ponerle un sombrero"
    • La resolución del modelo es limitada, pero los avances en esta área abren la posibilidad de diseñar apps paso a paso como imágenes y luego escribir el código
    • El modelo puede seguir "razonando" a partir de imágenes externas, así que puede mejorarlas incluso si la generación original no fue buena
    • Si el modelo se vuelve más rápido, se puede imaginar una verdadera UI generativa que produzca el siguiente frame de una app según eventos del LLM
    • Los modelos de difusión también pueden hacer tareas similares más rápido
  • Presentan 4o Image Generation: el generador de imágenes más avanzado

    • Google Gemini 2.5: el modelo de IA más inteligente
    • Presentan Gemini 2.0: el modelo de IA más capaz
    • Ojalá esta tendencia desaparezca y Apple use algo efectivo para que las demás empresas copien esa nueva terminología
  • Me pregunto por qué no agregan benchmarks contra o1

  • El livestream de GPT-4o Image Generation de OpenAI es lento y tarda unos 30 segundos por imagen

    • Sam Altman explicó que "es lento, pero las imágenes generadas valen la pena"
    • En lugar de un enfoque de difusión, genera y decodifica tokens de imagen, similar al DALL-E original
    • Google Gemini puede generar y editar imágenes en unos pocos segundos
    • Todavía no hay API y, por su lentitud, se espera que cueste más que los $0.03+ por imagen de la competencia
  • Después de probarlo, pude generar de una sola vez la invitación de cumpleaños de mi hija

    • Ajustó exactamente los elementos y el estilo que quería
    • También funcionó bien cuando le pedí agregar detalles como la fecha y el lugar
    • Los modelos anteriores no llegaban ni a la mitad
  • Da gusto que no sea el estilo CG/cómic sobresaturado

  • Me pregunto si hay alguna forma de verificar si un prompt dado fue procesado por 4o o por DALL-E

    • Parece que por ahora los prompts todavía los procesa este último
    • El plan a largo plazo es migrar por completo a 4o y mover DALL-E a una pestaña separada
  • Todavía falla la prueba de la copa de vino

  • Me pregunto hasta qué punto están seleccionadas muchas de las imágenes con la etiqueta "Best of 8"

    • De las tres imágenes gratuitas, dos fueron impresionantes y una falló
  • Hay ejemplos de edición iterativa con el nuevo modelo

    • Es mucho mejor que los modelos anteriores, pero todavía genera cuerpos con demasiados dedos o demasiados brazos