DALL·E: generar imágenes a partir de texto
(openai.com)-
Una versión de GPT-3 con 12 mil millones de parámetros
-
Fue entrenado para generar imágenes a partir de descripciones de texto usando un conjunto de datos de pares texto-imagen
-
Muestra varias capacidades, como crear versiones antropomorfizadas de animales y objetos, combinar de forma convincente conceptos no relacionados, renderizar texto o aplicar transformaciones a imágenes existentes
→ Control de atributos: forma, color, material, cantidad de apariciones, etc.
→ Dibujar varios objetos al mismo tiempo y expresar sus relaciones
→ Expresar perspectiva y visualización en 3D
→ Expresar estructuras internas y externas: el interior de una nuez, coral cerebro, etc.
→ Inferir detalles según la situación: representar cambiando el estilo/configuración/hora, como mostrar sombras acordes al contexto
→ Diseño de moda e interiores
→ Combinar conceptos totalmente no relacionados: un caracol hecho de arpa, una silla con forma de aguacate
→ Razonamiento visual zero-shot
→ Generación de imágenes basada en información geográfica/temporal
- DALL·E recibe 256 tokens de texto y 1024 tokens de imagen en un solo flujo y los modela de forma autorregresiva con un sencillo transformer decoder-only
1 comentarios
Vaya, esto es impresionante. Espero con ganas el día en que se integre a la vida cotidiana.