10 puntos por xguru 2021-01-07 | 1 comentarios | Compartir por WhatsApp
  • Una versión de GPT-3 con 12 mil millones de parámetros

  • Fue entrenado para generar imágenes a partir de descripciones de texto usando un conjunto de datos de pares texto-imagen

  • Muestra varias capacidades, como crear versiones antropomorfizadas de animales y objetos, combinar de forma convincente conceptos no relacionados, renderizar texto o aplicar transformaciones a imágenes existentes

→ Control de atributos: forma, color, material, cantidad de apariciones, etc.

→ Dibujar varios objetos al mismo tiempo y expresar sus relaciones

→ Expresar perspectiva y visualización en 3D

→ Expresar estructuras internas y externas: el interior de una nuez, coral cerebro, etc.

→ Inferir detalles según la situación: representar cambiando el estilo/configuración/hora, como mostrar sombras acordes al contexto

→ Diseño de moda e interiores

→ Combinar conceptos totalmente no relacionados: un caracol hecho de arpa, una silla con forma de aguacate

→ Razonamiento visual zero-shot

→ Generación de imágenes basada en información geográfica/temporal

  • DALL·E recibe 256 tokens de texto y 1024 tokens de imagen en un solo flujo y los modela de forma autorregresiva con un sencillo transformer decoder-only

1 comentarios

 
heycalmdown 2021-01-08

Vaya, esto es impresionante. Espero con ganas el día en que se integre a la vida cotidiana.