5 puntos por xguru 2022-04-21 | 1 comentarios | Compartir por WhatsApp
  1. Conexión entre texto y significado visual (semántica)
    → Usa el modelo CLIP: aprende con cientos de millones de imágenes y sus captions relacionados qué tan relacionada está una caption con una imagen
  2. Generación de imágenes a partir del significado visual
    → Usa el modelo GLIDE: aprende una forma de invertir el proceso de codificación de imágenes. Utiliza un modelo de difusión
  3. Mapeo desde el significado del texto al significado visual correspondiente
    → Usa el modelo Prior: mapea la codificación de texto de una caption de imagen a la codificación de imagen de esa imagen
  4. Integración de todo
    → El codificador de texto de CLIP mapea la descripción de la imagen al espacio de representación
    → Diffusion Prior mapea la codificación de texto de CLIP a la codificación de imagen de CLIP relacionada
    → El modelo generativo GLIDE modificado usa difusión inversa para mapear del espacio de representación al espacio de imagen y generar muchas imágenes posibles que transmiten la información semántica contenida en la caption de entrada

3 puntos importantes

  1. DALL-E 2 muestra el poder de los modelos de difusión
  2. Destaca la necesidad y el poder de usar lenguaje natural como medio para entrenar modelos de deep learning de vanguardia
  3. Reafirma que los Transformers ocupan la posición líder para los modelos entrenados con conjuntos de datos a escala web