11 puntos por xguru 2023-05-24 | 1 comentarios | Compartir por WhatsApp
  • Modelo de representación general que abarca modalidades de visión, audio y lenguaje
  • Logra excelentes resultados en tareas unificadas incluso sin modelos preentrenados
  • Su potente recuperación zero-shot emergente permite alinear modalidades no emparejadas en los datos de entrenamiento
  • Audio-to-Image, Audio+Text-to-Image, Audio+Image-to-Image

1 comentarios

 
dbs0829 2023-05-24

Veo que superó el SOTA en muchas tareas.