3 puntos por xguru 2023-05-31 | 3 comentarios | Compartir por WhatsApp
  • Modelo general de representación que abarca modalidades de visión, audio y lenguaje
  • Produce excelentes resultados en tareas integradas incluso sin modelos preentrenados
  • Con un potente Zero-shot Retrieval emergente, puede alinear modalidades no emparejadas en los datos de entrenamiento
  • Audio-to-Image, Audio+Text-to-Image, Audio+Image-to-Image

3 comentarios

 
ninebow 2023-05-31

Vaya, parece que es el mismo que publicaron la semana pasada. +_+
https://es.news.hada.io/topic?id=9249

 
xguru 2023-05-31

Ups, copié algo equivocado ; como también se compartió por Slack, lo dejaré así.
(Como es importante, véanlo dos veces... snif, snif)

 
ninebow 2023-05-31

Sí, ¡gracias! 🙇🏼‍♂️
(¡Gracias a eso me enteré de que xguru lo sube directamente! 🤣)