12 puntos por xguru 2021-09-15 | Aún no hay comentarios. | Compartir por WhatsApp
  • El conjunto de datos de imágenes más grande del mundo entre los publicados gratuitamente

→ Volcado de datos de rastreo de páginas web entre 2014 y 2021

  • Todas las imágenes/textos ya fueron filtrados con CLIP de OpenAI

→ Se filtraron los que tenían una similitud imagen/texto menor a 0.3 y luego se verificaron manualmente

  • Estructura del conjunto de datos

→ Archivo Parquet de metadatos de URL+captions de 50 GB

→ WebDataset completo de 10 TB con imágenes 256x256/captions/metadatos, listo para usarse directamente en entrenamiento

→ 1 TB de embeddings CLIP de texto/imagen para 400M elementos. Útil para reconstruir índices KNN

→ Dos índices KNN de 4 GB que facilitan la búsqueda en el conjunto de datos

SAMPLE_ID | URL | TEXT | LICENSE | NSFW | similarity | WIDTH | HEIGHT

Aún no hay comentarios.

Aún no hay comentarios.