- El conjunto de datos de imágenes más grande del mundo entre los publicados gratuitamente
→ Volcado de datos de rastreo de páginas web entre 2014 y 2021
- Todas las imágenes/textos ya fueron filtrados con CLIP de OpenAI
→ Se filtraron los que tenían una similitud imagen/texto menor a 0.3 y luego se verificaron manualmente
- Estructura del conjunto de datos
→ Archivo Parquet de metadatos de URL+captions de 50 GB
→ WebDataset completo de 10 TB con imágenes 256x256/captions/metadatos, listo para usarse directamente en entrenamiento
→ 1 TB de embeddings CLIP de texto/imagen para 400M elementos. Útil para reconstruir índices KNN
→ Dos índices KNN de 4 GB que facilitan la búsqueda en el conjunto de datos
SAMPLE_ID | URL | TEXT | LICENSE | NSFW | similarity | WIDTH | HEIGHT
Aún no hay comentarios.