- Un conjunto de datos de entrenamiento a gran escala que incluye aproximadamente 740 millones de pares imagen-texto y muchas otras propiedades
- Se recopilaron imágenes en documentos HTML y el atributo
alt (la cadena que aparece cuando una imagen no puede mostrarse en pantalla en HTML)
- Se espera que complemente otros conjuntos de datos similares y que se utilice para entrenar modelos fundacionales a gran escala
- “COYO” ya se aplicó anteriormente en el desarrollo del modelo ultragrande de generación de imágenes por IA
RQ-Transformer y del artista de IA Karlo
- Los detalles del proceso de recopilación de datos podrán consultarse en un artículo que se publicará más adelante
1 comentarios
COYO-700M: Conjunto de datos de pares imagen-texto
Kakao Brain publica «COYO», un conjunto de datos de nivel líder mundial