- Anna's Archive es un metabuscador de biblioteca sombra en línea, sin fines de lucro, operado por activistas anónimos. Proporciona acceso a diversos recursos bibliográficos
- Adquirieron una colección de libros de no ficción en chino que alcanza 7.5 millones de volúmenes / 350 TB (más que Library Genesis)
- A cambio de proporcionar OCR de alta calidad y extracción de texto para esta colección, planean ofrecer a esa empresa de LLM acceso exclusivo anticipado durante 1 año
- Esta colección proviene de Duxiu, una base de datos masiva de libros escaneados creada por SuperStar Digital Library Group, que se ofrecía digitalmente a universidades y bibliotecas
- El tamaño total de los archivos de la colección en su forma actual es de aproximadamente 359 TB
- El texto extraído se utilizará para entrenar modelos de lenguaje grandes (LLMs), y Archive cree que, aunque la colección está en chino, podría ser útil para entrenar LLMs en inglés
- Archive busca ofrecer funciones de búsqueda especializadas a sus usuarios mediante esta colaboración
- Si la parte colaboradora está dispuesta a compartir todo el código del pipeline, Archive está abierta a extender el período de acceso exclusivo
1 comentarios
Comentarios en Hacker News