2 puntos por GN⁺ 2023-11-06 | 1 comentarios | Compartir por WhatsApp
  • Anna's Archive es un metabuscador de biblioteca sombra en línea, sin fines de lucro, operado por activistas anónimos. Proporciona acceso a diversos recursos bibliográficos
  • Adquirieron una colección de libros de no ficción en chino que alcanza 7.5 millones de volúmenes / 350 TB (más que Library Genesis)
  • A cambio de proporcionar OCR de alta calidad y extracción de texto para esta colección, planean ofrecer a esa empresa de LLM acceso exclusivo anticipado durante 1 año
  • Esta colección proviene de Duxiu, una base de datos masiva de libros escaneados creada por SuperStar Digital Library Group, que se ofrecía digitalmente a universidades y bibliotecas
  • El tamaño total de los archivos de la colección en su forma actual es de aproximadamente 359 TB
  • El texto extraído se utilizará para entrenar modelos de lenguaje grandes (LLMs), y Archive cree que, aunque la colección está en chino, podría ser útil para entrenar LLMs en inglés
  • Archive busca ofrecer funciones de búsqueda especializadas a sus usuarios mediante esta colaboración
  • Si la parte colaboradora está dispuesta a compartir todo el código del pipeline, Archive está abierta a extender el período de acceso exclusivo

1 comentarios

 
GN⁺ 2023-11-06
Comentarios en Hacker News
  • Se estima que esta colección comenzó alrededor de 2015 y contiene unos 4 millones de libros, muchos de ellos duplicados.
  • La fuente de la colección es una empresa llamada DuXiu, que desde principios de los 2000 colaboró con bibliotecas chinas para escanear sus colecciones.
  • La colección incluye una mezcla de libros de texto occidentales traducidos, propaganda política y obras de literatura e historia publicadas antes de una censura extrema.
  • Las empresas tecnológicas chinas pueden acceder a esta colección, pero podrían no usarla debido a riesgos de copyright y políticos.
  • Se considera que la persona que opera el sitio es inteligente pero imprudente, y se han planteado preocupaciones sobre una posible responsabilidad legal.
  • DuXiu es muy elogiado como recurso, y hay expectativas de que en un año sea completamente buscable.
  • Se considera que centralizar todos los libros de China es favorable para el entrenamiento de IA.
  • El hecho de que esta colección sea 40 veces más grande que books3 plantea preguntas sobre copyright y las posibilidades de investigación académica fuera del mundo angloparlante.
  • Hay especulación sobre la eficiencia de la tokenización en chino, un idioma con alta densidad de información.
  • Se planteó la pregunta de si los Language Models (LLMs) pueden codificar conocimiento sin importar el idioma y el idioma de la consulta.
  • Existe la expectativa de que una gran empresa china pueda superar la oferta de OpenAI por esta colección para competir.
  • Los LLMs pueden actuar como interfaz para facilitar el acceso a información en chino.
  • Se considera que la reacción ante la copia en la cultura china es diferente, y a menudo tiende a verse como una forma de respeto.