1 puntos por GN⁺ 4 시간 전 | 1 comentarios | Compartir por WhatsApp
  • Anna’s Archive ofreció una recompensa de 200.000 dólares por obtener escaneos completos de libros de Google Books o una colección de escala similar
  • Actualmente, el acceso a Google Books se centra en pequeños fragmentos alrededor de los resultados de búsqueda, por lo que obtener escaneos completos se trata como una tarea clave desde la perspectiva de archivo
  • Si alguien encuentra un método escalable, se le pide que no espere a tener la versión final y que se comunique ya en la etapa de prototipo
  • También aplica a personas con acceso interno en Google; incluso si solo se obtiene texto OCR, sin imágenes, se podría pagar la mitad de la recompensa
  • El objetivo no se limita a Google Books, sino que también aplica a colecciones de gran escala, incluidas las de libros raros recopiladas por empresas de IA u otras entidades

Alcance de la recompensa y condiciones de participación

  • Anna’s Archive ofrece una recompensa de $200,000 por obtener escaneos completos de libros de Google Books o una colección similar
  • Antes de empezar, hay que leer cuidadosamente la guía de recompensas de Anna’s Archive
  • Google Books tiene muchos libros escaneados, pero al acceder mediante búsqueda solo se ven pequeños fragmentos alrededor de los resultados
  • Si se encuentra un método con posibilidad de escalar, se pide contactar temprano con un prototipo, sin esperar a terminar la versión completa
    • Anna’s Archive puede ayudar con el trabajo de escalamiento posterior
  • Las personas que trabajan en Google y tienen acceso a esos datos también están incluidas en la recompensa
    • Se indicó que $200,000 quizá no sea una suma enorme, pero que si pueden sacar los datos serían llamados “archivistas legendarios”
  • La recompensa también aplica a colecciones de escala similar fuera de Google Books
    • Se mencionan como ejemplo colecciones recopiladas por empresas de IA
    • En particular, aplican colecciones que incluyan una cantidad considerable de libros raros

Tamaño y formas de entrega resumidos en los comentarios

  • Un comentario escribió que el archivo completo era de aproximadamente 7 PB, incluyendo materiales con copyright, pero luego se corrigió a aproximadamente 1,5 PB, cifra que incluye una réplica del sitio de IUPUI
  • Los materiales de dominio público y los publicados por sus autores se mencionan con un tamaño aproximado de 300 TB
  • Anna’s Archive respondió que estaría dispuesta a añadir una recompensa separada si aún no tienen scrapeos de los materiales de dominio público y de autores
  • Incluso si no se extraen las imágenes completas sino solo el texto OCR, se podría pagar la mitad para los fines de esta recompensa
  • Como forma de entrega al obtener datos masivos, se mencionó SFTP o un método similar
  • El título del issue fue cambiado el 7 de junio de 2025 a Google Books (or similar) all book scans — $200,000 bounty

1 comentarios

 
GN⁺ 4 시간 전
Comentarios en Hacker News
  • Vivo en un país donde es difícil conseguir libros en inglés, y las compras online del extranjero tienen demasiados trámites y restricciones
    Si no fuera por Anna's Archive y Z-Library, no habría podido leer los libros que me formaron como soy hoy, y me habría costado mucho mantener mi pasión por aprender
    También agradezco a los autores, a quienes obtuve conocimiento sin poder pagarles por sus libros

    • En broma, pero también medio en serio, alguien podría decir que entonces toda mi vida actual existe gracias a ganancias del crimen, pero el conocimiento debe ser libre
      El conocimiento no se creó en el vacío y le pertenece a todos
    • Entiendo esa postura, pero si los autores no hubieran podido ganar dinero, es muy probable que una buena parte de esos libros ni siquiera hubiera existido
      Hace tiempo, en Reddit, un autor publicó estadísticas de cómo las ventas reales de su libro se desplomaron después de aparecer en un sitio de intercambio ilegal
      Por eso, en especial con los libros de programación, trato de comprarlos cuando puedo, y uso el PDF como si fuera una vista previa. De hecho, gracias a eso compro mucho más que antes
      Claro, si vives en una región donde comprar simplemente no es posible, la conversación es distinta, pero al elogiar este tipo de sitios la gente tiende a ver solo el lado positivo
    • Qué bueno que tu ubicación aparece en tu nombre de usuario. Últimamente, lo que más me molesta en internet es cuando alguien dice “en mi país” y nunca aclara cuál país es
    • https://send.djazz.se/
      Es una herramienta clave para enviar EPUB a Kobo
  • En https://SourceLibrary.org hay unas 16,000 traducciones de libros raros, y la mayoría son primeras traducciones
    Tienen 50,000 libros archivados y planean traducirlos cuando consigan financiamiento; el número de tokens supera al de la Wikipedia en inglés y el tamaño es de unos 0.75PB
    No sé si esto califica para la recompensa, pero quería compartirlo, y están buscando patrocinadores pequeños y grandes para ayudar con la traducción de textos del Renacimiento

    • El resultado es hermoso, y las respuestas son apropiadas y tienen resonancia. Para financiarlo, algo como una API de investigación paga también podría funcionar
    • Se ve interesante
      No es fácil entender de inmediato qué es exactamente lo que han archivado, pero tengo amigos historiadores académicos a quienes podría interesarles cierta parte del proyecto, y quizá también puedan ayudar a validar algunos idiomas difíciles
      Me pregunto si se puede buscar por región o idioma
      También me pregunto si ya se han puesto en contacto con historiadores sobre el proyecto. Parece el tipo de lugar donde estudiantes de doctorado podrían encontrar temas de investigación
      Me dio error al ver la cronología: https://sourcelibrary.org/timeline
    • Me pregunto cuánto presupuesto ha costado llegar hasta aquí. El conteo de tokens es enorme; al parecer están usando Gemini Flash
  • Ayer Anna's Archive realmente me salvó
    Llevaba varios días buscando el ZIP de un CD que venía con un libro de programación de principios de los 2000; todas las copias usadas decían que ya no traían el CD, no aparecía en búsquedas y ni siquiera un LLM pudo encontrarlo
    ChatGPT insistía en decirme que estaba en archive, pero en realidad no estaba; por si acaso fui a AA y ahí sí estaban los ZIP tanto de la 1.ª como de la 2.ª edición. De verdad fue como un salvavidas

  • Me pregunto cuánto falta para que también ofrezcan una recompensa por scrapear internet
    Por culpa del CAPTCHA de Cloudflare, internet para mí ya está casi inutilizable, y parece que va a empeorar
    Casi prefiero revisar copias de sitios como archive.is o bajarlo por torrent. Lo segundo además es mucho mejor para la privacidad, y de todos modos ya uso bloqueador de anuncios

    • Es muy probable que alguien en tu misma red esté ejecutando uno de esos juegos de monetización con proxies de Bright Data. Hubo un hilo sobre eso hace apenas unos días
      Incluso podría ser una smart TV. Si encuentras la causa y la eliminas, es posible que mejore la reputación de tu IP y te aparezcan menos CAPTCHA
    • https://x.com/CloudflareDev/status/2031488099725754821
      Hay un pequeño conflicto de interés ahí
  • Me da curiosidad quién está detrás de Anna's Archive. En el equipo y en el foro se ven muchas personas angloparlantes
    De todos modos, mientras comprar no sea poseer, no creo que haya problema

    • Parece que Anna está detrás
      https://redlib.catsarch.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
      https://reddit.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
    • Una parte considerable de los libros que hay ahí probablemente ya se pueden comprar en formato sin DRM. Hay más autores de los que uno pensaría a los que no les importa tanto el DRM
      Y si compras un libro en papel, la compra sí equivale claramente a propiedad, así que en el caso de los libros esa frase me parece un poco inadecuada
    • Creo que la fuente principal era Rusia, o quizá estoy pensando en LibGen
      Aun así, lo que más me sorprende es que haya tan pocas alternativas. Incluso después de que Facebook y otros le declararan la guerra a LibGen y LibGen cayera, siguieron existiendo sorprendentemente pocas opciones, y Anna's Archive era una de las pocas disponibles
      Todavía no sé exactamente qué pasó con LibGen, pero desde aquel ataque da la impresión de haber quedado prácticamente medio desaparecido
    • Si de verdad crees que no hay problema, entonces me pregunto por qué preguntas en un foro público quién está detrás
  • En la frase “antes de hacer el trabajo de la recompensa, lean con atención [this]”, [this] enlaza a una dirección .li que lleva a un lugar peligroso
    La dirección correcta debería ser https://annas-archive.gl/volunteering#bounties

  • Si a alguien le preocupa que lo despidan de Google en este momento, esto podría ser un plan de respaldo

    • Si te atrapan sacando datos, te van a demandar por una cantidad muchísimo mayor que 200 mil dólares
    • Es poco probable que un empleado común tenga acceso al archivo completo
      Incluso entre el pequeñísimo grupo que sí tiene acceso, si empiezan a descargar aunque sea una fracción muy pequeña del contenido, es muy probable que los sistemas automáticos lo detecten
    • El problema mayor es que esto causaría daños económicos. Probablemente hasta habría que prepararse para mudarse a otro país
  • Otros trabajos de recompensa interesantes que ofrecen: https://software.annas-archive.gl/AnnaArchivist/annas-archive/-/work_items?label_name%5B%5D=2-Bounty
    Comprar el dataset completo de MARC de la Library of Congress — recompensa de 3,000 dólares
    Páginas de Wikipedia en inglés sobre instituciones relacionadas — hasta 100 dólares por cada página nueva
    Internet Archive Digital Lending — 5,000 dólares por cada millón de PDF
    Versión en texto de bibliotecas completas — 20,000 dólares, etc.

  • Me pregunto qué va a pasar con la piratería y los derechos de autor de ahora en adelante
    La situación actual, tan centrada en el préstamo, parece insostenible. Incluso la gente común a mi alrededor ya sabe bastante de cosas como VPN y NAS

    • Si uno investiga lo poco que reciben los autores y artistas que realmente crean las obras, dan ganas de pensar que la guillotina es la respuesta
    • Nunca fue una estructura sostenible desde el principio, sino una captura regulatoria por parte de los grandes titulares de propiedad intelectual
      Spotify, Netflix, Amazon y otros ofrecieron un valor razonable durante un tiempo, pero ahora que el deterioro de los servicios ya va en serio, parece que se acerca el momento de un regreso masivo
  • Es muy probable que Gemini ya haya sido entrenado con esos libros, así que, en teoría, podría soltar algunas frases textuales
    Antes, en la demanda que el NYT presentó contra OpenAI, salieron a la luz casos de ese tipo

    • Gemini, GPT y Fable son básicamente una muy buena versión comprimida del contenido de internet
      Solo que no es compresión sin pérdida: conservaron las partes importantes para realizar la tarea de predecir el siguiente token y encontraron una manera de imitar el resto