Ofrecen una recompensa de 200.000 dólares por escaneos completos de libros de Google Books o similares (2025)

(software.annas-archive.gl)

1 puntos por GN⁺ 4 시간 전 | 1 comentarios | Compartir por WhatsApp

Anna’s Archive ofreció una recompensa de 200.000 dólares por obtener escaneos completos de libros de Google Books o una colección de escala similar
Actualmente, el acceso a Google Books se centra en pequeños fragmentos alrededor de los resultados de búsqueda, por lo que obtener escaneos completos se trata como una tarea clave desde la perspectiva de archivo
Si alguien encuentra un método escalable, se le pide que no espere a tener la versión final y que se comunique ya en la etapa de prototipo
También aplica a personas con acceso interno en Google; incluso si solo se obtiene texto OCR, sin imágenes, se podría pagar la mitad de la recompensa
El objetivo no se limita a Google Books, sino que también aplica a colecciones de gran escala, incluidas las de libros raros recopiladas por empresas de IA u otras entidades

Alcance de la recompensa y condiciones de participación

Anna’s Archive ofrece una recompensa de $200,000 por obtener escaneos completos de libros de Google Books o una colección similar
Antes de empezar, hay que leer cuidadosamente la guía de recompensas de Anna’s Archive
Google Books tiene muchos libros escaneados, pero al acceder mediante búsqueda solo se ven pequeños fragmentos alrededor de los resultados
Si se encuentra un método con posibilidad de escalar, se pide contactar temprano con un prototipo, sin esperar a terminar la versión completa
- Anna’s Archive puede ayudar con el trabajo de escalamiento posterior
Las personas que trabajan en Google y tienen acceso a esos datos también están incluidas en la recompensa
- Se indicó que $200,000 quizá no sea una suma enorme, pero que si pueden sacar los datos serían llamados “archivistas legendarios”
La recompensa también aplica a colecciones de escala similar fuera de Google Books
- Se mencionan como ejemplo colecciones recopiladas por empresas de IA
- En particular, aplican colecciones que incluyan una cantidad considerable de libros raros

Tamaño y formas de entrega resumidos en los comentarios

Un comentario escribió que el archivo completo era de aproximadamente 7 PB, incluyendo materiales con copyright, pero luego se corrigió a aproximadamente 1,5 PB, cifra que incluye una réplica del sitio de IUPUI
Los materiales de dominio público y los publicados por sus autores se mencionan con un tamaño aproximado de 300 TB
Anna’s Archive respondió que estaría dispuesta a añadir una recompensa separada si aún no tienen scrapeos de los materiales de dominio público y de autores
Incluso si no se extraen las imágenes completas sino solo el texto OCR, se podría pagar la mitad para los fines de esta recompensa
Como forma de entrega al obtener datos masivos, se mencionó SFTP o un método similar
El título del issue fue cambiado el 7 de junio de 2025 a Google Books (or similar) all book scans — $200,000 bounty

1 comentarios

GN⁺ 4 시간 전

Comentarios en Hacker News

Vivo en un país donde es difícil conseguir libros en inglés, y las compras online del extranjero tienen demasiados trámites y restricciones
Si no fuera por Anna's Archive y Z-Library, no habría podido leer los libros que me formaron como soy hoy, y me habría costado mucho mantener mi pasión por aprender
También agradezco a los autores, a quienes obtuve conocimiento sin poder pagarles por sus libros
- En broma, pero también medio en serio, alguien podría decir que entonces toda mi vida actual existe gracias a ganancias del crimen, pero el conocimiento debe ser libre
  El conocimiento no se creó en el vacío y le pertenece a todos
- Entiendo esa postura, pero si los autores no hubieran podido ganar dinero, es muy probable que una buena parte de esos libros ni siquiera hubiera existido
  Hace tiempo, en Reddit, un autor publicó estadísticas de cómo las ventas reales de su libro se desplomaron después de aparecer en un sitio de intercambio ilegal
  Por eso, en especial con los libros de programación, trato de comprarlos cuando puedo, y uso el PDF como si fuera una vista previa. De hecho, gracias a eso compro mucho más que antes
  Claro, si vives en una región donde comprar simplemente no es posible, la conversación es distinta, pero al elogiar este tipo de sitios la gente tiende a ver solo el lado positivo
- Qué bueno que tu ubicación aparece en tu nombre de usuario. Últimamente, lo que más me molesta en internet es cuando alguien dice “en mi país” y nunca aclara cuál país es
- https://send.djazz.se/
  Es una herramienta clave para enviar EPUB a Kobo
En https://SourceLibrary.org hay unas 16,000 traducciones de libros raros, y la mayoría son primeras traducciones
Tienen 50,000 libros archivados y planean traducirlos cuando consigan financiamiento; el número de tokens supera al de la Wikipedia en inglés y el tamaño es de unos 0.75PB
No sé si esto califica para la recompensa, pero quería compartirlo, y están buscando patrocinadores pequeños y grandes para ayudar con la traducción de textos del Renacimiento
- El resultado es hermoso, y las respuestas son apropiadas y tienen resonancia. Para financiarlo, algo como una API de investigación paga también podría funcionar
- Se ve interesante
  No es fácil entender de inmediato qué es exactamente lo que han archivado, pero tengo amigos historiadores académicos a quienes podría interesarles cierta parte del proyecto, y quizá también puedan ayudar a validar algunos idiomas difíciles
  Me pregunto si se puede buscar por región o idioma
  También me pregunto si ya se han puesto en contacto con historiadores sobre el proyecto. Parece el tipo de lugar donde estudiantes de doctorado podrían encontrar temas de investigación
  Me dio error al ver la cronología: https://sourcelibrary.org/timeline
- Me pregunto cuánto presupuesto ha costado llegar hasta aquí. El conteo de tokens es enorme; al parecer están usando Gemini Flash
Ayer Anna's Archive realmente me salvó
Llevaba varios días buscando el ZIP de un CD que venía con un libro de programación de principios de los 2000; todas las copias usadas decían que ya no traían el CD, no aparecía en búsquedas y ni siquiera un LLM pudo encontrarlo
ChatGPT insistía en decirme que estaba en archive, pero en realidad no estaba; por si acaso fui a AA y ahí sí estaban los ZIP tanto de la 1.ª como de la 2.ª edición. De verdad fue como un salvavidas
Me pregunto cuánto falta para que también ofrezcan una recompensa por scrapear internet
Por culpa del CAPTCHA de Cloudflare, internet para mí ya está casi inutilizable, y parece que va a empeorar
Casi prefiero revisar copias de sitios como archive.is o bajarlo por torrent. Lo segundo además es mucho mejor para la privacidad, y de todos modos ya uso bloqueador de anuncios
- Es muy probable que alguien en tu misma red esté ejecutando uno de esos juegos de monetización con proxies de Bright Data. Hubo un hilo sobre eso hace apenas unos días
  Incluso podría ser una smart TV. Si encuentras la causa y la eliminas, es posible que mejore la reputación de tu IP y te aparezcan menos CAPTCHA
- https://x.com/CloudflareDev/status/2031488099725754821
  Hay un pequeño conflicto de interés ahí
Me da curiosidad quién está detrás de Anna's Archive. En el equipo y en el foro se ven muchas personas angloparlantes
De todos modos, mientras comprar no sea poseer, no creo que haya problema
- Parece que Anna está detrás
  https://redlib.catsarch.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
  https://reddit.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
- Una parte considerable de los libros que hay ahí probablemente ya se pueden comprar en formato sin DRM. Hay más autores de los que uno pensaría a los que no les importa tanto el DRM
  Y si compras un libro en papel, la compra sí equivale claramente a propiedad, así que en el caso de los libros esa frase me parece un poco inadecuada
- Creo que la fuente principal era Rusia, o quizá estoy pensando en LibGen
  Aun así, lo que más me sorprende es que haya tan pocas alternativas. Incluso después de que Facebook y otros le declararan la guerra a LibGen y LibGen cayera, siguieron existiendo sorprendentemente pocas opciones, y Anna's Archive era una de las pocas disponibles
  Todavía no sé exactamente qué pasó con LibGen, pero desde aquel ataque da la impresión de haber quedado prácticamente medio desaparecido
- Si de verdad crees que no hay problema, entonces me pregunto por qué preguntas en un foro público quién está detrás
En la frase “antes de hacer el trabajo de la recompensa, lean con atención [this]”, [this] enlaza a una dirección .li que lleva a un lugar peligroso
La dirección correcta debería ser https://annas-archive.gl/volunteering#bounties
Si a alguien le preocupa que lo despidan de Google en este momento, esto podría ser un plan de respaldo
- Si te atrapan sacando datos, te van a demandar por una cantidad muchísimo mayor que 200 mil dólares
- Es poco probable que un empleado común tenga acceso al archivo completo
  Incluso entre el pequeñísimo grupo que sí tiene acceso, si empiezan a descargar aunque sea una fracción muy pequeña del contenido, es muy probable que los sistemas automáticos lo detecten
- El problema mayor es que esto causaría daños económicos. Probablemente hasta habría que prepararse para mudarse a otro país
Otros trabajos de recompensa interesantes que ofrecen: https://software.annas-archive.gl/AnnaArchivist/annas-archive/-/work_items?label_name%5B%5D=2-Bounty
Comprar el dataset completo de MARC de la Library of Congress — recompensa de 3,000 dólares
Páginas de Wikipedia en inglés sobre instituciones relacionadas — hasta 100 dólares por cada página nueva
Internet Archive Digital Lending — 5,000 dólares por cada millón de PDF
Versión en texto de bibliotecas completas — 20,000 dólares, etc.
- También es interesante que ofrezcan hasta 500 mil dólares por un fallo de seguridad operativa. Da la esperanza de que haya individuos adinerados contribuyendo a compartir libros, o muchas donaciones pequeñas
  https://software.annas-archive.gl/AnnaArchivist/annas-archive/-/work_items/194
Me pregunto qué va a pasar con la piratería y los derechos de autor de ahora en adelante
La situación actual, tan centrada en el préstamo, parece insostenible. Incluso la gente común a mi alrededor ya sabe bastante de cosas como VPN y NAS
- Si uno investiga lo poco que reciben los autores y artistas que realmente crean las obras, dan ganas de pensar que la guillotina es la respuesta
- Nunca fue una estructura sostenible desde el principio, sino una captura regulatoria por parte de los grandes titulares de propiedad intelectual
  Spotify, Netflix, Amazon y otros ofrecieron un valor razonable durante un tiempo, pero ahora que el deterioro de los servicios ya va en serio, parece que se acerca el momento de un regreso masivo
Es muy probable que Gemini ya haya sido entrenado con esos libros, así que, en teoría, podría soltar algunas frases textuales
Antes, en la demanda que el NYT presentó contra OpenAI, salieron a la luz casos de ese tipo
- Gemini, GPT y Fable son básicamente una muy buena versión comprimida del contenido de internet
  Solo que no es compresión sin pérdida: conservaron las partes importantes para realizar la tarea de predecir el siguiente token y encontraron una manera de imitar el resto

Ofrecen una recompensa de 200.000 dólares por escaneos completos de libros de Google Books o similares (2025)

Alcance de la recompensa y condiciones de participación

Tamaño y formas de entrega resumidos en los comentarios

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News