Ofrecen una recompensa de 200.000 dólares por escaneos completos de libros de Google Books o similares (2025)
(software.annas-archive.gl)- Anna’s Archive ofreció una recompensa de 200.000 dólares por obtener escaneos completos de libros de Google Books o una colección de escala similar
- Actualmente, el acceso a Google Books se centra en pequeños fragmentos alrededor de los resultados de búsqueda, por lo que obtener escaneos completos se trata como una tarea clave desde la perspectiva de archivo
- Si alguien encuentra un método escalable, se le pide que no espere a tener la versión final y que se comunique ya en la etapa de prototipo
- También aplica a personas con acceso interno en Google; incluso si solo se obtiene texto OCR, sin imágenes, se podría pagar la mitad de la recompensa
- El objetivo no se limita a Google Books, sino que también aplica a colecciones de gran escala, incluidas las de libros raros recopiladas por empresas de IA u otras entidades
Alcance de la recompensa y condiciones de participación
- Anna’s Archive ofrece una recompensa de $200,000 por obtener escaneos completos de libros de Google Books o una colección similar
- Antes de empezar, hay que leer cuidadosamente la guía de recompensas de Anna’s Archive
- Google Books tiene muchos libros escaneados, pero al acceder mediante búsqueda solo se ven pequeños fragmentos alrededor de los resultados
- Si se encuentra un método con posibilidad de escalar, se pide contactar temprano con un prototipo, sin esperar a terminar la versión completa
- Anna’s Archive puede ayudar con el trabajo de escalamiento posterior
- Las personas que trabajan en Google y tienen acceso a esos datos también están incluidas en la recompensa
- Se indicó que $200,000 quizá no sea una suma enorme, pero que si pueden sacar los datos serían llamados “archivistas legendarios”
- La recompensa también aplica a colecciones de escala similar fuera de Google Books
- Se mencionan como ejemplo colecciones recopiladas por empresas de IA
- En particular, aplican colecciones que incluyan una cantidad considerable de libros raros
Tamaño y formas de entrega resumidos en los comentarios
- Un comentario escribió que el archivo completo era de aproximadamente 7 PB, incluyendo materiales con copyright, pero luego se corrigió a aproximadamente 1,5 PB, cifra que incluye una réplica del sitio de IUPUI
- Los materiales de dominio público y los publicados por sus autores se mencionan con un tamaño aproximado de 300 TB
- Anna’s Archive respondió que estaría dispuesta a añadir una recompensa separada si aún no tienen scrapeos de los materiales de dominio público y de autores
- Incluso si no se extraen las imágenes completas sino solo el texto OCR, se podría pagar la mitad para los fines de esta recompensa
- Como forma de entrega al obtener datos masivos, se mencionó SFTP o un método similar
- El título del issue fue cambiado el 7 de junio de 2025 a
Google Books (or similar) all book scans — $200,000 bounty
1 comentarios
Comentarios en Hacker News
Vivo en un país donde es difícil conseguir libros en inglés, y las compras online del extranjero tienen demasiados trámites y restricciones
Si no fuera por Anna's Archive y Z-Library, no habría podido leer los libros que me formaron como soy hoy, y me habría costado mucho mantener mi pasión por aprender
También agradezco a los autores, a quienes obtuve conocimiento sin poder pagarles por sus libros
El conocimiento no se creó en el vacío y le pertenece a todos
Hace tiempo, en Reddit, un autor publicó estadísticas de cómo las ventas reales de su libro se desplomaron después de aparecer en un sitio de intercambio ilegal
Por eso, en especial con los libros de programación, trato de comprarlos cuando puedo, y uso el PDF como si fuera una vista previa. De hecho, gracias a eso compro mucho más que antes
Claro, si vives en una región donde comprar simplemente no es posible, la conversación es distinta, pero al elogiar este tipo de sitios la gente tiende a ver solo el lado positivo
Es una herramienta clave para enviar EPUB a Kobo
En https://SourceLibrary.org hay unas 16,000 traducciones de libros raros, y la mayoría son primeras traducciones
Tienen 50,000 libros archivados y planean traducirlos cuando consigan financiamiento; el número de tokens supera al de la Wikipedia en inglés y el tamaño es de unos 0.75PB
No sé si esto califica para la recompensa, pero quería compartirlo, y están buscando patrocinadores pequeños y grandes para ayudar con la traducción de textos del Renacimiento
No es fácil entender de inmediato qué es exactamente lo que han archivado, pero tengo amigos historiadores académicos a quienes podría interesarles cierta parte del proyecto, y quizá también puedan ayudar a validar algunos idiomas difíciles
Me pregunto si se puede buscar por región o idioma
También me pregunto si ya se han puesto en contacto con historiadores sobre el proyecto. Parece el tipo de lugar donde estudiantes de doctorado podrían encontrar temas de investigación
Me dio error al ver la cronología: https://sourcelibrary.org/timeline
Ayer Anna's Archive realmente me salvó
Llevaba varios días buscando el ZIP de un CD que venía con un libro de programación de principios de los 2000; todas las copias usadas decían que ya no traían el CD, no aparecía en búsquedas y ni siquiera un LLM pudo encontrarlo
ChatGPT insistía en decirme que estaba en archive, pero en realidad no estaba; por si acaso fui a AA y ahí sí estaban los ZIP tanto de la 1.ª como de la 2.ª edición. De verdad fue como un salvavidas
Me pregunto cuánto falta para que también ofrezcan una recompensa por scrapear internet
Por culpa del CAPTCHA de Cloudflare, internet para mí ya está casi inutilizable, y parece que va a empeorar
Casi prefiero revisar copias de sitios como archive.is o bajarlo por torrent. Lo segundo además es mucho mejor para la privacidad, y de todos modos ya uso bloqueador de anuncios
Incluso podría ser una smart TV. Si encuentras la causa y la eliminas, es posible que mejore la reputación de tu IP y te aparezcan menos CAPTCHA
Hay un pequeño conflicto de interés ahí
Me da curiosidad quién está detrás de Anna's Archive. En el equipo y en el foro se ven muchas personas angloparlantes
De todos modos, mientras comprar no sea poseer, no creo que haya problema
https://redlib.catsarch.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
https://reddit.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
Y si compras un libro en papel, la compra sí equivale claramente a propiedad, así que en el caso de los libros esa frase me parece un poco inadecuada
Aun así, lo que más me sorprende es que haya tan pocas alternativas. Incluso después de que Facebook y otros le declararan la guerra a LibGen y LibGen cayera, siguieron existiendo sorprendentemente pocas opciones, y Anna's Archive era una de las pocas disponibles
Todavía no sé exactamente qué pasó con LibGen, pero desde aquel ataque da la impresión de haber quedado prácticamente medio desaparecido
En la frase “antes de hacer el trabajo de la recompensa, lean con atención [this]”, [this] enlaza a una dirección .li que lleva a un lugar peligroso
La dirección correcta debería ser https://annas-archive.gl/volunteering#bounties
Si a alguien le preocupa que lo despidan de Google en este momento, esto podría ser un plan de respaldo
Incluso entre el pequeñísimo grupo que sí tiene acceso, si empiezan a descargar aunque sea una fracción muy pequeña del contenido, es muy probable que los sistemas automáticos lo detecten
Otros trabajos de recompensa interesantes que ofrecen: https://software.annas-archive.gl/AnnaArchivist/annas-archive/-/work_items?label_name%5B%5D=2-Bounty
Comprar el dataset completo de MARC de la Library of Congress — recompensa de 3,000 dólares
Páginas de Wikipedia en inglés sobre instituciones relacionadas — hasta 100 dólares por cada página nueva
Internet Archive Digital Lending — 5,000 dólares por cada millón de PDF
Versión en texto de bibliotecas completas — 20,000 dólares, etc.
https://software.annas-archive.gl/AnnaArchivist/annas-archive/-/work_items/194
Me pregunto qué va a pasar con la piratería y los derechos de autor de ahora en adelante
La situación actual, tan centrada en el préstamo, parece insostenible. Incluso la gente común a mi alrededor ya sabe bastante de cosas como VPN y NAS
Spotify, Netflix, Amazon y otros ofrecieron un valor razonable durante un tiempo, pero ahora que el deterioro de los servicios ya va en serio, parece que se acerca el momento de un regreso masivo
Es muy probable que Gemini ya haya sido entrenado con esos libros, así que, en teoría, podría soltar algunas frases textuales
Antes, en la demanda que el NYT presentó contra OpenAI, salieron a la luz casos de ese tipo
Solo que no es compresión sin pérdida: conservaron las partes importantes para realizar la tarea de predecir el siguiente token y encontraron una manera de imitar el resto