Anna's Archive: la actualización más reciente del equipo

(annas-archive.org)

1 puntos por GN⁺ 2025-08-19 | 1 comentarios | Compartir por WhatsApp

Ante el aumento de ataques contra la misión reciente, se están reforzando la infraestructura y la seguridad operativa
Desde su inicio en 2022, se han preservado y compartido de forma segura decenas de millones de libros, artículos académicos, revistas, periódicos y otros materiales
Mediante scraping a gran escala, se obtuvo una enorme cantidad de metadatos de WorldCat, Google Books y otros sitios para identificar materiales que aún no han sido recopilados
A través de alianzas con LibGen, Z-Library y otros, se consiguieron decenas de millones de materiales adicionales, aunque también lamentan la desaparición de algunos socios
Con sitios nuevos como WeLib mantienen una relación cautelosa y recomiendan moderar su uso por la falta de contribuciones a la comunidad

Situación reciente y respuesta del equipo

Últimamente han aumentado los ataques dirigidos a la misión de Anna's Archive
Por ello, se están implementando medidas para reforzar la infraestructura y la seguridad operativa
Preservar de forma segura el legado del conocimiento de la humanidad sigue siendo una labor que vale la pena continuar

Liberación y resguardo de materiales

Desde que comenzó en 2022, han reunido decenas de millones de libros, artículos científicos, revistas, periódicos y otros tipos de contenido
Estos materiales están protegidos frente a diversas amenazas como desastres naturales, guerras y recortes presupuestales
Gracias al esfuerzo de todas las personas que han ayudado a distribuir los materiales por torrent, el riesgo de pérdida se ha reducido considerablemente

Scraping a gran escala y obtención de metadatos

Anna's Archive ha organizado scraping a gran escala en IA Controlled Digital Lending, HathiTrust y DuXiu, entre otros
Lograron asegurar archivos de materiales que ascienden a tens of millions
También construyeron una enorme colección de metadatos de libros a partir de WorldCat, Google Books y otros sitios
Con esos metadatos, identifican libros que todavía no están incluidos en la colección y los usan para una estrategia de adquisición prioritaria de materiales raros

Comunidad, colaboración y nuevos desarrollos

En colaboración con socios como forks de LibGen, STC/Nexus y Z-Library, obtuvieron decenas de millones de archivos adicionales
Los socios han sido de gran ayuda para la misión, por ejemplo al replicar archivos
Sin embargo, consideran lamentable que uno de los forks de LibGen haya desaparecido

Proyectos nuevos y advertencias

Recientemente apareció un nuevo proyecto llamado WeLib
- Replica la mayor parte de las colecciones del archivo y utiliza un fork del código base de Anna’s Archive
- Han incorporado algunas mejoras de la interfaz de usuario de WeLib
- Sin embargo, no ha compartido nuevas colecciones ni mejoras al código base, por lo que consideran insuficiente su compromiso de contribuir al ecosistema
- Por ello, recomiendan usar WeLib con cautela
Además, internamente ya tienen cientos de terabytes de nuevas colecciones preparados en servidores y en espera de procesamiento

Solicitud de voluntariado y apoyo

Cualquier persona puede participar en el proyecto a través de la página de voluntariado y donaciones
Todo se opera con un presupuesto pequeño, por lo que incluso una ayuda modesta tiene gran valor
También animan a seguir con el esfuerzo continuo por proteger y liberar el legado del conocimiento
Anna y todo el equipo (ver la comunidad de Reddit)

1 comentarios

GN⁺ 2025-08-19

Opiniones de Hacker News

Compro los libros en los que vivo a través de selecciones de Anna's Archive, los cómics en readComicsOnline y las novelas gráficas europeas en #WONTTELL; soy cliente frecuente de estas tres tiendas offline. En vez de comprar según lo que dicta la publicidad o la moda, busco muchísimo hasta encontrar solo obras realmente buenas. A veces el personal de la tienda hasta se complica pidiendo libros raros que yo encontré en línea. No sé si yo sea una excepción, pero estos servicios protegen mi libertad de elegir.
- Es un tema complejo. Antes participé en un grupo de releases de películas, y la mayoría de sus miembros tenían colecciones de VHS/DVD mucho más grandes que la persona promedio. Requiere bastante esfuerzo y tiempo. La gente que solo descargaba era un grupo más mezclado: algunos vivían en el extranjero y no podían ver lanzamientos de su país, y otros hasta se enorgullecían de no comprar ningún medio.
- Mi situación es parecida. Gracias a Anna's Archive puedo encontrar materiales con más facilidad que en la biblioteca de la escuela: los busco desde casa, obtengo la información que necesito y luego puedo borrarlos. Reviso el contenido antes, y si de verdad me gusta, lo compro para conservarlo. No compro más libros que antes, pero mi nivel de satisfacción es muchísimo mayor. En cambio, gracias a los sitios de uploads descubrí muy buenas películas de las que nunca había oído hablar, así que ahora compro muchas más películas que antes.
- La escena de la piratería de cómic francés distribuye los lanzamientos con un retraso de unos 6 meses. Como es pequeña, esa regla funciona bastante bien. Gracias a eso me interesé en los cómics, y si una obra me gusta, la compro con gusto en cuanto sale y le quito el DRM para mi colección personal. La mayoría de mis descargas se parecen más a coleccionismo/archivo, y si de verdad disfruté algo hasta el final, apoyo al autor.
- Yo soy exactamente igual. Si una serie me interesa, primero bajo solo el volumen 1 y leo como un tercio; si de verdad está buena, después la compro y la termino. Compro más o menos 3-4 libros al mes (si puedo, prefiero epub sin DRM), y unas 10 novelas gráficas europeas al mes (solo en papel). Yo también soy un consumidor fuerte.
- Hace tiempo seguí a un estudio indie de videojuegos donde el desarrollador quería ofrecer una experiencia sin DRM. También tenía funciones online, como leaderboards, pero se sorprendieron al descubrir que se conectaban muchísimas más cuentas de las que reflejaban las ventas reales. El ambiente entre los desarrolladores cambió hacia pedir en la descripción de funciones que la gente no usara copias y comprara el original. Al final, aunque era popular, demasiadas copias pirata y muy poca gente pagando hicieron que el equipo abandonara el proyecto. Cada vez que sale el tema de la piratería, mucha gente intenta justificar su comportamiento diciendo que consume más que el promedio, pero si ves los datos estadísticos reales, la mayoría dice que lo hace porque es gratis.
Los operadores de bibliotecas sombra están haciendo una enorme contribución a la humanidad, así que merecerían un Nobel. Seguro que Satoshi también estaría orgulloso.
- Lo que pondría orgulloso a Satoshi es que se puede apoyar a las bibliotecas sombra sin miedo a la censura, y que con un solo elemento ya cuenta como lista.
- Aaron Swartz probablemente también estaría orgulloso.
- Entonces hasta podría aportar unas monedas; para él sería cambio suelto.
Ofrecen una lista de torrents para que cualquiera pueda sembrar y participar en la preservación a largo plazo https://annas-archive.org/torrents
- Me sorprende que los torrents basados en i2p todavía no se hayan expandido más y que sitios como este no los ofrezcan como opción. Imagino que mucha gente no contribuye por la carga legal, y i2p podría ayudar.
- Impresiona que sci-hub tenga unos 90 TB y libgen-non-fiction unos 77.5 TB. Esos dos sí que son archivos que hay que proteger sí o sí, porque contienen conocimiento científico esencial como papers y libros de texto. Yo también guardo unos 16 TB en mi servidor casero, pero ampliarlo a algo del orden de 200 TB no es nada trivial por equipo y costo (solo 12 discos de 16 TB ya son 2200 dólares). Si sumas redundancia de datos y hardware del servidor, por unos 5 mil dólares se podría cachear prácticamente todo el conocimiento científico principal acumulado por la humanidad. Lo interesante es que el tamaño de estos repositorios casi no ha crecido últimamente; sci-hub también dejó de actualizarse después de 2022, y creo que muchas revistas académicas recientes de baja calidad tampoco serán tan importantes.
Leyendo una serie en la biblioteca me frustró descubrir que faltaban el tomo 3 o el 4; supongo que se perdieron o se dañaron. Pensé incluso en comprarlos yo mismo en una librería de usados y donarlos, pero las ediciones nuevas subieron de precio y además tenían otra vibra, así que al final desistí. Entonces los conseguí en Anna's Archive. A la biblioteca también le faltaban los últimos tomos de la serie (alguien quizá los pidió prestados y nunca los devolvió, o tal vez nunca estuvieron ahí). Yo solo quería leer completa toda la obra de ese autor, y los libros que realmente me encantan sí los he comprado dos veces, en papel y en audiolibro. Hace mucho mis amistades se obsesionaban con coleccionar libros, pero yo prefiero quedarme solo con los que voy a releer. Si me entra el impulso de completismo, lo resuelvo con biblioteca o ebooks. Mientras más envejezco, más consciente soy tanto de los libros como de mi propia finitud. Incluso si me jubilo y leo 3-4 libros por semana, igual ya tengo acumulados más libros de los que podré leer en una vida, y siguen apareciendo novedades y nuevas voces. La última vez releí Dune y luego lo mandé a una librería de usados; si lo volviera a leer, probablemente sería en audiolibro.
Creo que la parte de “Anna’s Archive obtuvo decenas de millones de archivos del Controlled Digital Lending de IA” no ayuda mucho si ves el panorama completo.
- Es un comentario extremadamente ambiguo que inevitablemente podría terminar viéndose en tribunales.
- Que Anna's Archive presuma de forma irresponsable que “también hizo esto” me parece una actitud muy egoísta. No considera en absoluto las consecuencias.
- No veo por qué sería un problema. Reunir libros siempre ha sido el objetivo de ellos.
Creo que sitios como Anna's Archive son de las últimas cosas buenas que quedan en internet.
- Me da curiosidad cómo consiguen financiamiento y cómo hacen para mantener vivo el sitio. Imagino que empresas y estados con muchísimo dinero querrían tumbarlo.
- Coincido en que es una de las últimas cosas buenas que quedan (la última, pero no la menos importante).
Aplausos para el equipo de este proyecto. Me impresionó que la UI parece haber mejorado durante el último año. El problema que queda es sobrevivir y seguir accesibles como servicio. Me pregunto cuánto esfuerzo requiere y cómo logran resistir en una situación donde reciben tantos ataques.
- Hubo una gran actualización de UI en los últimos 2 a 5 días. Lo único un poco decepcionante es que en móvil antes se podían ver los resultados de búsqueda con mucha más eficiencia; el nuevo diseño solo deja ver unas 4 o 5 entradas por pantalla.
Por cierto, este sitio también se usa bastante bien https://open-slum.org/
- El sitio no me abre; me gustaría que explicaras qué contiene y por qué es útil.
- Parece ser una instancia de Uptime Kuma. Uptime Kuma es un proyecto open source con fortalezas en monitoreo y dashboarding https://github.com/louislam/uptime-kuma
Es curioso que la ciudadanía apoye sitios como Anna's Archive, pero los gobiernos se opongan; me parece una muestra de elitismo.
- No es algo raro ni chistoso; falta la perspectiva de la parte directamente involucrada, o sea, los autores. Me pregunto qué tan satisfechos estarán los escritores cuyos libros están en Anna’s Archive. En lo personal, creo que ayuda que la sociedad en general lea más, así que veo con buenos ojos a Anna’s Archive, sci-hub y similares. Pero dentro del sistema actual sí hay muchas cuestiones de compensación, leyes y demás.
- Me pregunto qué pensarán los autores.
Me pregunto si Anna's Archive o sitios parecidos ofrecen el set completo en PDF de todo The New York Times (versión anterior a 1930) u otros periódicos. Ahora mismo, incluso materiales de dominio público están encerrados en sitios cerrados como Newspapers.com, o en un estado prácticamente imposible de buscar como el viejo Google News/News Archive. Ojalá que, gracias a la carrera por conseguir datos para entrenamiento de IA, surjan archivos nuevos más abiertos y con funciones de exploración basadas en IA, en lugar de los sitios de pago o abandonados que ya existen. Algunas cosas sí se pueden conseguir en Internet Archive y similares, pero lo que de verdad hace falta es búsqueda impulsada por IA.
- En este enlace https://archive.org/search?query=title%3ANew+York+Times&sort=-date&and%5B%5D=year%3A%5B1530+TO+1930%5D puedes encontrar algunos periódicos viejos del NYT. No se puede bajar todo el set completo de PDFs de una sola vez, pero sí sería posible encontrar los PDFs individuales mediante los torrents de Anna’s Archive y luego unirlos. En cuanto a la búsqueda basada en IA, si alguien tuviera tiempo y ganas, podría pasar artículos viejos del NYT por OCR, convertirlos en texto y meterlos en algo como un LLM para permitir exploración semántica. Idealmente, pienso que proyectos así deberían financiarse como investigación académica mediante fondos públicos para la cultura.

Anna's Archive: la actualización más reciente del equipo

Situación reciente y respuesta del equipo

Liberación y resguardo de materiales

Scraping a gran escala y obtención de metadatos

Comunidad, colaboración y nuevos desarrollos

Proyectos nuevos y advertencias

Solicitud de voluntariado y apoyo

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News