- Anna’s Archive es un motor de metabúsqueda de bibliotecas sombra donde se pueden encontrar libros electrónicos y materiales pirateados, y fue lanzado en otoño de 2022
- Durante los últimos 3 años, debido a denuncias de copyright de editoriales y autores, Google eliminó 749 millones de URL de este sitio de sus resultados de búsqueda
- Esto equivale al 5% de todas las URL relacionadas con copyright que Google ha procesado hasta ahora, una escala muy superior a la de The Pirate Bay
- Más de 1000 titulares de derechos como Penguin Random House y John Wiley & Sons presentaron solicitudes DMCA, y cada semana se reportan alrededor de 10 millones de nuevas URL
- A pesar de la eliminación masiva, el dominio principal de Anna’s Archive sigue siendo accesible y aún es fácil encontrar el sitio en Google buscando por su nombre
Resumen de Anna’s Archive
- Anna’s Archive es un motor de metabúsqueda que permite buscar de forma unificada en varias bibliotecas sombra, ofreciendo funciones para encontrar libros y materiales pirateados
- Fue lanzado en otoño de 2022, justo después de que Z-Library fuera objeto de acciones de las autoridades estadounidenses
- Surgió con el objetivo de seguir ofreciendo al público libros y artículos académicos “gratuitos”
- En los 3 años desde su lanzamiento, ha sido bloqueado en varios países, y además enfrenta una demanda en Estados Unidos por la recolección no autorizada de 2.2 TB de datos de WorldCat
- También está llevando a cabo actividades para apoyar el acceso a datos de investigadores de IA
La eliminación masiva de Google
- Google retira de los resultados de búsqueda las URL sospechosas de infringir copyright a solicitud de los titulares de derechos
- En relación con Anna’s Archive, se reportaron un total de 784 millones de URL, de las cuales 749 millones fueron realmente eliminadas
- Algunos enlaces no fueron incluidos en la eliminación porque Google no los había indexado
- Como comparación, en el caso de The Pirate Bay se eliminaron 4.2 millones de URL, por lo que la escala de Anna’s Archive es mucho mayor
- Como el sitio opera múltiples subdominios por país y tiene una enorme cantidad de páginas, el número de URL sujetas a eliminación es alto
Representa el 5% de todas las eliminaciones por copyright de Google
- Según el informe de transparencia de Google, desde 2012 se han reportado un total de 15.1 mil millones de URL infractoras de copyright
- De ellas, las URL relacionadas con Anna’s Archive representan el 5% del total
- Penguin Random House y John Wiley & Sons son los principales denunciantes, y más de 1000 editoriales y autores han presentado solicitudes DMCA
- Incluso ahora, cada semana se siguen reportando aproximadamente 10 millones de nuevas URL
Visibilidad en los resultados de búsqueda
- Debido a la eliminación masiva, la visibilidad del sitio en búsquedas relacionadas con libros ha disminuido
- Muchas URL dejaron de mostrarse o bajaron de posición en los resultados
- Sin embargo, si se busca directamente por el nombre ‘Anna’s Archive’, el dominio principal sigue apareciendo en posiciones destacadas
- A pesar de las medidas de Google, el acceso al sitio en sí no está bloqueado
La respuesta de la industria editorial y sus límites
- Como a las editoriales les resulta difícil bloquear directamente el sitio, siguen presentando solicitudes de eliminación a plataformas de terceros como Google
- A pesar de la presión legal, dominios principales como annas-archive.org, .li y .se siguen operando
- El texto original no menciona medidas futuras adicionales ni cambios de política
1 comentarios
Comentarios en Hacker News
Puede sonar raro, pero descubrí que Yandex es un buscador bastante excelente cuando se trata de encontrar contenido que bajaron por solicitudes DMCA
Por ejemplo, cuando quiero ver por streaming en la web una película que no está en Netflix, los resultados de búsqueda son mucho mejores
Se siente como volver a usar Google de 2005
Fue porque Google, Bing y DuckDuckGo ya no daban resultados decentes
Hoy en día solo muestran coincidencias parciales cortas en sitios como exploradores de blockchain, y no sé si eso es intencional o si es por intentar hacer fuzzy matching
En cualquier caso, para este uso es un fracaso total
Google está demasiado personalizado
Un buen motor muestra sitios pirata, y un motor excelente los pone por encima de los resultados falsos
Pero cuanto mejor es el motor, más atención termina recibiendo y le acaban borrando esos resultados
Cuando eso pasa, es momento de buscar en otro lado
Pero en Yandex salió entre los tres primeros resultados de inmediato
Por cierto, DDG ya es casi igual que Google y hasta tiene resultados patrocinados
Anna’s Archive ya le dio a Google todos los datos que necesitaba para entrenar Gemini, así que ahora parece fingir que no existe
Cuesta entender que las comunidades en línea construyan teorías conspirativas maliciosas alrededor de eso
¿Google ahora otra vez hace búsquedas?
Últimamente la marca de chatbot que uso evita 100 sitios de spam SEO y me encuentra la misma información, así que no sé cómo se le puede ganar a esa comodidad
(buen apodo)
Al final, lo que estás haciendo es renunciar al criterio de verificar directamente la fuente de la información
O si no, al final solo están reemplazando una búsqueda en Google
Un AGI real a nivel humano detectaría esos intentos, pero los chatbots actuales no
Artículo relacionado: NYTimes - AI Chatbot Prompts and Manipulation
Yo no hago en absoluto búsquedas que puedan incomodar a Google
Números de serie, teléfonos de empresas, papers, libros: todo eso lo busco en Yandex o Brave
Me da igual lo que haga Google, de todos modos no lo uso
Estoy pensando que debería bajar todos los torrents de z-archive antes de que desaparezca Anna’s Archive
Exceptuando los PDF grandes y los libros que no están en idiomas europeos, parece que podría comprimirlo para meterlo en dos discos de 32 TB
https://annas-archive.org/torrents
Muchas veces un PDF es grande por el color o la resolución, no por el contenido
También sería posible identificar automáticamente múltiples ediciones del mismo libro y dejar solo un epub, eliminando el resto
Pero el problema son los HDD y el sistema de archivos, así que quizá tenga que crear algo como un divisor de torrents por mi cuenta
https://annas-archive.org
Casi nunca he dependido de Google para encontrar contenido en sitios como este
El propio sitio ya está bien indexado por título, autor, formato y fecha, así que con búsqueda libre basta
Por ejemplo, aunque busques “a a a a ah ah ah ah dance song”, te encuentra “Million Voices” de Otto Knows
Tampoco creo que Google indexe el texto completo de las páginas de Anna’s Archive
Tras el cierre reciente de Library Genesis, parece que Anna’s Archive es el último repositorio de libros que queda
Me pregunto si hay otras alternativas
La marcha de Google hacia la irrelevancia sigue adelante
El entorno de búsqueda web cambió por completo