Google elimina 749 millones de URL relacionadas con Anna’s Archive de los resultados de búsqueda

(torrentfreak.com)

4 puntos por GN⁺ 2025-11-06 | 1 comentarios | Compartir por WhatsApp

Anna’s Archive es un motor de metabúsqueda de bibliotecas sombra donde se pueden encontrar libros electrónicos y materiales pirateados, y fue lanzado en otoño de 2022
Durante los últimos 3 años, debido a denuncias de copyright de editoriales y autores, Google eliminó 749 millones de URL de este sitio de sus resultados de búsqueda
Esto equivale al 5% de todas las URL relacionadas con copyright que Google ha procesado hasta ahora, una escala muy superior a la de The Pirate Bay
Más de 1000 titulares de derechos como Penguin Random House y John Wiley & Sons presentaron solicitudes DMCA, y cada semana se reportan alrededor de 10 millones de nuevas URL
A pesar de la eliminación masiva, el dominio principal de Anna’s Archive sigue siendo accesible y aún es fácil encontrar el sitio en Google buscando por su nombre

Resumen de Anna’s Archive

Anna’s Archive es un motor de metabúsqueda que permite buscar de forma unificada en varias bibliotecas sombra, ofreciendo funciones para encontrar libros y materiales pirateados
- Fue lanzado en otoño de 2022, justo después de que Z-Library fuera objeto de acciones de las autoridades estadounidenses
- Surgió con el objetivo de seguir ofreciendo al público libros y artículos académicos “gratuitos”
En los 3 años desde su lanzamiento, ha sido bloqueado en varios países, y además enfrenta una demanda en Estados Unidos por la recolección no autorizada de 2.2 TB de datos de WorldCat
También está llevando a cabo actividades para apoyar el acceso a datos de investigadores de IA

La eliminación masiva de Google

Google retira de los resultados de búsqueda las URL sospechosas de infringir copyright a solicitud de los titulares de derechos
En relación con Anna’s Archive, se reportaron un total de 784 millones de URL, de las cuales 749 millones fueron realmente eliminadas
- Algunos enlaces no fueron incluidos en la eliminación porque Google no los había indexado
Como comparación, en el caso de The Pirate Bay se eliminaron 4.2 millones de URL, por lo que la escala de Anna’s Archive es mucho mayor
Como el sitio opera múltiples subdominios por país y tiene una enorme cantidad de páginas, el número de URL sujetas a eliminación es alto

Representa el 5% de todas las eliminaciones por copyright de Google

Según el informe de transparencia de Google, desde 2012 se han reportado un total de 15.1 mil millones de URL infractoras de copyright
- De ellas, las URL relacionadas con Anna’s Archive representan el 5% del total
Penguin Random House y John Wiley & Sons son los principales denunciantes, y más de 1000 editoriales y autores han presentado solicitudes DMCA
Incluso ahora, cada semana se siguen reportando aproximadamente 10 millones de nuevas URL

Visibilidad en los resultados de búsqueda

Debido a la eliminación masiva, la visibilidad del sitio en búsquedas relacionadas con libros ha disminuido
- Muchas URL dejaron de mostrarse o bajaron de posición en los resultados
Sin embargo, si se busca directamente por el nombre ‘Anna’s Archive’, el dominio principal sigue apareciendo en posiciones destacadas
A pesar de las medidas de Google, el acceso al sitio en sí no está bloqueado

La respuesta de la industria editorial y sus límites

Como a las editoriales les resulta difícil bloquear directamente el sitio, siguen presentando solicitudes de eliminación a plataformas de terceros como Google
A pesar de la presión legal, dominios principales como annas-archive.org, .li y .se siguen operando
El texto original no menciona medidas futuras adicionales ni cambios de política

1 comentarios

GN⁺ 2025-11-06

Comentarios en Hacker News

Puede sonar raro, pero descubrí que Yandex es un buscador bastante excelente cuando se trata de encontrar contenido que bajaron por solicitudes DMCA
Por ejemplo, cuando quiero ver por streaming en la web una película que no está en Netflix, los resultados de búsqueda son mucho mejores
Se siente como volver a usar Google de 2005
- Yo empecé a usar Yandex hace años para encontrar infohashes de bittorrent
  Fue porque Google, Bing y DuckDuckGo ya no daban resultados decentes
  Hoy en día solo muestran coincidencias parciales cortas en sitios como exploradores de blockchain, y no sé si eso es intencional o si es por intentar hacer fuzzy matching
  En cualquier caso, para este uso es un fracaso total
- He probado varios buscadores, como Kagi, Startpage, Ecosia y DDG, y todos dan resultados más relevantes que Google
  Google está demasiado personalizado
- Como ucraniano, me da rabia que Yandex se haya convertido en una herramienta de propaganda, pero como ingeniero siento respeto por su legado de décadas de investigación y su excelente tecnología de búsqueda
- Llevo mucho tiempo probando la calidad de los buscadores así
  Un buen motor muestra sitios pirata, y un motor excelente los pone por encima de los resultados falsos
  Pero cuanto mejor es el motor, más atención termina recibiendo y le acaban borrando esos resultados
  Cuando eso pasa, es momento de buscar en otro lado
- Curiosamente, hace unos días mi esposa me recomendó una película mientras me contaba sobre la historia de su país, y no aparecía en Google, DDG, Bing ni Brave
  Pero en Yandex salió entre los tres primeros resultados de inmediato
  Por cierto, DDG ya es casi igual que Google y hasta tiene resultados patrocinados
Anna’s Archive ya le dio a Google todos los datos que necesitaba para entrenar Gemini, así que ahora parece fingir que no existe
- Me pregunto si alguna vez Anna’s Archive organizó la información del mundo y la hizo universalmente accesible
- Google opera voluntariamente un registro de transparencia, y cumplir con la DMCA es solo una cuestión de interpretación legal
  Cuesta entender que las comunidades en línea construyan teorías conspirativas maliciosas alrededor de eso
¿Google ahora otra vez hace búsquedas?
Últimamente la marca de chatbot que uso evita 100 sitios de spam SEO y me encuentra la misma información, así que no sé cómo se le puede ganar a esa comodidad
- He oído decir que los chatbots se ven menos afectados por el spam que Google, y me pregunto si será verdad
- Recuerdo que hubo una época en que Google sí buscaba
  (buen apodo)
- Los chatbots no tienen su propio índice a escala de internet
  Al final, lo que estás haciendo es renunciar al criterio de verificar directamente la fuente de la información
- Entre el 25% y el 90% de los enlaces que dan los chatbots son alucinaciones
  O si no, al final solo están reemplazando una búsqueda en Google
- La IA basada en LLM es inherentemente vulnerable a ataques de manipulación de datos
  Un AGI real a nivel humano detectaría esos intentos, pero los chatbots actuales no
  Artículo relacionado: NYTimes - AI Chatbot Prompts and Manipulation
Yo no hago en absoluto búsquedas que puedan incomodar a Google
Números de serie, teléfonos de empresas, papers, libros: todo eso lo busco en Yandex o Brave
Me da igual lo que haga Google, de todos modos no lo uso
Estoy pensando que debería bajar todos los torrents de z-archive antes de que desaparezca Anna’s Archive
Exceptuando los PDF grandes y los libros que no están en idiomas europeos, parece que podría comprimirlo para meterlo en dos discos de 32 TB
https://annas-archive.org/torrents
- ¿Quitar los PDF grandes no sería un criterio demasiado arbitrario?
  Muchas veces un PDF es grande por el color o la resolución, no por el contenido
- Yo antes reducía el tamaño bajando el DPI y la profundidad de color, y luego volviendo a unirlo como PDF
  También sería posible identificar automáticamente múltiples ediciones del mismo libro y dejar solo un epub, eliminando el resto
- Yo también quiero hacer un respaldo de las versiones en inglés/alemán/francés
  Pero el problema son los HDD y el sistema de archivos, así que quizá tenga que crear algo como un divisor de torrents por mi cuenta
- Yo invertí y organicé la lista llenando primero con archivos pequeños
https://annas-archive.org
Casi nunca he dependido de Google para encontrar contenido en sitios como este
El propio sitio ya está bien indexado por título, autor, formato y fecha, así que con búsqueda libre basta
- Las búsquedas web como las de Google tienen la ventaja de la búsqueda por términos similares
  Por ejemplo, aunque busques “a a a a ah ah ah ah dance song”, te encuentra “Million Voices” de Otto Knows
- Pero me pregunto si estos sitios siquiera tienen búsqueda de texto completo (full-text search)
  Tampoco creo que Google indexe el texto completo de las páginas de Anna’s Archive
Tras el cierre reciente de Library Genesis, parece que Anna’s Archive es el último repositorio de libros que queda
Me pregunto si hay otras alternativas
- Está Open-Slum.org, enlazado desde Anna’s Archive
- Para libros recomiendo WeLib.org, y para audiolibros AudiobookBay
La marcha de Google hacia la irrelevancia sigue adelante
- Aun así, Google todavía representa el 97% de las búsquedas globales
El entorno de búsqueda web cambió por completo
- Hay más plataformas cerradas (walled gardens), así que hay muchas áreas a las que los buscadores no pueden acceder
- También hay muchos datos inaccesibles por restricciones legales
- Ahora hay que usar no solo Google, sino también Yandex, Kagi y ChatGPT
- Yo también aprovecho un índice hecho por mí: Internet Places Database

Google elimina 749 millones de URL relacionadas con Anna’s Archive de los resultados de búsqueda

Resumen de Anna’s Archive

La eliminación masiva de Google

Representa el 5% de todas las eliminaciones por copyright de Google

Visibilidad en los resultados de búsqueda

La respuesta de la industria editorial y sus límites

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News