4 puntos por GN⁺ 2025-11-06 | 1 comentarios | Compartir por WhatsApp
  • Anna’s Archive es un motor de metabúsqueda de bibliotecas sombra donde se pueden encontrar libros electrónicos y materiales pirateados, y fue lanzado en otoño de 2022
  • Durante los últimos 3 años, debido a denuncias de copyright de editoriales y autores, Google eliminó 749 millones de URL de este sitio de sus resultados de búsqueda
  • Esto equivale al 5% de todas las URL relacionadas con copyright que Google ha procesado hasta ahora, una escala muy superior a la de The Pirate Bay
  • Más de 1000 titulares de derechos como Penguin Random House y John Wiley & Sons presentaron solicitudes DMCA, y cada semana se reportan alrededor de 10 millones de nuevas URL
  • A pesar de la eliminación masiva, el dominio principal de Anna’s Archive sigue siendo accesible y aún es fácil encontrar el sitio en Google buscando por su nombre

Resumen de Anna’s Archive

  • Anna’s Archive es un motor de metabúsqueda que permite buscar de forma unificada en varias bibliotecas sombra, ofreciendo funciones para encontrar libros y materiales pirateados
    • Fue lanzado en otoño de 2022, justo después de que Z-Library fuera objeto de acciones de las autoridades estadounidenses
    • Surgió con el objetivo de seguir ofreciendo al público libros y artículos académicos “gratuitos”
  • En los 3 años desde su lanzamiento, ha sido bloqueado en varios países, y además enfrenta una demanda en Estados Unidos por la recolección no autorizada de 2.2 TB de datos de WorldCat
  • También está llevando a cabo actividades para apoyar el acceso a datos de investigadores de IA

La eliminación masiva de Google

  • Google retira de los resultados de búsqueda las URL sospechosas de infringir copyright a solicitud de los titulares de derechos
  • En relación con Anna’s Archive, se reportaron un total de 784 millones de URL, de las cuales 749 millones fueron realmente eliminadas
    • Algunos enlaces no fueron incluidos en la eliminación porque Google no los había indexado
  • Como comparación, en el caso de The Pirate Bay se eliminaron 4.2 millones de URL, por lo que la escala de Anna’s Archive es mucho mayor
  • Como el sitio opera múltiples subdominios por país y tiene una enorme cantidad de páginas, el número de URL sujetas a eliminación es alto

Representa el 5% de todas las eliminaciones por copyright de Google

  • Según el informe de transparencia de Google, desde 2012 se han reportado un total de 15.1 mil millones de URL infractoras de copyright
    • De ellas, las URL relacionadas con Anna’s Archive representan el 5% del total
  • Penguin Random House y John Wiley & Sons son los principales denunciantes, y más de 1000 editoriales y autores han presentado solicitudes DMCA
  • Incluso ahora, cada semana se siguen reportando aproximadamente 10 millones de nuevas URL

Visibilidad en los resultados de búsqueda

  • Debido a la eliminación masiva, la visibilidad del sitio en búsquedas relacionadas con libros ha disminuido
    • Muchas URL dejaron de mostrarse o bajaron de posición en los resultados
  • Sin embargo, si se busca directamente por el nombre ‘Anna’s Archive’, el dominio principal sigue apareciendo en posiciones destacadas
  • A pesar de las medidas de Google, el acceso al sitio en sí no está bloqueado

La respuesta de la industria editorial y sus límites

  • Como a las editoriales les resulta difícil bloquear directamente el sitio, siguen presentando solicitudes de eliminación a plataformas de terceros como Google
  • A pesar de la presión legal, dominios principales como annas-archive.org, .li y .se siguen operando
  • El texto original no menciona medidas futuras adicionales ni cambios de política

1 comentarios

 
GN⁺ 2025-11-06
Comentarios en Hacker News
  • Puede sonar raro, pero descubrí que Yandex es un buscador bastante excelente cuando se trata de encontrar contenido que bajaron por solicitudes DMCA
    Por ejemplo, cuando quiero ver por streaming en la web una película que no está en Netflix, los resultados de búsqueda son mucho mejores
    Se siente como volver a usar Google de 2005

    • Yo empecé a usar Yandex hace años para encontrar infohashes de bittorrent
      Fue porque Google, Bing y DuckDuckGo ya no daban resultados decentes
      Hoy en día solo muestran coincidencias parciales cortas en sitios como exploradores de blockchain, y no sé si eso es intencional o si es por intentar hacer fuzzy matching
      En cualquier caso, para este uso es un fracaso total
    • He probado varios buscadores, como Kagi, Startpage, Ecosia y DDG, y todos dan resultados más relevantes que Google
      Google está demasiado personalizado
    • Como ucraniano, me da rabia que Yandex se haya convertido en una herramienta de propaganda, pero como ingeniero siento respeto por su legado de décadas de investigación y su excelente tecnología de búsqueda
    • Llevo mucho tiempo probando la calidad de los buscadores así
      Un buen motor muestra sitios pirata, y un motor excelente los pone por encima de los resultados falsos
      Pero cuanto mejor es el motor, más atención termina recibiendo y le acaban borrando esos resultados
      Cuando eso pasa, es momento de buscar en otro lado
    • Curiosamente, hace unos días mi esposa me recomendó una película mientras me contaba sobre la historia de su país, y no aparecía en Google, DDG, Bing ni Brave
      Pero en Yandex salió entre los tres primeros resultados de inmediato
      Por cierto, DDG ya es casi igual que Google y hasta tiene resultados patrocinados
  • Anna’s Archive ya le dio a Google todos los datos que necesitaba para entrenar Gemini, así que ahora parece fingir que no existe

    • Me pregunto si alguna vez Anna’s Archive organizó la información del mundo y la hizo universalmente accesible
    • Google opera voluntariamente un registro de transparencia, y cumplir con la DMCA es solo una cuestión de interpretación legal
      Cuesta entender que las comunidades en línea construyan teorías conspirativas maliciosas alrededor de eso
  • ¿Google ahora otra vez hace búsquedas?
    Últimamente la marca de chatbot que uso evita 100 sitios de spam SEO y me encuentra la misma información, así que no sé cómo se le puede ganar a esa comodidad

    • He oído decir que los chatbots se ven menos afectados por el spam que Google, y me pregunto si será verdad
    • Recuerdo que hubo una época en que Google sí buscaba
      (buen apodo)
    • Los chatbots no tienen su propio índice a escala de internet
      Al final, lo que estás haciendo es renunciar al criterio de verificar directamente la fuente de la información
    • Entre el 25% y el 90% de los enlaces que dan los chatbots son alucinaciones
      O si no, al final solo están reemplazando una búsqueda en Google
    • La IA basada en LLM es inherentemente vulnerable a ataques de manipulación de datos
      Un AGI real a nivel humano detectaría esos intentos, pero los chatbots actuales no
      Artículo relacionado: NYTimes - AI Chatbot Prompts and Manipulation
  • Yo no hago en absoluto búsquedas que puedan incomodar a Google
    Números de serie, teléfonos de empresas, papers, libros: todo eso lo busco en Yandex o Brave
    Me da igual lo que haga Google, de todos modos no lo uso

  • Estoy pensando que debería bajar todos los torrents de z-archive antes de que desaparezca Anna’s Archive
    Exceptuando los PDF grandes y los libros que no están en idiomas europeos, parece que podría comprimirlo para meterlo en dos discos de 32 TB
    https://annas-archive.org/torrents

    • ¿Quitar los PDF grandes no sería un criterio demasiado arbitrario?
      Muchas veces un PDF es grande por el color o la resolución, no por el contenido
    • Yo antes reducía el tamaño bajando el DPI y la profundidad de color, y luego volviendo a unirlo como PDF
      También sería posible identificar automáticamente múltiples ediciones del mismo libro y dejar solo un epub, eliminando el resto
    • Yo también quiero hacer un respaldo de las versiones en inglés/alemán/francés
      Pero el problema son los HDD y el sistema de archivos, así que quizá tenga que crear algo como un divisor de torrents por mi cuenta
    • Yo invertí y organicé la lista llenando primero con archivos pequeños
  • https://annas-archive.org

  • Casi nunca he dependido de Google para encontrar contenido en sitios como este
    El propio sitio ya está bien indexado por título, autor, formato y fecha, así que con búsqueda libre basta

    • Las búsquedas web como las de Google tienen la ventaja de la búsqueda por términos similares
      Por ejemplo, aunque busques “a a a a ah ah ah ah dance song”, te encuentra “Million Voices” de Otto Knows
    • Pero me pregunto si estos sitios siquiera tienen búsqueda de texto completo (full-text search)
      Tampoco creo que Google indexe el texto completo de las páginas de Anna’s Archive
  • Tras el cierre reciente de Library Genesis, parece que Anna’s Archive es el último repositorio de libros que queda
    Me pregunto si hay otras alternativas

    • Está Open-Slum.org, enlazado desde Anna’s Archive
    • Para libros recomiendo WeLib.org, y para audiolibros AudiobookBay
  • La marcha de Google hacia la irrelevancia sigue adelante

    • Aun así, Google todavía representa el 97% de las búsquedas globales
  • El entorno de búsqueda web cambió por completo

    • Hay más plataformas cerradas (walled gardens), así que hay muchas áreas a las que los buscadores no pueden acceder
    • También hay muchos datos inaccesibles por restricciones legales
    • Ahora hay que usar no solo Google, sino también Yandex, Kagi y ChatGPT
    • Yo también aprovecho un índice hecho por mí: Internet Places Database