- La Wikipedia en inglés agregó el sitio Archive.today a la lista negra y comenzó a eliminar sus enlaces
- Se confirmó que el sitio indujo ataques DDoS contra blogs y manipuló capturas de páginas web
- Los editores de Wikipedia acordaron dejar de usarlo por el daño a la confiabilidad del sitio y el riesgo de abuso de los dispositivos de los usuarios
- Hay aproximadamente 695 mil enlaces en 400 mil artículos, y se considera que la mayoría puede reemplazarse por otros servicios de archivo
- Se recomendó a los editores reemplazarlos por Internet Archive, Ghostarchive, Megalodon u otros, o eliminarlos
Decisión de Wikipedia de bloquear Archive.today
- La Wikipedia en inglés decidió agregar Archive.today a la lista negra
- La razón de la decisión es que el sitio fue utilizado para ataques DDoS contra blogs
- Durante la discusión en Wikipedia, se descubrió un caso en el que el sitio manipuló una captura de una página web para insertar el nombre del bloguero atacado
- Los editores de Wikipedia concluyeron que la manipulación fue una represalia por una publicación de blog sobre cómo el operador del sitio ocultaba su identidad usando varios seudónimos
Consenso de la comunidad de Wikipedia
- Según la actualización oficial de Wikipedia, se decidió deprecar de inmediato Archive.today y agregarlo a la lista negra de spam o bloquearlo mediante filtros de edición
- Además, se decidió eliminar todos los enlaces existentes
- La comunidad citó como fundamento la política (WP:ELNO#3): “no se debe dirigir a los lectores a un sitio que secuestra las computadoras de los usuarios para ejecutar ataques DDoS”
- Se presentó evidencia de que el contenido de páginas archivadas fue manipulado, por lo que se consideró dañada la confiabilidad del sitio
Escala de los enlaces y posibilidad de reemplazo
- Los enlaces de Archive.today aparecen en más de 695 mil casos dentro de unos 400 mil artículos
- El sitio se había usado con frecuencia para eludir paywalls de noticias
- Aunque hubo opiniones a favor de mantener la situación actual, el análisis confirmó que la mayoría de los enlaces puede sustituirse por otros archivos
- Algunos editores comenzaron a definir en detalle el proceso para eliminar y reemplazar enlaces
Guía para los editores
- El documento recién publicado Wikipedia:Archive.today_guidance orienta a los editores sobre cómo eliminar y reemplazar enlaces
- Los dominios objetivo incluyen archive.today, archive.is, archive.ph, archive.fo, archive.li, archive.md, archive.vn y otros
- Si la fuente original sigue en línea y el contenido es el mismo, se puede eliminar el enlace de Archive.today
- También puede reemplazarse por otros servicios de archivo como Internet Archive, Ghostarchive o Megalodon
- Si el original existe en formato impreso o si el enlace era solo por conveniencia, puede eliminarse el enlace de archivo por completo
Medidas para reforzar la confiabilidad y la seguridad en Wikipedia
- Esta medida se considera un paso para reforzar la confiabilidad de Wikipedia y la protección de los usuarios
- La comunidad la ve como una oportunidad para establecer criterios claros de respuesta ante manipulaciones del sitio y conductas maliciosas
- Más adelante se seguirá discutiendo cómo avanzar de forma eficiente con la eliminación de enlaces
1 comentarios
Comentarios de Hacker News
Vi hace poco un artículo sobre una posible campaña organizada contra archive.today
Me interesa saber si hay material que explique con más profundidad cómo funciona realmente la arquitectura técnica de archive.today. Necesito algo más que simples resultados de búsqueda con IA o un hilo anterior de HN
Como archive.org sí atiende solicitudes de eliminación, me pregunto si atacan a archive.today porque preserva contenido que se niega a borrar
No creo que tenga sentido doxxear a alguien. Mucho menos si es alguien que presta un servicio útil para usuarios comunes
Pero sí me parece problemático que archive.today convierta a sus usuarios en una botnet para lanzar ataques DDoS, o que altere el contenido de páginas archivadas.
Ese tipo de cosas hacen que el sitio parezca infectado con malware y reducen la confiabilidad del contenido archivado. Entiendo por qué Wikipedia lo bloqueó
Si la investigación se hizo solo con información pública, no lo vería como algo antiético
El problema es que en el caso de archive.today esos cambios parecen manipulaciones intencionales
Encontré algunas capturas de X/Twitter en archive.today que se guardaron mientras la sesión estaba iniciada en la cuenta “advancedhosters”
Esa cuenta está vinculada a una empresa de web hosting en Chipre y hace poco enlazó una publicación que filtró correos privados entre el operador de archive.today (que usa el alias “Volth”) y el dueño del sitio
Una publicación anterior era un enlace archivado en archive.today a un artículo prorruso y antiucraniano. Parece una pista interesante
Aun así, a diferencia de una entidad sin fines de lucro legal como Internet Archive, este tipo de operación es difícil de distinguir de una actividad delictiva
El año pasado vi en archive.today un caso donde se modificaba una página archivada
Antes, las páginas archivadas de Reddit mostraban el nombre de usuario en la esquina superior derecha, pero en algún momento desapareció. El problema es que también hubo una modificación retroactiva en capturas antiguas
En la pestaña de screenshots el nombre seguía apareciendo, así que quedó una diferencia respecto al original. Al principio me pareció algo menor, pero viendo los incidentes recientes ya no parece tan trivial
Si hubieran modificado el contenido de la publicación de Reddit, eso ya sería un problema completamente distinto, pero si era solo información de la cuenta, se puede entender
Mucha gente no lo sabe, pero Perma.cc es una herramienta oficial de archivado adecuada para usarse en lugares como Wikipedia
Hay más detalles en el artículo de Wikipedia
Me pregunto si habrá algún servidor de archivo autohospedado que se pueda usar de forma personal
Parece que ArchiveBox es el más conocido, y planeo probarlo. Aunque seguramente será incómodo porque no tiene función de reescritura de URL
Estaría bien que tuviera una función para enlazar automáticamente varias páginas de un mismo artículo
Con la función Content Scripts puedes escribir tus propios scripts de transformación de URL
Según el artículo de Ars Technica, Wikipedia bloqueó a archive.today por ataques DDoS y manipulación de contenido
Personalmente, casi no uso archive.today porque me resulta incómodo. Pero en HN parece usarse mucho para saltar paywalls
El problema es el historial previo y el anonimato de su operador. Está en una posición desde la que puede recopilar muchos datos sobre los hábitos de lectura de los usuarios de HN
Curiosamente, esta no es la primera vez que archive.today se ve involucrado en un DDoS
Según una publicación de HN de hace 3 años, hubo un caso en archive.ph donde se ejecutó un ataque DDoS con código XmlHttpRequest
En ese momento el objetivo era northcountrygazette.org, y el sitio se volvió tan lento que parece que el ataque realmente surtió efecto
Ese sitio había amenazado antes con rastrear a quienes saltaran el paywall y usaba un robots.txt que bloqueaba el archivado. Al parecer terminó cerrando
Me pregunto si sería posible crear localmente un archivo web irreversible sin depender de sitios de terceros
Pienso si no se podría registrar toda la transacción TLS para revalidarla más adelante. Claro, si se filtra el certificado, existiría el riesgo de falsificación
Técnicamente, Wayback Machine tampoco es muy superior a archive.today en ese aspecto
Hay varias soluciones de archivo autohospedadas, pero su nivel de madurez es muy disparejo
Uno pensaría que ya existiría una implementación estándar que sirviera tanto para uso personal como público, pero parece que todavía no