1 puntos por GN⁺ 2025-06-10 | 1 comentarios | Compartir por WhatsApp
  • El servidor FSE (Freespeech Extremist) comparte su experiencia al convertirse en objetivo de recolección de datos del FBI
  • El FBI paga a proveedores privados (como SocialGist) para hacer scraping masivo de distintos foros y datos del fediverso, y usarlos en análisis de contenido, clasificación por palabras clave y análisis de sentimiento
  • Describe la detección de usuarios maliciosos durante la operación del servidor, el know-how de análisis y rastreo de tráfico, y la experiencia enfrentando envenenamiento de datos y crawling evasivo
  • Empresas de recolección como BoardReader siguieron escaneando el servidor mediante crawling agresivo y evasión por proxies, y también quedó expuesta su relación con los datos del FBI
  • A partir de este caso, se subraya para operadores de servidores del fediverso y la industria TI la necesidad de reforzar la seguridad de datos, la observación y la capacidad de respuesta

Cuando FSE se encontró con el FBI

Pete, 6 de abril de 2025

Resumen y desarrollo del incidente

  • El administrador de FSE (Freespeech Extremist) comparte experiencias anómalas relacionadas con UGC del servidor, crawlers y recolección de datos por agencias federales
  • Analiza el punto de contacto real con el FBI y cómo los datos son scrapeados y terminan entrando en sistemas internos de agencias de investigación e interfaces de organización basadas en Facebook
  • El contenido principal abarca análisis de logs del servidor, manejo de usuarios maliciosos, metodologías de detección de anomalías de tráfico, así como el acceso evasivo de empresas de scraping de datos y sus vínculos con fuerzas del orden

La raíz del caso: la amenaza del contenido ilegal

  • La entrada de abusadores sexuales infantiles al fediverso es el riesgo más grave, al punto de amenazar la existencia misma del servidor
  • FSE fue administrado priorizando la libertad de expresión, pero cuando ocurrían actos ilegales se dejaba un registro exhaustivo y se bloqueaban y exponían activamente
  • También se advierte sobre bloqueos falsos y distorsión de información por malentendidos de otras instancias, así como sobre la estructura por la que los datos terminan en manos de agencias externas (por ejemplo, el FBI)

Respuesta técnica y curso intensivo de análisis de logs

Diagnóstico de señales anómalas en la operación del servidor

  • Debido a las limitaciones del software del servidor, el tráfico anormal y los crawlers/bots/scanners, los servidores públicos siempre están expuestos a lo “raro”
  • Para responder con eficacia, es necesario dominar herramientas de análisis de texto y red como awk, tail -f, whois, tcpdump, traceroute, Shodan
  • Se presenta cómo personalizar el formato de logs del servidor web (por ejemplo, TSV), registrar tiempos de respuesta por recurso y detectar valores atípicos para entender el flujo de datos en tiempo real
  • Con un análisis estadístico simple (promedio, desviación estándar, alertas por outliers) es posible identificar situaciones anormales como DDoS o crawling

“Tejido cicatricial” acumulado con la experiencia y medidas de respuesta

  • Al principio, se enfrentaron problemas típicos de spammers y registros automatizados
  • Para evitar registros masivos, se crearon y operaron herramientas livianas propias como correo vinculado a logs, alertas por voz y rate limiting en nginx
  • En lugar de introducir CAPTCHA o verificación por correo, se adoptó una política de minimización de datos personales y restablecimiento manual de contraseñas
  • La mayoría de las soluciones se implementaron internamente para asegurar flexibilidad, velocidad y capacidad de respuesta rápida

BoardReader y FSE, y la detección de crawlers

Cómo ocurrió el crawling de BoardReader y su análisis

  • Una empresa antes desconocida llamada BoardReader identificó los datos de FSE como publicaciones de foro y los crawló masivamente
  • El crawler intentó evadir controles usando múltiples IP, proxies residenciales, Tor, distintos UA e incluso reproducción de sesiones de Chrome
  • Cuando se devolvían errores 429 (throttling) o 401/403 (autorización/prohibido), intentaba repetir todavía más solicitudes
  • Al final se siguió bloqueando con varias respuestas, incluido 402 (Payment Required), y aunque se intentó dialogar, continuó recolectando datos mediante evasión
  • Al identificar los patrones de evasión del crawler y seguirle el rastro, se detectó su conexión con SocialGist y señales de implicación del FBI

Comunicación real con BoardReader y SocialGist

  • Frente al crawling repetido, se enviaron consultas formales a BoardReader y SocialGist, intentando que detuvieran el crawling y respondieran a info@boardreader.com
  • Del lado de SocialGist solo llegaron respuestas de forma, mientras en la práctica seguían con la evasión, confirmando el incumplimiento de sus promesas
  • Además, se realizó rastreo de la IP del desarrollador (ISP de Serbia, devtools.boardreader.com) y se les explicó internamente la arquitectura del fediverso

Intervención directa del FBI

Cómo surgió la consulta del FBI y qué se descubrió

  • Durante el intercambio con Dave (SocialGist), llegó un correo oficial desde una dirección fbi.gov con el asunto “Emergency Disclosure Request”
  • Un agente del FBI solicitó información personal de un usuario llamado WitchKingOfAngmar y adjuntó capturas de pantalla de publicaciones
  • Aunque esa publicación no pertenecía a FSE sino a una publicación bajo sneed.social, el crawler la atribuyó a FSE y la registró en su base de datos, provocando la confusión
  • Las capturas del FBI incluían una lista tipo foro, análisis de sentimiento y palabras clave relacionadas resaltadas (como ‘kill blackrock’, ‘larry fink’)
  • Quedaron al descubierto las fallas de la arquitectura de datos de Relay de SocialGist y de BoardReader, el malentendido estructural del FBI y, en la práctica, la confusión sistémica derivada de la naturaleza distribuida del fediverso

Respuesta posterior al FBI

  • El administrador de FSE explicó al FBI que la publicación original no estaba bajo FSE y pidió que verificaran la instancia del autor original
  • Las consultas del agente del FBI se detuvieron, terminó la respuesta directa, y tras ocultar la publicación y aplicar medidas de emergencia se restringió temporalmente el acceso al servicio del servidor
  • En ese mismo momento, BoardReader siguió intentando crawling evasivo, pero el bloqueo continuó, y el FBI cerró el caso sin más respuesta

Conclusión e implicaciones

  • Este caso muestra de forma concreta el estado real de la conexión de datos entre empresas de scraping, data brokers y agencias estatales
  • Subraya que los operadores de servidores de redes sociales distribuidas (fediverso) deben ser capaces de hacer análisis de logs, detección de patrones anómalos, respuesta legal y construcción de herramientas automatizadas de bloqueo
  • A nivel social, sugiere que los sistemas web abiertos y democráticos corren el riesgo de ser absorbidos y distorsionados fácilmente por sistemas de vigilancia privados o estatales
  • Finalmente, enfatiza que el diseño de redes abiertas y el intercambio de información entre comunidades de operadores son la clave para una defensa efectiva de la seguridad de los datos

1 comentarios

 
GN⁺ 2025-06-10
Comentarios en Hacker News
  • Hubo críticas a que Fediblock generaba malentendidos por no verificar los hechos, pero se comentó que lo enlazado en la entrada del blog no era más que una lista de instancias que se habían desfederado entre sí, se recalcó que Fediblock ya era un servicio descontinuado desde hace años y que no era un criterio oficial sino información de referencia, y se compartió la intuición de que el autor del blog originalmente buscaba el contenido de Fediblock y usó distraídamente ese enlace alternativo

    • Soy operador de un servidor Mastodon de tamaño mediano, y compartí que bloqueé una instancia después de que un usuario me lanzara insultos racistas y, aunque denuncié a su administrador, no se tomó ninguna medida; se enfatizó que fue una decisión totalmente ajena a fediblock o a mecanismos comunitarios, y que no había razón para seguir interactuando con una instancia cuyos usuarios se dedicaban a trolear y acosar a la gente de mi servidor, por lo que me parece hasta ridículo que FSE lo cuente como si alguien los hubiera bloqueado por una conspiración
    • Se señaló que el servicio Fediblock efectivamente cerró en septiembre de 2023 y que la mayoría de los incidentes mencionados en el artículo ocurrieron antes de ese cierre
  • Se analizó por qué este texto resultó tan interesante: empezó desde la inquietud de que implementar captchas podía perjudicar a usuarios reales, y terminó mostrando de forma cruda y extensa el proceso por el cual, tras volver público el registro y la timeline, la experiencia de usuario acabó empeorando por una avalancha de problemas; se compartió la experiencia personal de salir de ahí convencido de que jamás querría encargarse de operar directamente un espacio comunitario

  • Se resumió el atractivo de la publicación en cinco puntos: 1) cómo desentraña con una especie de ciencia ciudadana los mecanismos de recolección de información y vigilancia del FBI, 2) los pequeños dramas internos del Fediverse, 3) tips prácticos de operación de sistemas desde la perspectiva de un operador de servidor pequeño, 4) el interesante subtrama del personaje torswats, en el centro de varios incidentes, hasta llegar a su arresto, y 5) un estilo de escritura inteligente y fluido, merecedor de 5 estrellas; recomendación total

    • Yo también pienso que es un gran texto, con la dosis justa de detalle técnico; incluso sería perfectamente digno de presentarse en una conferencia hacker como Chaos Communication Congress
    • Se señaló que el autor llegó a una conclusión equivocada: el FBI pidió información enviando capturas de un usuario con amenazas de violencia, pero el autor lo descartó como simple fanfarronería; viendo casos recientes de violencia real, como el asesinato de un CEO, se criticó que subestimara el riesgo. Se destacó que al menos el operador de FSE sí dialogó activamente con los investigadores federales, pero que concluir automáticamente que una amenaza es inofensiva solo por ver una captura es un sesgo peligroso
  • Se expresó una sincera admiración por el texto, y la observación puntual fue que el botón "Negative" del motor de búsqueda probablemente no indicaba análisis de sentimiento, sino irrelevancia en los resultados de búsqueda; se compartió la idea de que el análisis de sentimiento no tendría gran utilidad en ese escenario

    • También hubo quien no estuvo de acuerdo, señalando que el diseño del ícono de "Negative", con forma de cabeza roja, resulta lingüísticamente extraño si solo quisiera marcar irrelevancia, y que parece más cercano al significado de análisis de sentimiento
  • Se dijo que, por culpa de fediblock, surgió el malentendido de que FSE tenía reglas falsas de permisividad, y se expresó molestia por citar un sitio cuyo código fuente está en kiwifarms; se añadió que FSE fue bloqueado principalmente porque la mayoría de los usuarios no quiere relacionarse con grupos de "free speech"

    • Hubo respuesta diciendo que no parece haber relación entre bloquear a alguien y hacer fact-checking, y que el rechazo o el bloqueo no necesariamente están vinculados a una discusión sobre verificación de hechos
  • Se propusieron alternativas técnicas más eficientes para defenderse del scraping, por ejemplo bloquear tráfico a nivel de IP o dominio, o usar servicios externos como Cloudflare para proteger endpoints de API; aun así, se mencionó que esos servicios también tienen costo y quizá no encajen con un sitio del perfil de Free Speech Extremist, aunque también se comentó que, desde el punto de vista económico, bloquear tráfico malicioso podría incluso ahorrar dinero

    • Yo mismo compartí experiencia práctica: di la orden en el servidor de bloquear IPs de scraping, pero enseguida vi intentos desde nuevas IPs residenciales de EE. UU. usadas como proxy
  • Se señaló que en FSE salieron a la luz problemas relacionados con pedófilos, y se añadió que eso es un problema del Fediverse en general, igual que en lugares como Discord

    • Hubo acuerdo en que algo similar puede pasar en cualquier espacio en línea donde se puedan subir fotos sin usar nombre real
    • También se advirtió que plataformas de mensajería anónima como Signal o Telegram tienen el mismo riesgo
  • Se preguntó por qué FSE (Free Speech Extremist) tendría que cargar con la etiqueta de "extremista", planteando la duda de por qué habría que ser extremista en un país que valora la libertad de expresión garantizada por la Constitución de EE. UU.

    • Se apuntó que, dado el humor característico del autor, esa expresión parece casi una broma; además, se explicó que incluso dentro del sistema legal estadounidense sigue el debate sobre el alcance y los límites de la libertad de expresión, y que la política de la instancia FSE parece operar bajo la idea de que "si la ley lo permite, en principio se permite aunque sea repugnante u ofensivo". Se comentó con honestidad que se simpatiza con ese principio, pero que no habría valor para aplicarlo del todo en la práctica; a la vez, se explicó que la mayoría de las demás instancias de la federación operan con reglas estrictas y listas de bloqueo, y se compartió este enlace relacionado
    • Se señaló que plantear este tema se vuelve aún más importante en un episodio que muestra que el FBI está eludiendo o incluso violando directamente obligaciones constitucionales
    • Se mencionó que "Extremist" es una forma peyorativa de "radical" y que, históricamente y culturalmente, a cualquier postura controvertida alguien termina poniéndole una etiqueta
    • Se explicó que los derechos constitucionales en EE. UU. no son absolutos y que los tribunales han marcado límites claros, por lo que cuando alguien defiende posturas fuera de esos márgenes, quienes se oponen fácilmente las tachan de "extremistas"
    • Se agregó una reflexión: un extremista siempre se caracteriza por poner un valor por encima de todos los demás; por ejemplo, si priorizas respirar por encima de comer o beber, a corto plazo puede parecer correcto, pero a mediano y largo plazo trae problemas. La idea era subrayar la necesidad de equilibrio entre distintos valores
  • Se resumió en una sola frase que operar espacios en línea es, en la práctica, un trabajo durísimo