Cuando FSE se encontró con el FBI
(blog.freespeechextremist.com)- El servidor FSE (Freespeech Extremist) comparte su experiencia al convertirse en objetivo de recolección de datos del FBI
- El FBI paga a proveedores privados (como SocialGist) para hacer scraping masivo de distintos foros y datos del fediverso, y usarlos en análisis de contenido, clasificación por palabras clave y análisis de sentimiento
- Describe la detección de usuarios maliciosos durante la operación del servidor, el know-how de análisis y rastreo de tráfico, y la experiencia enfrentando envenenamiento de datos y crawling evasivo
- Empresas de recolección como BoardReader siguieron escaneando el servidor mediante crawling agresivo y evasión por proxies, y también quedó expuesta su relación con los datos del FBI
- A partir de este caso, se subraya para operadores de servidores del fediverso y la industria TI la necesidad de reforzar la seguridad de datos, la observación y la capacidad de respuesta
Cuando FSE se encontró con el FBI
Pete, 6 de abril de 2025
Resumen y desarrollo del incidente
- El administrador de FSE (Freespeech Extremist) comparte experiencias anómalas relacionadas con UGC del servidor, crawlers y recolección de datos por agencias federales
- Analiza el punto de contacto real con el FBI y cómo los datos son scrapeados y terminan entrando en sistemas internos de agencias de investigación e interfaces de organización basadas en Facebook
- El contenido principal abarca análisis de logs del servidor, manejo de usuarios maliciosos, metodologías de detección de anomalías de tráfico, así como el acceso evasivo de empresas de scraping de datos y sus vínculos con fuerzas del orden
La raíz del caso: la amenaza del contenido ilegal
- La entrada de abusadores sexuales infantiles al fediverso es el riesgo más grave, al punto de amenazar la existencia misma del servidor
- FSE fue administrado priorizando la libertad de expresión, pero cuando ocurrían actos ilegales se dejaba un registro exhaustivo y se bloqueaban y exponían activamente
- También se advierte sobre bloqueos falsos y distorsión de información por malentendidos de otras instancias, así como sobre la estructura por la que los datos terminan en manos de agencias externas (por ejemplo, el FBI)
Respuesta técnica y curso intensivo de análisis de logs
Diagnóstico de señales anómalas en la operación del servidor
- Debido a las limitaciones del software del servidor, el tráfico anormal y los crawlers/bots/scanners, los servidores públicos siempre están expuestos a lo “raro”
- Para responder con eficacia, es necesario dominar herramientas de análisis de texto y red como awk, tail -f, whois, tcpdump, traceroute, Shodan
- Se presenta cómo personalizar el formato de logs del servidor web (por ejemplo, TSV), registrar tiempos de respuesta por recurso y detectar valores atípicos para entender el flujo de datos en tiempo real
- Con un análisis estadístico simple (promedio, desviación estándar, alertas por outliers) es posible identificar situaciones anormales como DDoS o crawling
“Tejido cicatricial” acumulado con la experiencia y medidas de respuesta
- Al principio, se enfrentaron problemas típicos de spammers y registros automatizados
- Para evitar registros masivos, se crearon y operaron herramientas livianas propias como correo vinculado a logs, alertas por voz y rate limiting en nginx
- En lugar de introducir CAPTCHA o verificación por correo, se adoptó una política de minimización de datos personales y restablecimiento manual de contraseñas
- La mayoría de las soluciones se implementaron internamente para asegurar flexibilidad, velocidad y capacidad de respuesta rápida
BoardReader y FSE, y la detección de crawlers
Cómo ocurrió el crawling de BoardReader y su análisis
- Una empresa antes desconocida llamada BoardReader identificó los datos de FSE como publicaciones de foro y los crawló masivamente
- El crawler intentó evadir controles usando múltiples IP, proxies residenciales, Tor, distintos UA e incluso reproducción de sesiones de Chrome
- Cuando se devolvían errores 429 (throttling) o 401/403 (autorización/prohibido), intentaba repetir todavía más solicitudes
- Al final se siguió bloqueando con varias respuestas, incluido 402 (Payment Required), y aunque se intentó dialogar, continuó recolectando datos mediante evasión
- Al identificar los patrones de evasión del crawler y seguirle el rastro, se detectó su conexión con SocialGist y señales de implicación del FBI
Comunicación real con BoardReader y SocialGist
- Frente al crawling repetido, se enviaron consultas formales a BoardReader y SocialGist, intentando que detuvieran el crawling y respondieran a info@boardreader.com
- Del lado de SocialGist solo llegaron respuestas de forma, mientras en la práctica seguían con la evasión, confirmando el incumplimiento de sus promesas
- Además, se realizó rastreo de la IP del desarrollador (ISP de Serbia, devtools.boardreader.com) y se les explicó internamente la arquitectura del fediverso
Intervención directa del FBI
Cómo surgió la consulta del FBI y qué se descubrió
- Durante el intercambio con Dave (SocialGist), llegó un correo oficial desde una dirección fbi.gov con el asunto “Emergency Disclosure Request”
- Un agente del FBI solicitó información personal de un usuario llamado
WitchKingOfAngmary adjuntó capturas de pantalla de publicaciones - Aunque esa publicación no pertenecía a FSE sino a una publicación bajo sneed.social, el crawler la atribuyó a FSE y la registró en su base de datos, provocando la confusión
- Las capturas del FBI incluían una lista tipo foro, análisis de sentimiento y palabras clave relacionadas resaltadas (como ‘kill blackrock’, ‘larry fink’)
- Quedaron al descubierto las fallas de la arquitectura de datos de Relay de SocialGist y de BoardReader, el malentendido estructural del FBI y, en la práctica, la confusión sistémica derivada de la naturaleza distribuida del fediverso
Respuesta posterior al FBI
- El administrador de FSE explicó al FBI que la publicación original no estaba bajo FSE y pidió que verificaran la instancia del autor original
- Las consultas del agente del FBI se detuvieron, terminó la respuesta directa, y tras ocultar la publicación y aplicar medidas de emergencia se restringió temporalmente el acceso al servicio del servidor
- En ese mismo momento, BoardReader siguió intentando crawling evasivo, pero el bloqueo continuó, y el FBI cerró el caso sin más respuesta
Conclusión e implicaciones
- Este caso muestra de forma concreta el estado real de la conexión de datos entre empresas de scraping, data brokers y agencias estatales
- Subraya que los operadores de servidores de redes sociales distribuidas (fediverso) deben ser capaces de hacer análisis de logs, detección de patrones anómalos, respuesta legal y construcción de herramientas automatizadas de bloqueo
- A nivel social, sugiere que los sistemas web abiertos y democráticos corren el riesgo de ser absorbidos y distorsionados fácilmente por sistemas de vigilancia privados o estatales
- Finalmente, enfatiza que el diseño de redes abiertas y el intercambio de información entre comunidades de operadores son la clave para una defensa efectiva de la seguridad de los datos
1 comentarios
Comentarios en Hacker News
Hubo críticas a que Fediblock generaba malentendidos por no verificar los hechos, pero se comentó que lo enlazado en la entrada del blog no era más que una lista de instancias que se habían desfederado entre sí, se recalcó que Fediblock ya era un servicio descontinuado desde hace años y que no era un criterio oficial sino información de referencia, y se compartió la intuición de que el autor del blog originalmente buscaba el contenido de Fediblock y usó distraídamente ese enlace alternativo
Se analizó por qué este texto resultó tan interesante: empezó desde la inquietud de que implementar captchas podía perjudicar a usuarios reales, y terminó mostrando de forma cruda y extensa el proceso por el cual, tras volver público el registro y la timeline, la experiencia de usuario acabó empeorando por una avalancha de problemas; se compartió la experiencia personal de salir de ahí convencido de que jamás querría encargarse de operar directamente un espacio comunitario
Se resumió el atractivo de la publicación en cinco puntos: 1) cómo desentraña con una especie de ciencia ciudadana los mecanismos de recolección de información y vigilancia del FBI, 2) los pequeños dramas internos del Fediverse, 3) tips prácticos de operación de sistemas desde la perspectiva de un operador de servidor pequeño, 4) el interesante subtrama del personaje torswats, en el centro de varios incidentes, hasta llegar a su arresto, y 5) un estilo de escritura inteligente y fluido, merecedor de 5 estrellas; recomendación total
Se expresó una sincera admiración por el texto, y la observación puntual fue que el botón "Negative" del motor de búsqueda probablemente no indicaba análisis de sentimiento, sino irrelevancia en los resultados de búsqueda; se compartió la idea de que el análisis de sentimiento no tendría gran utilidad en ese escenario
Se dijo que, por culpa de fediblock, surgió el malentendido de que FSE tenía reglas falsas de permisividad, y se expresó molestia por citar un sitio cuyo código fuente está en kiwifarms; se añadió que FSE fue bloqueado principalmente porque la mayoría de los usuarios no quiere relacionarse con grupos de "free speech"
Se propusieron alternativas técnicas más eficientes para defenderse del scraping, por ejemplo bloquear tráfico a nivel de IP o dominio, o usar servicios externos como Cloudflare para proteger endpoints de API; aun así, se mencionó que esos servicios también tienen costo y quizá no encajen con un sitio del perfil de Free Speech Extremist, aunque también se comentó que, desde el punto de vista económico, bloquear tráfico malicioso podría incluso ahorrar dinero
Se señaló que en FSE salieron a la luz problemas relacionados con pedófilos, y se añadió que eso es un problema del Fediverse en general, igual que en lugares como Discord
Se preguntó por qué FSE (Free Speech Extremist) tendría que cargar con la etiqueta de "extremista", planteando la duda de por qué habría que ser extremista en un país que valora la libertad de expresión garantizada por la Constitución de EE. UU.
Se resumió en una sola frase que operar espacios en línea es, en la práctica, un trabajo durísimo