"La web está rota": ¿y si tu dispositivo se convierte en una botnet para atacar a otros? El rastreo con IA y el ecosistema oculto de proxies

(jan.wildeboer.net)

8 puntos por GN⁺ 2025-04-20 | 1 comentarios | Compartir por WhatsApp

Algunas empresas de IA insertan en apps un 'SDK de proxy P2P convertido en botnet' para recolectar datos, incorporando a los usuarios sin que lo sepan a su infraestructura de web crawling
Este SDK 'vende' sin autorización parte del ancho de banda de red del usuario (120~150 kbps) y les da ingresos a los desarrolladores (18 centavos por usuario), además de ejecutar actividades anómalas como crawling y fuerza bruta contra servidores de correo
Esta botnet usa decenas de miles de IP residenciales/móviles para evadir la detección, e intenta atacar solo una vez por día por IP para esquivar sistemas de seguridad como fail2ban
Un caso representativo es el SDK de Infatica; en la práctica, los desarrolladores que lo incluyen terminan infectando a los usuarios con una botnet
El mercado de 'proxies residenciales' crece rápidamente por la demanda de crawling para IA, y en la práctica funciona como infraestructura de rastreo no autorizada
Esta estructura de botnet es una nueva forma de ciberataque sigiloso, y los desarrolladores de apps están participando en este ecosistema
El autor define el web crawling en sí como un ataque contra los cimientos de la web, exige responsabilidad a desarrolladores y plataformas, y sostiene que todo crawling debería bloquearse

La botnet sigilosa, al descubierto: Botnet Parte 1

Ataques de la botnet contra un servidor de correo personal

El servidor de correo del autor recibe de forma continua ataques de fuerza bruta por SMTP
Objetivo del ataque: tomar control de cuentas para enviar correo spam
La mayoría fracasa, pero los intentos son persistentes y constantes

Qué es realmente la botnet: infección de dispositivos mediante SDK

Se paga a desarrolladores por insertar el SDK en sus apps
- Ejemplo: 18 centavos por usuario al mes
Este SDK alquila parte del tráfico del usuario (120~150 kbps)
Se presenta como "proxy P2P" o "residential proxy", pero en realidad usa el dispositivo del usuario como nodo de botnet

Cómo opera el ataque: ofensiva distribuida diseñada para evadir detección

Solo un intento de inicio de sesión por IP al día → evade detección automática de fail2ban, UFW, etc.
Pero como cuenta con decenas de miles de IP, el ataque se ejecuta de forma persistente y distribuida
El autor señala que este método deja inútiles las herramientas de seguridad estándar

La poca utilidad del bloqueo por ASN

Se analizó si las IP se concentraban en un proveedor específico (ASN)
- Resultado: menos de 4 IP de ataque por ASN en promedio → bloquear ASN completos no sirve
Actualmente mantiene un proceso de analizar logs cada día → enviar por correo comandos para bloquear IP nuevas → bloqueo manual

Método de respuesta y filosofía

Aunque podría automatizarse, responder manualmente le permite identificar patrones y mantener una vigilancia activa
Cantidad de IP atacantes: actualmente tiene más de 50 mil bloqueadas
La mayoría son IPv4; los ataques por IPv6 todavía son poco frecuentes

La realidad del ecosistema de botnets

Una cadena de distribución que parece legal, basada en "incluir el SDK → compartir ingresos"
En la práctica usa el tráfico de los usuarios sin consentimiento para spam, ataques, crawling y más
Estas botnets no suelen ser detectadas por antivirus ni sistemas de seguridad convencionales

Conclusión

Cuando un desarrollador incluye este tipo de SDK, en la práctica está participando en la creación de una botnet
El usuario común no puede saber si una app incluye este SDK y termina participando automáticamente en la botnet
A partir de esta preocupación, el autor advierte sobre el deterioro del ecosistema web

"No confío en absoluto en las empresas que dicen que esto es un 'SDK normal'. Esto es una botnet."
— Jan Wildeboer, febrero de 2025

# La web está rota: Botnet Parte 2

El aumento explosivo de los web crawlers y su contexto

En tiempos recientes ha aumentado la demanda de recolección masiva de datos para entrenar modelos de IA
Empresas de IA raspan en silencio todo el contenido de la web, provocando sobrecarga de tráfico
Webmasters y operadores de servidores sufren por los crawlers, pero muchas veces ni siquiera saben quién los opera

Una nueva forma de botnet: infección de usuarios mediante SDK

Algunas empresas ofrecen a desarrolladores dinero a cambio de insertar un SDK
Los usuarios comunes que instalan apps con ese SDK terminan, sin saberlo, poniendo su tráfico al servicio de crawlers para IA
Estos SDK pueden insertarse en apps de iOS, Android, MacOS y Windows

Caso representativo: Infatica

Sitio web: https://infatica.io
En su página para desarrolladores promociona que es posible hacer crawling a través de la red del usuario
Afirma ofrecer millones de IP rotativas (residenciales/móviles)

¿Por qué esto es un problema?

Empresas como Infatica afirman vigilar qué órdenes ejecutan sus clientes (por ejemplo, empresas de IA que hacen crawling), pero en la práctica eso funciona como una estructura para eludir responsabilidades
El reporte de Trend Micro de 2023 también documentó casos similares
Algunas incluso incrustan en secreto el SDK dentro de software gratuito y lo distribuyen sin consentimiento del usuario

Daños: tanto para usuarios individuales como para servidores pequeños

Desarrolladores de apps: por incentivo económico incluyen el SDK → en la práctica distribuyen malware
Usuarios: su dispositivo y su red se usan para web crawling y DDoS
Operadores de servidores: se convierten sin saberlo en blancos de solicitudes excesivas
- Ejemplo: la instancia de Forgejo del autor también pasó a ser privada por exceso de tráfico bot

El empaque de "proxy residencial"

A los proxies que usan dispositivos de usuarios como punto de apoyo se les llama "residential IP"
Sitio de ejemplo con reseñas de servicios proxy:
https://proxyway.com/reviews
En la superficie parecen ser infraestructura legítima, pero en realidad se basan en una estructura de propagación no autorizada y conversión en proxy

Conclusión: el web crawling ya llegó al nivel del abuso

El autor sostiene que toda forma de web crawling debería considerarse una actividad maliciosa
Considera que los web crawlers están atacando los cimientos de la web
La IA es el motor central de esta estructura, y rechaza con fuerza la idea de que eso sea "legal"

Propuestas y llamado de atención

Los desarrolladores que incluyen estos SDK deben rendir cuentas
Operadores de plataformas como Apple, Google y Microsoft deben sancionar este mercado
Para el usuario común es casi imposible identificarlo o bloquearlo
Los operadores web intentan frenar técnicamente a los crawlers, pero hay límites

“Gracias a la IA, la web se está convirtiendo en un espacio en el que ya no se puede confiar. Gracias, IA.”
– Jan Wildeboer, abril de 2025

1 comentarios

GN⁺ 2025-04-20

Comentarios de Hacker News

Que los desarrolladores de apps incluyan SDKs de terceros para generar ingresos es parte del problema, y cree que deberían asumir la responsabilidad por distribuir software malicioso a los usuarios
- Sospecha que muchos SDK tienen este tipo de problemas
- En lo personal, prefiere evitar la adicción a las dependencias y desarrollar las cosas por su cuenta
- Los actores maliciosos aprovechan la adicción a las dependencias de los desarrolladores modernos para poner trampas
Existe un mercado en iOS, Android, MacOS y Windows donde se hace que los desarrolladores incluyan librerías para vender el ancho de banda de red de los usuarios
- Esto está relacionado con por qué Cloudflare y Google exigen CAPTCHA
- No se entiende por qué Play Protect, MS Defender y el antivirus de Apple no detectan este software malicioso
- Que una librería SDK convierta el dispositivo del usuario en parte de una botnet es un ejemplo clarísimo de un troyano
El problema de la web es que, para que los datos sigan siendo legibles, cierto administrador de sistemas tiene que mantener el servidor
- Si se usa un modelo de direccionamiento por contenido, se pueden eliminar las restricciones de unicidad
- Los scrapers de IA podrían compartir los datos entre sí y no cargar a la fuente original
El software de compartición de red debería clasificarse como aplicación no deseada
- Se instala junto con algo que el usuario sí quería instalar y abusa de los recursos
- Le gustaría usar Wireshark para revisar si hay actividad sospechosa
- Hace falta un repositorio público de apps que tengan este comportamiento
Las apps que incluyan software malicioso deberían ponerse en cuarentena de inmediato
- Aunque no causen daño directo, siguen siendo malware
El web scraping debería considerarse abuso y los servidores web deberían bloquearlo
- Plataformas como Youtube probablemente estarían de acuerdo con eso
Se pregunta si alguien ha compilado una lista de software que usa estas librerías
- Sería bueno saber qué apps conviene evitar
Los proxies con IP residenciales tienen la debilidad de que las direcciones IP cambian con frecuencia
- Las IP que provienen del mismo proveedor de proxy pueden detectarse con facilidad
- Está desarrollando una plataforma antifraude de código abierto, y detectar usuarios falsos que llegan desde proxies residenciales es uno de los casos de uso
Hasta ahora no hay pruebas claras, pero este comportamiento puede detectarse con facilidad
- iOS tiene funciones para revisar las conexiones de una app
- Android no tiene esa función, pero se pueden usar firewalls de terceros como pcapdroid
- En MacOS se puede usar Little Snitch, y en Windows, Fort Firewall
- No mucha gente usa estas apps, pero es probable que reporten apps que usan sus dispositivos como botnet
Se pregunta si existe una lista de servidores c&c que se pueda agregar a Pihole y similares

"La web está rota": ¿y si tu dispositivo se convierte en una botnet para atacar a otros? El rastreo con IA y el ecosistema oculto de proxies

La botnet sigilosa, al descubierto: Botnet Parte 1

Ataques de la botnet contra un servidor de correo personal

Qué es realmente la botnet: infección de dispositivos mediante SDK

Cómo opera el ataque: ofensiva distribuida diseñada para evadir detección

La poca utilidad del bloqueo por ASN

Método de respuesta y filosofía

La realidad del ecosistema de botnets

Conclusión

# La web está rota: Botnet Parte 2

El aumento explosivo de los web crawlers y su contexto

Una nueva forma de botnet: infección de usuarios mediante SDK

Caso representativo: Infatica

¿Por qué esto es un problema?

Daños: tanto para usuarios individuales como para servidores pequeños

El empaque de "proxy residencial"

Conclusión: el web crawling ya llegó al nivel del abuso

Propuestas y llamado de atención

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News