8 puntos por GN⁺ 2025-04-20 | 1 comentarios | Compartir por WhatsApp
  • Algunas empresas de IA insertan en apps un 'SDK de proxy P2P convertido en botnet' para recolectar datos, incorporando a los usuarios sin que lo sepan a su infraestructura de web crawling
  • Este SDK 'vende' sin autorización parte del ancho de banda de red del usuario (120~150 kbps) y les da ingresos a los desarrolladores (18 centavos por usuario), además de ejecutar actividades anómalas como crawling y fuerza bruta contra servidores de correo
  • Esta botnet usa decenas de miles de IP residenciales/móviles para evadir la detección, e intenta atacar solo una vez por día por IP para esquivar sistemas de seguridad como fail2ban
  • Un caso representativo es el SDK de Infatica; en la práctica, los desarrolladores que lo incluyen terminan infectando a los usuarios con una botnet
  • El mercado de 'proxies residenciales' crece rápidamente por la demanda de crawling para IA, y en la práctica funciona como infraestructura de rastreo no autorizada
  • Esta estructura de botnet es una nueva forma de ciberataque sigiloso, y los desarrolladores de apps están participando en este ecosistema
  • El autor define el web crawling en sí como un ataque contra los cimientos de la web, exige responsabilidad a desarrolladores y plataformas, y sostiene que todo crawling debería bloquearse

La botnet sigilosa, al descubierto: Botnet Parte 1

Ataques de la botnet contra un servidor de correo personal

  • El servidor de correo del autor recibe de forma continua ataques de fuerza bruta por SMTP
  • Objetivo del ataque: tomar control de cuentas para enviar correo spam
  • La mayoría fracasa, pero los intentos son persistentes y constantes

Qué es realmente la botnet: infección de dispositivos mediante SDK

  • Se paga a desarrolladores por insertar el SDK en sus apps
    • Ejemplo: 18 centavos por usuario al mes
  • Este SDK alquila parte del tráfico del usuario (120~150 kbps)
  • Se presenta como "proxy P2P" o "residential proxy", pero en realidad usa el dispositivo del usuario como nodo de botnet

Cómo opera el ataque: ofensiva distribuida diseñada para evadir detección

  • Solo un intento de inicio de sesión por IP al día → evade detección automática de fail2ban, UFW, etc.
  • Pero como cuenta con decenas de miles de IP, el ataque se ejecuta de forma persistente y distribuida
  • El autor señala que este método deja inútiles las herramientas de seguridad estándar

La poca utilidad del bloqueo por ASN

  • Se analizó si las IP se concentraban en un proveedor específico (ASN)
    • Resultado: menos de 4 IP de ataque por ASN en promedio → bloquear ASN completos no sirve
  • Actualmente mantiene un proceso de analizar logs cada día → enviar por correo comandos para bloquear IP nuevas → bloqueo manual

Método de respuesta y filosofía

  • Aunque podría automatizarse, responder manualmente le permite identificar patrones y mantener una vigilancia activa
  • Cantidad de IP atacantes: actualmente tiene más de 50 mil bloqueadas
  • La mayoría son IPv4; los ataques por IPv6 todavía son poco frecuentes

La realidad del ecosistema de botnets

  • Una cadena de distribución que parece legal, basada en "incluir el SDK → compartir ingresos"
  • En la práctica usa el tráfico de los usuarios sin consentimiento para spam, ataques, crawling y más
  • Estas botnets no suelen ser detectadas por antivirus ni sistemas de seguridad convencionales

Conclusión

  • Cuando un desarrollador incluye este tipo de SDK, en la práctica está participando en la creación de una botnet
  • El usuario común no puede saber si una app incluye este SDK y termina participando automáticamente en la botnet
  • A partir de esta preocupación, el autor advierte sobre el deterioro del ecosistema web

"No confío en absoluto en las empresas que dicen que esto es un 'SDK normal'. Esto es una botnet."
— Jan Wildeboer, febrero de 2025


# La web está rota: Botnet Parte 2

El aumento explosivo de los web crawlers y su contexto

  • En tiempos recientes ha aumentado la demanda de recolección masiva de datos para entrenar modelos de IA
  • Empresas de IA raspan en silencio todo el contenido de la web, provocando sobrecarga de tráfico
  • Webmasters y operadores de servidores sufren por los crawlers, pero muchas veces ni siquiera saben quién los opera

Una nueva forma de botnet: infección de usuarios mediante SDK

  • Algunas empresas ofrecen a desarrolladores dinero a cambio de insertar un SDK
  • Los usuarios comunes que instalan apps con ese SDK terminan, sin saberlo, poniendo su tráfico al servicio de crawlers para IA
  • Estos SDK pueden insertarse en apps de iOS, Android, MacOS y Windows

Caso representativo: Infatica

  • Sitio web: https://infatica.io
  • En su página para desarrolladores promociona que es posible hacer crawling a través de la red del usuario
  • Afirma ofrecer millones de IP rotativas (residenciales/móviles)

¿Por qué esto es un problema?

  • Empresas como Infatica afirman vigilar qué órdenes ejecutan sus clientes (por ejemplo, empresas de IA que hacen crawling), pero en la práctica eso funciona como una estructura para eludir responsabilidades
  • El reporte de Trend Micro de 2023 también documentó casos similares
  • Algunas incluso incrustan en secreto el SDK dentro de software gratuito y lo distribuyen sin consentimiento del usuario

Daños: tanto para usuarios individuales como para servidores pequeños

  • Desarrolladores de apps: por incentivo económico incluyen el SDK → en la práctica distribuyen malware
  • Usuarios: su dispositivo y su red se usan para web crawling y DDoS
  • Operadores de servidores: se convierten sin saberlo en blancos de solicitudes excesivas
    • Ejemplo: la instancia de Forgejo del autor también pasó a ser privada por exceso de tráfico bot

El empaque de "proxy residencial"

  • A los proxies que usan dispositivos de usuarios como punto de apoyo se les llama "residential IP"
  • Sitio de ejemplo con reseñas de servicios proxy:
    https://proxyway.com/reviews
  • En la superficie parecen ser infraestructura legítima, pero en realidad se basan en una estructura de propagación no autorizada y conversión en proxy

Conclusión: el web crawling ya llegó al nivel del abuso

  • El autor sostiene que toda forma de web crawling debería considerarse una actividad maliciosa
  • Considera que los web crawlers están atacando los cimientos de la web
  • La IA es el motor central de esta estructura, y rechaza con fuerza la idea de que eso sea "legal"

Propuestas y llamado de atención

  • Los desarrolladores que incluyen estos SDK deben rendir cuentas
  • Operadores de plataformas como Apple, Google y Microsoft deben sancionar este mercado
  • Para el usuario común es casi imposible identificarlo o bloquearlo
  • Los operadores web intentan frenar técnicamente a los crawlers, pero hay límites

“Gracias a la IA, la web se está convirtiendo en un espacio en el que ya no se puede confiar. Gracias, IA.”
– Jan Wildeboer, abril de 2025

1 comentarios

 
GN⁺ 2025-04-20
Comentarios de Hacker News
  • Que los desarrolladores de apps incluyan SDKs de terceros para generar ingresos es parte del problema, y cree que deberían asumir la responsabilidad por distribuir software malicioso a los usuarios

    • Sospecha que muchos SDK tienen este tipo de problemas
    • En lo personal, prefiere evitar la adicción a las dependencias y desarrollar las cosas por su cuenta
    • Los actores maliciosos aprovechan la adicción a las dependencias de los desarrolladores modernos para poner trampas
  • Existe un mercado en iOS, Android, MacOS y Windows donde se hace que los desarrolladores incluyan librerías para vender el ancho de banda de red de los usuarios

    • Esto está relacionado con por qué Cloudflare y Google exigen CAPTCHA
    • No se entiende por qué Play Protect, MS Defender y el antivirus de Apple no detectan este software malicioso
    • Que una librería SDK convierta el dispositivo del usuario en parte de una botnet es un ejemplo clarísimo de un troyano
  • El problema de la web es que, para que los datos sigan siendo legibles, cierto administrador de sistemas tiene que mantener el servidor

    • Si se usa un modelo de direccionamiento por contenido, se pueden eliminar las restricciones de unicidad
    • Los scrapers de IA podrían compartir los datos entre sí y no cargar a la fuente original
  • El software de compartición de red debería clasificarse como aplicación no deseada

    • Se instala junto con algo que el usuario sí quería instalar y abusa de los recursos
    • Le gustaría usar Wireshark para revisar si hay actividad sospechosa
    • Hace falta un repositorio público de apps que tengan este comportamiento
  • Las apps que incluyan software malicioso deberían ponerse en cuarentena de inmediato

    • Aunque no causen daño directo, siguen siendo malware
  • El web scraping debería considerarse abuso y los servidores web deberían bloquearlo

    • Plataformas como Youtube probablemente estarían de acuerdo con eso
  • Se pregunta si alguien ha compilado una lista de software que usa estas librerías

    • Sería bueno saber qué apps conviene evitar
  • Los proxies con IP residenciales tienen la debilidad de que las direcciones IP cambian con frecuencia

    • Las IP que provienen del mismo proveedor de proxy pueden detectarse con facilidad
    • Está desarrollando una plataforma antifraude de código abierto, y detectar usuarios falsos que llegan desde proxies residenciales es uno de los casos de uso
  • Hasta ahora no hay pruebas claras, pero este comportamiento puede detectarse con facilidad

    • iOS tiene funciones para revisar las conexiones de una app
    • Android no tiene esa función, pero se pueden usar firewalls de terceros como pcapdroid
    • En MacOS se puede usar Little Snitch, y en Windows, Fort Firewall
    • No mucha gente usa estas apps, pero es probable que reporten apps que usan sus dispositivos como botnet
  • Se pregunta si existe una lista de servidores c&c que se pueda agregar a Pihole y similares