1 puntos por GN⁺ 1 시간 전 | 1 comentarios | Compartir por WhatsApp
  • auto-identity-remove es una herramienta que busca sitios de data brokers usando nombre e información de ubicación y envía automáticamente formularios de exclusión voluntaria para ayudar a eliminar información personal de más de 500 sitios de búsqueda de personas y bases de datos de data brokers cada mes
  • El flujo de ejecución consiste en búsqueda por broker, detección de listas de perfiles específicos, envío del formulario de exclusión, resolución de CAPTCHA cuando sea necesario, omisión de elementos completados recientemente, notificación de resultados y apertura del navegador para sitios que requieren procesamiento manual
  • El seguimiento de estado guarda en state.json la última vez que tuvo éxito y el historial de ejecución, y el período de reverificación predeterminado es de 90 días, por lo que no vuelve a enviar cada vez las exclusiones ya completadas
  • Los formularios con CAPTCHA pueden procesarse mediante CapSolver, con un costo aproximado de $0.001 por resolución; si no se configura, ese sitio pasa a la lista de procesamiento manual
  • Los requisitos son Node.js 18+, macOS, Linux o Windows, y el navegador de Playwright; setup.js guía la captura de datos personales, alias, clave de CapSolver, cuenta de un solo uso, notificaciones y el registro de una programación mensual
  • La tarea mensual se registra para ejecutarse el día 1 de cada mes a las 9:00 a. m., y según la plataforma detecta y usa automáticamente launchd, systemd, crontab o schtasks
  • También admite ejecución con Docker, usando la imagen oficial de Playwright que incluye Chromium y dependencias del sistema; para conservar el historial de elementos completados entre contenedores, se debe montar state.json
  • Las notificaciones admiten un resumen de resultados por iMessage en macOS, y en entornos headless o con Docker se puede hacer POST de {"text": "<summary>"} mediante notify.webhook a ntfy.sh, Slack incoming webhook o Discord webhook
  • El soporte de brokers se divide en dos etapas, y los 42 brokers explícitos organizados en STATUS.md se mapean con selectores individuales, mientras que alrededor de 490 se manejan con un enfoque heurístico que intenta en orden el botón Do Not Sell, OneTrust, TrustArc, Osano, formularios genéricos y búsqueda de enlaces DSAR
  • ✅ Submitted solo significa que el broker recibió el formulario, no que garantice la eliminación; node watcher.js --verify vuelve a buscar los elementos exitosos registrados y los clasifica como VERIFIED CLEAR, STILL LISTED o UNVERIFIABLE
  • Entre los principales objetivos compatibles con procesamiento automático están Spokeo, WhitePages, FastPeopleSearch, TruePeopleSearch, BeenVerified, Radaris, Acxiom, LexisNexis, ZoomInfo y Clearbit, mientras que Google Results About You y Google Outdated Content se abren para procesamiento manual
  • Los usuarios fuera de EE. UU. pueden usar código de país, Province/Region, código postal, almacenamiento del número telefónico original y entrada en campos de selección de país, pero los brokers solo para EE. UU. como Spokeo, WhitePages y FastPeopleSearch se omiten automáticamente si el país configurado no es US
  • --dry-run solo realiza la navegación del sitio y el llenado de formularios sin enviarlos, y la función experimental --pollute N envía registros falsos a algunos brokers marcados con acceptsBogus: true, pero como se indica que puede violar los términos y generar riesgos legales, está desactivada por defecto
  • config.json, que contiene datos personales, state.json, con el historial de exclusión, y los logs de ejecución están incluidos en gitignore, y la licencia del repositorio es MIT

1 comentarios

 
GN⁺ 1 시간 전
Comentarios en Hacker News
  • Estoy harto de las llamadas y mensajes spam, así que hice un script que automatiza cada mes el proceso de opt-out de más de 500 data brokers
    La parte en la que necesito ayuda es que el enfoque heurístico deja fuera demasiados casos. Muchos sitios tienen flujos únicos, así que no se cubren con cuatro estrategias generales
    Hace falta alguien que valide qué sitios genéricos realmente funcionan y cuáles fallan en silencio, que agregue definiciones explícitas para brokers de alto valor, que pruebe fuera de entornos macOS y que maneje los flujos de verificación por correo electrónico
    Repo: https://github.com/stephenlthorn/auto-identity-remove
    El repositorio no contiene información personal; el script de configuración pide los datos localmente y están en gitignore
    • Me pregunto si el enfoque actual funciona en muchos sitios. El repositorio parece claramente vibe coded, o al menos muy apoyado en IA, así que es difícil seguir qué tanto ya está hecho y qué falta para que realmente funcione
      Para la verificación por correo, quizá se podría empezar con algo temporal como “haz clic en el enlace de confirmación del correo de cierto remitente”. Leer de forma confiable una bandeja de entrada real en varios proveedores probablemente requeriría, en la práctica, un cliente de correo, así que podría ser difícil
      Y quizá no venga al caso, pero este mismo comentario también parece generado por IA. Si es así, eso viola las reglas del sitio

      Don't post generated comments or AI-edited comments. HN is for conversation between humans.
      https://news.ycombinator.com/newsguidelines.html#generated

  • Lo probé en Canadá, pero recomendaba registrarse en otros servicios como Spokeo, pedía acceso al correo a través de la app Apple Mail que ni uso, había muchos 404 y muchos sitios requerían intervención manual
    La idea es buena, pero todavía hay muchísimo que pulir para que sea útil de forma general. Parece que códigos postales no numéricos y direcciones fuera de EE. UU. rompen bastante la automatización
    • Me sorprende bastante que se asuma que la gente usa por defecto servicios de Apple
  • Por allá de 2011, Yellow Pages todavía entregaba directorios telefónicos impresos a todas las direcciones de la provincia. Al día siguiente, mi ciudad enviaba un camión temporal de reciclaje aparte para recogerlos todos, y todo el mundo los tiraba
    Revisándolo con compañeros de trabajo, el formulario de opt-out solo requería la dirección. Pensamos en reunir todas las direcciones conocidas del país y enviar opt-outs automatizados durante varios meses para darlas de baja a todas, pero nunca lo hicimos; solo nos reímos imaginando en qué porcentaje de opt-outs los desarrolladores web de Yellow Pages habrían convocado una reunión de emergencia
    • Más o menos en la misma época, mi hermano rentó algunas habitaciones de su casa a personas que hacían entregas de directorios telefónicos. Era en otro país, pero parece que Yellow Pages estaba en todas partes
      Los repartidores no daban abasto y al final empezaron a apilar y quemar montones de directorios. Como a nadie le hacían falta, tardaron bastante en descubrirlos
    • Del lado de Yellow Pages probablemente habrían fingido no recibir los opt-outs, como hacen la mitad de las empresas de correo directo y los spammers
      Intenté bastante evitar que Uline enviara sus enormes catálogos de papel al apartado postal dos o tres veces al año. Tienen un formulario, pero simplemente ignoran la solicitud
      https://www.uline.com/CustomerService/ULINE_FAQ_Ans?FAQ_ID=4...
    • Hablando sobre la privacidad de los datos del proyecto con Australia Post, no pude evitar bromear con: “¿Ustedes no distribuyen regularmente datos personales de millones de personas cada año y dejan esa información frente a sus puertas para que cualquiera la vea?”
  • Lo que hacen no mejora realmente a la sociedad, así que una sociedad sana debería poder ilegalizar ese tipo de trabajo. Pero como no lo hacemos, no se puede
    • Claro que se puede ilegalizar. Bajo el GDPR, es mucho más difícil recolectar y vender datos personales a gran escala de manera legal
      Eso no significa que ya no ocurra, pero sí da una base legal para enfrentarlo. noyb.eu / Max Schrems y otros están haciendo un trabajo excelente y muy importante en ese frente
  • “Usa CapSolver para resolver CAPTCHA (basado en IA, aprox. $0.001 por resolución)”; con eso confirmé mis sospechas. ¿Yo era el único al que todavía le molestaban los CAPTCHA como antes?
    • Depende del tipo de CAPTCHA, pero hay una razón por la que Apple, Cloudflare y Google se están moviendo hacia la atestación remota (remote attestation) para verificar que eres humano
      reCAPTCHA v3 Enterprise y MtCaptcha cuestan nada menos que 3 veces más, a $3 por cada 1000 resoluciones. Así que estos parecen ser CAPTCHA atractivos para atacar
    • Me dieron ganas de pagar un servicio de resolución de CAPTCHA para hacer mi vida más fácil
    • Parece que también tienen extensión para navegador: https://www.capsolver.com/products/browser-extension
  • Parece que lo único atado a macOS es launchd, y esa información sería útil agregarla a la documentación. No sé si se puede ejecutar simplemente desde la CLI
    El soporte para systemd parece fácil. En Windows no sé bien qué se usa
    • Crear servicios en Windows es un poco más complicado. Windows usa una API real para servicios, no solo ejecutar procesos y depender de scripts
      Aun así, con el Programador de tareas puedes agendar de muchas maneras algo como ejecutarlo una vez al mes
    • Basta con usar sc.exe o tasksched
  • Para mí, lo más interesante es el seguimiento de estado y una ruta alternativa manual. En una herramienta así, de verdad debería existir un modo de simulación/auditoría que muestre qué campos se le van a enviar a qué broker antes de hacer el envío real
    El modelo de amenaza no está tan claro: la herramienta puede reducir la exposición, pero un selector roto también podría filtrar datos personales al lugar equivocado
  • Me pregunto si esto no será más bien una gran forma automatizada de enviar mi información a 500 data brokers
    • No revisé qué información hay que dar en el paso 3, pero si rellena y envía formularios de opt-out automáticamente, parecería que necesita más que solo nombre y dirección
      Una solución mucho mejor sería impulsar en EE. UU. una ley similar al GDPR
  • Al menos en California, el formulario DROP estará disponible en línea este otoño
    • Desde el lado de la industria, el 1 de agosto cuelga como una espada de Damocles sobre unos 500 data brokers registrados en California
      Para los consumidores ya está disponible. Puedes unirte junto con tus 275 mil vecinos
  • Interesante. Me pregunto si alguien lo ha usado durante un tiempo y si realmente sirve para reducir el spam