11 puntos por GN⁺ 2025-06-20 | 1 comentarios | Compartir por WhatsApp
  • El fingerprinting del navegador es un método de rastreo en línea que no se puede detener solo borrando las cookies
  • Un equipo de investigación de la Universidad de Texas demostró casos reales de uso para rastreo mediante un framework de medición llamado FPTrace, analizando pujas publicitarias y cambios en registros HTTP
  • Cuando cambia el fingerprint, se detectan variaciones en las pujas publicitarias y una disminución en los registros HTTP
  • Incluso si se rechaza el rastreo conforme a leyes de privacidad como GDPR o CCPA, el rastreo basado en fingerprinting continúa
  • Los investigadores señalan que las herramientas y políticas de privacidad actuales son insuficientes y enfatizan la necesidad de reforzar tanto la regulación como las defensas técnicas

Websites Are Tracking You Via Browser Fingerprinting

  • Borrar las cookies por sí solo no protege completamente la privacidad en línea
  • Según una investigación reciente liderada por Texas A&M University, los sitios web rastrean a los usuarios entre sesiones y entre distintos sitios mediante un método llamado fingerprinting del navegador
  • El fingerprinting del navegador combina diversa información del usuario, como la resolución de pantalla, zona horaria y modelo del dispositivo, para generar un identificador único del navegador
    • A diferencia de las cookies, el usuario no puede eliminarlo ni bloquearlo fácilmente
    • La mayoría de los usuarios ni siquiera sabe que este tipo de rastreo está ocurriendo
    • Incluso los navegadores centrados en la privacidad tienen dificultades para bloquearlo por completo

Investigación profunda sobre el estado del rastreo web con el framework FPTrace

  • Es como una firma digital que dejas sin saberlo
  • Solo con la combinación del dispositivo y el navegador es posible rastrear fácilmente a un usuario aunque sea anónimo
  • El equipo de investigación realizó la primera demostración empírica del mundo de cómo se usa el fingerprinting en sistemas publicitarios reales
    • Desarrolló un framework de medición llamado FPTrace para analizar el impacto del fingerprint del navegador en las pujas publicitarias y en las comunicaciones HTTP
    • Al observar cambios en los valores de las pujas publicitarias, los registros HTTP y los eventos de sincronización cuando cambiaba el fingerprint, revelaron la realidad de este rastreo

Resultados del estudio e implicaciones

  • Incluso si el usuario borra o bloquea las cookies, el rastreo mediante fingerprinting continúa de forma persistente
  • Cuando se usa fingerprinting, algunos sitios web reflejan datos del fingerprint en el proceso de puja publicitaria del backend, y también se confirmó la posibilidad de que se transfiera información identificable a terceros durante ese proceso
  • Aunque se elija rechazar el rastreo conforme a leyes de privacidad como el GDPR europeo o la CCPA de Estados Unidos, el rastreo basado en fingerprinting no se detiene
  • Los investigadores enfatizan que las herramientas y políticas de privacidad actuales no son suficientes y sostienen que hacen falta defensas técnicas e institucionales más sólidas
    • Esperan que el framework FPTrace ayude a auditar si los sitios web y los proveedores de anuncios realizan rastreo sin consentimiento

1 comentarios

 
GN⁺ 2025-06-20
Opinión de Hacker News
  • Como alguien que trabaja en este campo técnico, siento que casi no se habla de cuánto tiempo persiste realmente una huella digital (fingerprint). En la práctica, incluso una huella muy precisa tiene una vida media de apenas unos días, especialmente si se construye con cosas como el tamaño de la ventana o la versión del software. Hoy en día, las principales redes publicitarias dependen más bien en gran medida de los datos de ubicación. Por eso también pasa que en el feed aparecen muchos anuncios que parecen conectados entre varios dispositivos o que reflejan los intereses de tu pareja o de tus amigos. Con solo la ubicación basada en IP ya se puede distribuir publicidad en un espectro muy amplio. Me parece interesante que FPTrace sea una herramienta para analizar el seguimiento de usuarios basado en huellas digitales, y me da curiosidad conocer su metodología concreta de investigación. Creo que es más probable que las redes publicitarias segmenten grupos de anuncios según la configuración del dispositivo más que por la huella en sí. Por ejemplo, los usuarios con software y hardware recientes pueden agruparse como un “segmento con alta intención de compra”. Incluso factores simples como la zona horaria influyen mucho en el resultado de las pujas publicitarias, así que me parece muy importante qué variables controlaron y cómo lo hicieron en este estudio

    • Revisé mi información en amiunique.org y, efectivamente, me clasificó como alguien único, ¡tal como decía mi madre! Aun así, el sitio no te dice qué factores habría que cambiar para dejar de ser único, y de las 58 propiedades de JavaScript, 16 están en la categoría de menor similitud. De esas, 2 dependen directamente de números de versión y 6 están relacionadas con tamaño/resolución de pantalla. Al final queda la impresión de que siguen existiendo varios datos que no cambian rápidamente. Con el tiempo los valores exactos pueden variar, pero la expresión “vida media de unos días” me parece una subestimación del efecto real de esta tecnología

    • Al maximizar una ventana en Windows, el tamaño de la ventana casi no cambia salvo que cambie el entorno, se reemplace el monitor o se actualice el entorno de escritorio. El hardware de la GPU tampoco es algo que cambie con frecuencia, y con WebGL o WebGPU es fácil usar características únicas para la huella digital. Las fuentes instaladas tampoco cambian a menudo. La huella del stack TCP también es bastante estable. Solo con unos pocos de estos factores, aunque una característica individual cambie, sigue siendo fácil vincularla con el clúster anterior de huellas. Lo más grave es que, si al mismo tiempo no borras identificadores del lado del cliente como las cookies, se pueden vincular claramente incluso dos huellas completamente distintas

    • Considerando que el tiempo de manejo de interrupciones de hardware y su latencia también pueden tener valores únicos según detalles como la combinación de apps instaladas o la versión del driver de la GPU, da la impresión de que la distribución solo cambia realmente cuando hay actualizaciones, y rara vez cambian todas las distribuciones al mismo tiempo

    • Siteimprove Analytics afirma públicamente que su tecnología de seguimiento sin cookies es más precisa que el seguimiento tradicional basado en cookies. Sostienen que Visitor Hash, al generarse con un hash de la IP y encabezados HTTP que excluyen información personal —tipo de navegador, versión, idioma, user agent, etc.—, resuelve el problema de la “vida corta” de las cookies tradicionales y mejora la precisión de las estadísticas de visitantes únicos. Sin embargo, solo usan atributos del lado del servidor y no recopilan atributos del cliente. En entornos como una intranet, donde entran muchos usuarios desde el mismo IP/dispositivo, varios usuarios pueden terminar con el mismo Visitor Hash y las visitas se agrupan como una sola, así que recomiendan excluir ese tipo de dominios del seguimiento sin cookies

    • Las huellas del navegador pueden hacerse muy robustas según los puntos de datos elegidos, por ejemplo plugins instalados, idioma del contenido, fuentes, etc. También es posible ajustar dinámicamente esos puntos de datos según el contexto o usarlos de manera distinta por usuario. Además, la huella es solo una parte del conjunto de datos total. Si se combina con otra información, como datos de ubicación, muchas restricciones o mecanismos de evasión pierden eficacia. Por ejemplo, si aparece una nueva huella con un 80% de similitud con una huella previa desde la misma IP del trabajo y la huella original desaparece, es fácil vincularlas. Las empresas de publicidad prefieren una “estrategia de escopeta” de segmentación amplia por razones de costo-eficiencia y defensa legal, pero organizaciones con fines distintos a la publicidad pueden rastrear con mucha más precisión porque disponen de más puntos de datos

  • amiunique.org enfatiza que el navegador revela mucha información, como resolución de pantalla, zona horaria y modelo del dispositivo, y que combinándola se puede crear una “huella”. A diferencia de las cookies, esta información de huella es difícil de borrar o bloquear para el usuario, por lo que es mucho más difícil siquiera detectarla o prevenirla. Irónicamente, cuanto más te obsesionas con reforzar la seguridad y privacidad del dispositivo, del sistema operativo y del navegador, más única se vuelve tu huella. Esto tiene una larga historia en el ecosistema FOSS, pero da pena que un navegador de código abierto realmente sólido no haya logrado volverse dominante. El monopolio fue demasiado rentable al principio, y en lo personal hasta pensé en crear un web scraper para acceso offline, pero concluí que era poco práctico

    • La frase “nunca despegó un navegador de código abierto decente” no es exacta. Firefox fue enormemente popular en su momento y hasta llegó a dominar por completo el mercado. Después Google lo fue desplazando con prácticas desleales, pero eso vino más tarde

    • Sorprende que Firefox durante tanto tiempo no haya tomado casi ninguna medida práctica para reducir la efectividad del rastreo por huellas. Incluso en 2025 sigue siendo difícil entender por qué el navegador envía por defecto un User Agent demasiado detallado (Mozilla/5.0 (X11; Linux x86_64; rv:139.0) ..., etc.). No hay ninguna necesidad de que un sitio sepa que uso X11 o Linux x86_64. El Referer también sigue activado por defecto. JavaScript también puede averiguar la lista de fuentes instaladas en mi sistema. Hace falta un control de permisos mucho más granular y valores predeterminados más razonables. Existen plugins relacionados, pero instalarlos y operarlos es engorroso

    • Hay navegadores como Brave que intentan evitar el rastreo aleatorizando la huella, pero personalmente dudo de su efectividad real. Otro enfoque es mezclarse con un entorno que usa mucha gente, como Tor, y optar por una estrategia de “ocultarse en la multitud”

    • En dos ventanas privadas distintas del navegador me identificó como un usuario único en ambas. Eso me deja la duda de si realmente no se puede vincular la huella entre pestañas privadas

    • Me pregunto por qué Firefox quedaría fuera bajo el criterio de “navegador de código abierto decente”

  • Ojalá hubiera una prueba mejor diseñada para medir “durante cuánto tiempo el rastreo por huella realmente identifica al mismo usuario” que coveryourtracks.eff.org o amiunique.org. Ambos sitios solo prueban unicidad, no persistencia. Por eso hasta un generador de números completamente aleatorio podría ser reconocido como huella. Las tecnologías reales de protección de huella suelen incluir salidas aleatorias, así que navegadores que sí hacen bien las cosas, como Tor, Safari o LibreWolf, terminan apareciendo como si fallaran en estos sitios

    • CreepJS es un sitio que le pone un nombre (firma) a tu huella y, cuando vuelves a entrar, puede comprobar si sigue siendo la misma

    • Escuché que fingerprint.com puede ofrecer este tipo de “prueba de resultados a lo largo del tiempo”. En el mundo de fingerprinting as a Service, está entre los mejores, con solo Meta y Google por delante

  • Ya todos intuían más o menos que “el rastreo por huella realmente está ocurriendo”, pero sin evidencia concreta era difícil demostrar que de verdad se hiciera “seguimiento entre dispositivos”. Este estudio propone un framework y un diseño experimental a gran escala para comprobar empíricamente si el rastreo por huella está ocurriendo en el ámbito publicitario. La mayoría de los artículos previos solo medían si se ejecutaban scripts relacionados con huellas, pero eso por sí solo no permitía saber si el propósito era rastrear o si se trataba de usos defensivos, como prevención de bots, fraude o autenticación. Este estudio resulta interesante porque manipuló artificialmente la huella del navegador y luego siguió los cambios en la publicidad para revelar el contexto real del seguimiento (enlace al paper). No pude acceder al texto completo, así que no pude revisar detalles más específicos

  • Las cookies se almacenan por separado para cada dominio dentro de una frontera de seguridad, pero la huella puede calcularse sin importar el dominio. Es fácil imaginar escenarios en los que servidores de anuncios y otros actores rastreen e identifiquen usuarios solo con la huella, y el problema es que incluso recolectando solo esa información ya se puede reunir información sobre la víctima

  • Sobre la pregunta “¿por qué el navegador expone por defecto tanta información a los sitios web?”,

    • El navegador en sí está compuesto por un sandbox de muchas funciones distintas (APIs). Cada función existe para la comodidad del usuario y, aunque individualmente no parezcan importantes, al combinarlas forman una huella única. Si de verdad quieres un entorno sin huellas, la conclusión es que habría que eliminar por completo todo el JavaScript de la web

    • Los desarrolladores querían estas APIs para ofrecer funcionalidades, y el impacto en la privacidad solo recibió atención cuando la situación ya se había vuelto “irreversible”

    • Gran parte de la información sí es realmente útil o necesaria. Algunas partes se pueden quitar, pero el resto funciona mediante “comparación y análisis del comportamiento resultante”. Por ejemplo, si renderizas cajas de texto con varias font-family, el tamaño real cambia según las fuentes del dispositivo, y eso en sí mismo puede usarse como huella

    • Cuando los navegadores reducen o eliminan cierta información, como la versión del sistema operativo en el user agent, empiezan a aparecer errores inesperados en muchos sitios. Por ejemplo, cuando Apple cambió solo la versión del user agent de 10 a 11, muchos sitios dejaron de funcionar. El campo Referer sí ha sido bastante limitado recientemente en los navegadores, omitiendo rutas o incluso el valor completo

    • Creo que en la cúpula de Mozilla siempre faltó una verdadera voluntad en materia de privacidad, seguridad y libertad. A veces el enfoque parecía ser solo “de marketing”, introduciendo cambios sin mucha eficacia o cuidándose de no chocar del todo con los intereses de las grandes tecnológicas. También me parece una lástima que ni siquiera en el W3C haya figuras que se enfrenten con más fuerza

  • Las apps rastrean al usuario mucho más agresivamente que los sitios web. La razón por la que los sitios insisten tanto en que instales la app es que muchas de las protecciones del navegador quedan anuladas en el entorno de la app. Las apps exigen inicio de sesión y luego pueden compartir libremente todos los datos con terceros

    • Mi app no hace ese tipo de rastreo. Ni siquiera pide correo electrónico, así que la app es la única forma de avisar sobre nuevas notificaciones. La app tiene ventajas en términos de persistencia, mientras que el sitio web es relativamente menos efectivo

    • En iOS existe la función “Solicitar a la app que no rastree” (Ask App Not to Track). Pero solo bloquea ciertos tipos de rastreo, no todo el rastreo

  • Sobre el hecho de que “el rastreo por huella realmente se usa de forma generalizada”, alguien señala que eso solo sorprende a “quienes no han leído documentación fuera del ámbito académico” o que “los proveedores responsables de tracking ya llevan años declarando explícitamente el uso de huellas”

    • El punto central no es tanto la ignorancia de la academia o de la industria, sino que este tipo de investigación es útil precisamente porque demuestra cuantitativamente cuánto y cuán eficazmente está ocurriendo hoy el rastreo por huella. Aunque los proveedores ya lo hubieran dicho por política, la magnitud y la efectividad reales son otra cuestión. Si este estudio validó la tasa de éxito del seguimiento incluso en entornos “benignos” como la publicidad, eso da una base para estimar cuán eficaz puede ser también para otros actores

    • La academia ya sabía desde hace años que se usaba el rastreo por huella. Antes incluso se usaban mucho técnicas con Flash para extraer directamente la información de las fuentes instaladas por el usuario (paper relacionado). Así que esa afirmación formal no coincide con la realidad

    • También existen desde hace mucho frameworks de código abierto para rastreo por huella como FingerprintJS. Al principio se usaban bastante para spam o para rastrear visitantes maliciosos

    • Aunque proteger la privacidad en línea es importante, también se argumenta que las contramedidas para bloquear el rastreo por huella no resuelven bien el problema real y, en cambio, vuelven la web más incómoda. La comparación sería que, aunque haya regulaciones, los actores maliciosos igual seguirán haciendo rastreo por huella, mientras que los sitios normales terminan con restricciones funcionales y eso produce un efecto contraproducente

    • Desde la perspectiva de la investigación académica, lo importante no es lo que diga la industria en sus políticas o avisos, sino asegurar “evidencia empírica” concreta, medible e irrefutable

  • Cada vez que entro a la página de huellas de la EFF, siempre me clasifica con una huella única. Si vuelvo una hora después, sigue igual. Ojalá el sitio diera el valor hash de la huella para poder compararlo meses después. Si de verdad mi huella cambiara cada vez, por un lado sería un alivio, porque rastrearla también sería mucho más difícil

  • Me genera escepticismo que se invierta tanto esfuerzo y tecnología en segmentación publicitaria. Yo bloqueo todos los anuncios por defecto, así que siento que todos estos esfuerzos de rastreo por huella terminan siendo en vano