1 puntos por GN⁺ 1 시간 전 | 1 comentarios | Compartir por WhatsApp
  • Esta página muestra ubicación, dispositivo, navegador, idioma, GPU, batería, fuentes y preferencias del usuario usando únicamente los datos que el navegador entrega durante los primeros milisegundos tras la visita, sin exploits ni hackeos, y solo con funciones estándar documentadas públicamente
  • Envía la dirección IP de todos los encabezados de solicitud a ip-api.com · Free tier · CC-BY-SA para convertirla en una ciudad y el nombre del proveedor de internet; aclara que la consulta no se guarda y que en pantalla solo se muestran algunos octetos, aunque también podrían conocerse los demás
  • La huella de fuentes detecta las fuentes instaladas por el ancho del texto renderizado, Electronic Frontier Foundation · Cover Your Tracks ofrece una herramienta para comprobar qué tan único es un navegador, y un estudio de Princeton de 2014 encontró huellas de canvas en el 5% de los 100,000 sitios web principales
  • Aunque no se ejecutó en la página, existe la Clipboard API, que puede solicitar leer el último contenido copiado con un solo gesto del usuario; “The Leaking Battery” mostró la posibilidad de rastrear hasta 30 minutos con el nivel y tiempo de descarga de la batería, y también existe una técnica para detectar sitios con sesión iniciada mediante el favicon
  • Aclara que solo se enviaron al servidor dos eventos anónimos, llegada y finalización, y que no se guarda nada en cookies, localStorage, sessionStorage, IndexedDB ni en la caché del service worker; al cerrar la pestaña, olvida al visitante

La información que entregó el navegador justo al llegar

  • Todas las observaciones de taken. provienen de datos del navegador del visitante durante los primeros milisegundos tras la visita, sin exploits, vulnerabilidades ni hackeos, y usando solo funciones estándar documentadas públicamente
  • Ubicación

    • La dirección IP incluida en todos los encabezados de solicitud se envía a ip-api.com · Free tier · CC-BY-SA para convertirla en una ciudad y el nombre del proveedor de internet
    • La consulta es temporal y no se guarda en ninguno de los dos lados; en pantalla solo se muestran el primer y último octeto de la IP, pero se aclara que también pueden conocerse los demás
    • En el GDPR, una dirección IP puede considerarse dato personal cuando se usa para rastreo, y taken. no rastrea, conserva ni registra
  • API del navegador

    • Las observaciones del dispositivo como pantalla, navegador, idioma, GPU, número de núcleos, batería, fuentes y preferencias del usuario se obtienen mediante APIs estándar de JavaScript documentadas públicamente en MDN Web Docs · Mozilla · CC-BY-SA 2.5
    • Es un comportamiento posible por diseño del navegador, lo que lleva a la conclusión de que “el problema es el diseño”
  • Huellas de fuentes y canvas

    • La técnica de huella de fuentes, que detecta fuentes instaladas por el ancho del texto renderizado, está documentada desde 2010, y Electronic Frontier Foundation · Cover Your Tracks ofrece una herramienta para verificar qué tan único es un navegador
    • La mayoría de los navegadores son lo bastante únicos como para ser rastreados en la web abierta incluso sin cookies, y la combinación de fuentes es una de las señales más fuertes
    • Un estudio de 2014 de Princeton University · Web Transparency & Accountability Project documentó por primera vez la huella de canvas en la web real y la encontró en el 5% de los 100,000 sitios web principales
    • La huella de canvas funciona haciendo que el navegador del visitante dibuje una imagen oculta y luego leyendo de vuelta los píxeles renderizados como identificador; taken. no ejecutó esa técnica, pero el navegador sí la soporta
  • Portapapeles y batería

    • Según MDN · Clipboard API specification, con un solo gesto del usuario, como un clic o un toque, una página puede solicitar leer el último contenido copiado
    • Ese último contenido copiado puede ser una contraseña, una dirección o un borrador de mensaje; taken. no lo solicitó, pero la función existe en los navegadores modernos
    • El artículo de 2015 “The Leaking Battery”, de Olejnik, Englehardt y Narayanan, mostró que solo con la combinación del nivel de batería y el tiempo de descarga era posible rastrear a un visitante en varios sitios web durante hasta 30 minutos sin cookies ni cuentas
    • Firefox eliminó esa API en 2016, pero Chrome y Edge todavía la exponen

Técnicas que no ejecutó y datos que no dejó

  • Detección de sitios con sesión iniciada

    • Aunque taken. no la ejecutó, existe una técnica documentada, legal y ampliamente distribuida que hace que el navegador cargue la URL del favicon de un servicio específico y observa el éxito o fracaso para detectar en qué sitios hay una sesión iniciada
    • Aprovecha la diferencia entre las imágenes devueltas en estado conectado y desconectado, y permite saber sin permiso si hay inicio de sesión en servicios como Facebook, Google, X, GitHub, Reddit y LinkedIn, entre otros
  • El código de barras calculado dentro del navegador

    • Las 16 líneas que se muestran debajo del contador están compuestas por alturas derivadas de la GPU, fuentes, tamaño de pantalla, idioma, zona horaria, sistema operativo, navegador y profundidad de color
    • Los mismos datos producen el mismo código de barras, distintos visitantes ven códigos distintos, y el cálculo ocurre solo dentro del navegador y no se transmite
    • Si hubiera otra persona con exactamente la misma huella, vería las mismas barras, pero esa posibilidad es baja
  • Cómo se generan las frases

    • Todas las frases fueron escritas directamente por Matt, y en tiempo de ejecución ningún modelo de lenguaje las escribe ni las corrige
    • El código elige una de varias plantillas de frases ya escritas según los valores devueltos por el navegador, y si se encuentra con una condición que no puede tratarse con frases escritas por una persona, está hecho para no decir nada
  • Lo que se envió al servidor

    • Los únicos eventos enviados al servidor fueron dos eventos anónimos, llegada y finalización; no hay cookies, identificadores ni IP almacenadas
    • El servidor descarta el cuerpo de cada solicitud y no devuelve nada; el registro a nivel de transporte de que hubo una solicitud puede quedar en los logs durante el período de retención predeterminado del proveedor de hosting, normalmente unos pocos días
    • La mayoría de los sitios envían cientos de beacons adicionales a anunciantes, recolectores de huellas, herramientas de session replay y gestores de etiquetas, pero taken. solo envía dos a su propio servidor y lo avisa
  • Lo que guardó en el dispositivo

    • No guarda nada en cookies, localStorage, sessionStorage, IndexedDB ni en la caché del service worker
    • Los datos mostrados en pantalla se calcularon dentro del navegador y, salvo la consulta de geolocalización por IP y los dos eventos anónimos, no salen del dispositivo
    • Al cerrar la pestaña, taken. olvida al visitante, y junto con la publicación del código fuente concluye que “la mayoría de las páginas no pueden decir eso”
  • Contexto de la serie y creación

    • El Vol. I trata de lo que ocurrió en el mundo mientras el visitante permanecía allí, el Vol. II de los cielos que se perdió, el Vol. III de lo que ya estaba bajo sus pies y el Vol. IV se va estrechando gradualmente hasta llegar al propio visitante
    • La página fue creada por Matt en Rise Up Labs, y las ediciones posteriores se publicarán en X y Bluesky

1 comentarios

 
GN⁺ 1 시간 전
Comentarios de Hacker News
  • Ni siquiera estoy en esa ciudad. Si lo ves de forma amplia, apenas uso algo parecido a Chrome sobre algo parecido a Linux, y nadie puede deducir cuándo trabajo y cuándo duermo. Ni yo lo sé.
    Ese supuesto display premium moderno en realidad es la pantalla de una tablet barata que compré en un supermercado hace 5 años, y aun así la toma de huella del navegador molesta. Si pueden detectar el modo claro, ¿no podrían respetar también esa configuración?

    • La cantidad de huella digital que muestra esta página no es nada comparada con lo que pasa en la web real
    • También se equivocó con el porcentaje de batería y con el estado de carga. Lo de respetar el modo claro es cierto, pero aun si lo hicieran, igual probablemente sería una pantalla basura de bajo contraste
    • Dice que estoy en “Los Angeles”, pero solo porque mi zona horaria es esa. Actúa como si hubiera ganado puntos de “te pillé” porque tengo dos idiomas de entrada, pero simplemente uso mucho el segundo idioma.
      Dice “English · Chinese” y que el idioma principal del navegador y los idiomas adicionales revelan dónde creciste, dónde vives e incluso con quién vives, pero tener inglés y chino como idiomas de entrada no revela eso. Es como decir que “el hecho de navegar por internet desde un teléfono revela que eres una persona capaz de acceder a internet desde un teléfono”. La tecnología interactúa entre sí, así es como funciona la tecnología. Es orwelliano, pero otra cosa es si es más orwelliano que los Estados de vigilancia como Rusia/China/Corea del Norte. Compartir ubicación puede servir para encontrar teléfonos, autos y dispositivos, la actividad en línea puede servir para encontrar criminales, y también para registrar delitos o incidentes donde haya que exigir responsabilidades a la policía. Ver la intrusión excesiva de la tecnología como un desastre es una elección cognitiva, pero está bien ser conscientes de lo que nuestra tecnología “sabe” sobre nosotros
    • Con Apple Private Relay VPN, la ubicación salió desviada por cientos de millas. Siempre es interesante ver dónde creen los sitios o servicios, según sus bases de datos de geolocalización, que uno está; si lo apago, me ubican dentro de unas pocas millas. Por suerte casi ningún sitio bloquea el VPN de Apple, así que no hace falta apagarlo.
      Lo del modo claro me representa totalmente. Tengo treinta y tantos, pero algunos de estos sitios en modo oscuro me hacen sentir como si tuviera más de 80. En este sitio de verdad no se ve nada
    • A mí tampoco. Me pone Brussels, pero en realidad estoy en Antwerp. La resolución de pantalla también está mal
  • Ojalá los defensores de la privacidad hablaran de manera normal хотя sea una vez. Tratar de presentar como algo malvado que el navegador tenga acceso a la zona horaria no va a convencer a nadie

    • “Prefieres una interfaz oscura — el sistema operativo nos lo dijo.” O sea, ¿da miedo que mi configuración haya funcionado como fue diseñada?
    • De acuerdo. No me molesta mucho que usen información como mi idioma, si uso modo oscuro o no, o mi zona horaria, porque puede servir para dar una mejor experiencia de usuario
    • Es el típico estilo breve de LLM que hace sonar todo dramático, me produce la misma sensación que uñas en un pizarrón
    • ¡Pero si soy la única persona en el mundo en esta zona horaria, entonces ya me identificaron de forma única!
  • El punto no es si la información es correcta o no. El punto es que puede servir para identificarme sin cookies. Buscando un sitio mejor, me pareció útil el de la EFF.
    Me salió que mi huella del navegador es única entre los visitantes de los últimos 45 días: https://coveryourtracks.eff.org/

    • A mí me dice “Tienes protección fuerte contra el rastreo web”. Incluso sin desactivar JavaScript y manteniendo los sitios funcionales, es imposible no amar Firefox + uBlock Origin en modo avanzado
    • ¿No debería pasar que, si ejecutas varias veces un sitio de esos, no salga como única cada vez?
    • Al menos en Europa, aunque usen toma de huella digital en vez de cookies, igual aplica el GDPR. Si van a usar esta información, tienen que divulgarlo y tratar los datos conforme a la ley
    • Eso de que “da igual si el miedo, la incertidumbre y la duda no son precisos” suena medio raro
    • Aun así, prefiero que la información sea inexacta. Si los sitios van a intentar rastrearme de forma invasiva, al menos puedo darles datos basura únicos
  • Si visitas sin JavaScript, dice: “Si JavaScript está desactivado, la página no puede decirte qué reveló tu navegador. Los datos siguen ahí. La divulgación sigue ocurriendo. Lo único que se detiene es que te lo diga.”
    Este tono exagerado de LLM me resulta muy irritante, pero al menos agradezco que me dé una señal clara de que puedo ignorarlo por completo

  • No sé si será porque estoy viejo o porque llevo casi 30 años trabajando con software de internet, pero nada de esto me parece sorprendente ni alarmante.
    Alguien levanta un servidor que acepta conexiones, y alguien envía una solicitud de conexión a ese servidor. No hubo ningún acuerdo, y no se fijaron expectativas ni reglas. El servidor no está obligado a aceptar todas las solicitudes de conexión, ni nadie está obligado a enviarle solicitudes. Lo que el servidor devuelve y cómo el cliente procesa eso depende de cada uno.
    Siento que ese acuerdo, o esa ausencia de acuerdo, aplica a ambos lados. No creo que el usuario deba enojarse porque un sitio use la información de la solicitud como quiera, pero tampoco el sitio debería enojarse porque yo procese los datos recibidos como quiera. Es decir, el sitio puede recordar mi IP y los detalles de la solicitud tanto como quiera, y yo puedo hacer lo que quiera con la respuesta: bloquear anuncios, rechazar solicitudes posteriores indicadas por el sitio, o mostrar la respuesta como me dé la gana. Yo pedí los datos, y ellos enviaron los datos.
    Si hay información sobre mí que no quiero revelar, no debería enviarla en la solicitud. Si quieren que yo entregue datos solo cuando me muestren anuncios, deberían hacerme aceptar eso antes de que se envíen los datos. Claro, en la práctica la mayoría no sabe qué hace su navegador, tampoco tiene muchas opciones reales sobre lo que envía, y el internet ya no es algo opcional en la vida. Además, por cosas como los DDoS, una estructura totalmente de “todo vale” tampoco es realista. Aun así, tengo la intuición de que no deberíamos esperar demasiado de ninguna de las dos partes cuando hacemos una solicitud en internet

    • Ese es el problema fundamental. El navegador debería ser el agente del usuario. Incluso se llama User Agent. Debería trabajar para el usuario, el usuario debería saber qué hace el navegador, y el navegador no debería hacer cosas que el usuario no entienda y no haya consentido explícitamente. La autoridad final sobre lo que envía mi navegador debería ser mía, y el navegador debería hacer trivial ejercer esa autoridad.
      En la realidad, el navegador es agente de alguien más. Trabaja para los desarrolladores web, dándoles toda clase de cosas que les facilitan la vida. Trabaja para los anunciantes, dándoles pistas de rastreo y huellas digitales. Trabaja para los desarrolladores del navegador, reuniendo métricas, telemetría y quién sabe qué otros datos. Pero ya no trabaja realmente para mí. Yo solo soy un pasajero dentro del auto.
      Entiendo que la dirección IP no es algo que el navegador pueda controlar y que, para conectarse a un sitio, inevitablemente tiene que revelarse. Pero que en el estado predeterminado, sin VPN, una IP pueda mapearse de forma confiable a un país, estado/provincia y a veces hasta ciudad, es una falla de diseño espantosa. Es un gran problema de diseño en cómo se asignan las IP. En un mundo mejor, la dirección IP por sí sola no debería revelar la ubicación geográfica de alguien
    • Frases como “también sabemos el resto. Elegimos no mostrarlo. La mayoría de las páginas probablemente no habría tomado esa decisión” parecen escritas para asustar niños. Encima, lo que muestra ni siquiera es mi proveedor de internet. A lo sumo quizá sea el proveedor aguas arriba de mi ISP
    • Yo también estoy viejo, pero quizá por idealista, y sí creo que muchas de estas funciones se agregaron con un propósito claro.
      Que el cliente envíe encabezados de idioma o una lista de fuentes soportadas no significaba que el servidor pudiera “hacer con estos datos lo que quiera”. Cuando hicimos los estándares, había razones reales para eso. Que los proveedores de sitios web, y más específicamente las redes publicitarias, decidieran usar estas cosas para otros fines es romper ese acuerdo implícito. Claro, quizá yo estoy esperando demasiado
    • La ubicación fue ridículamente inexacta, y como alguien que escribe aquí, sé por qué. Lo de ocultar la dirección IP fue medio infantil, pero si sigues bajando mejora.
      Sí supo cuánta batería le quedaba a mi teléfono y acertó en sus inferencias sobre el dispositivo. Leyó correctamente el giroscopio y la interacción con la pantalla táctil, y mostró cómo esas cosas pueden usarse para identificación e inferencia. Incluso puede inferir si estás sentado, de pie o acostado. Al principio va lento, pero más adelante se pone interesante
    • Parece que los viejos técnicos como nosotros todavía quieren creer en el ideal tecnolibertario de la vieja web. Pero para eso hay que ignorar bastante los ideales capitalistas y autoritarios de la web moderna.
      El enfoque de que nadie le debe nada a nadie funcionaba bastante bien en el pasado, cuando más o menos se asumía que la mayoría actuaba de buena fe. Pero una vez que el dinero y el poder de internet se volvieron reales, la relación se volvió más adversarial. Los supuestos de confianza y la ausencia de responsabilidad facilitan que una parte explote la buena fe de la otra. Y por el desequilibrio técnico y de poder inherente a la estructura servidor-cliente de la web, ese abuso también tiende a fluir en una sola dirección
  • El sitio es bonito y el texto exagerado es divertido, pero hay demos de huella digital mucho mejores.
    La cantidad de puntos de datos que muestra aquí es pequeña. Hay muchas más cosas que se pueden comprobar, y varias parecen estar mal. Solo detectó explícitamente una cosa como “withheld”, pero en realidad parece que hay varias ocultas y eso distorsiona la salida. Necesita control de calidad

    • El tono exagerado es bastante gracioso. Se siente como: “Estás en [ciudad equivocada]. Podríamos enviarte un equipo ninja para matarte ahora mismo, pero hemos decidido no hacerlo. De nada”
    • En resumen, es otro proyecto de chatarra generado por IA. Ya vi este estilo de UI decenas de veces, y siempre viene acompañado de frases largas y exageradas que se notan a la legua
  • Se siente como si hubieran hecho vibe coding de EFF Cover Your Tracks. Que esto haya llegado a la portada da más miedo que el contenido en sí

    • Sí. Parece una página a la que le dijeron: “clona esto sin que se note y métele un tema vistoso de landing page”. Es fea
    • Lo publicó una cuenta con 21 días de antigüedad, que nunca comentó nada y ni siquiera sigue este hilo. Nunca respondió y probablemente nunca lo hará. Que envíos así no se reporten está arruinando Hacker News
  • Aquí se puede ver mucho más. También hay bastante trabajo previo sobre supercookies y huella digital.
    https://coveryourtracks.eff.org/
    https://amiunique.org/

    • Interesante. Probé el sitio de la EFF y, entre otras cosas, me salió que soy “MacIntel”. Me sorprendió porque pensé que todavía estaba corriendo la build x86 de Firefox
    • Ambos están enlazados en el modal de Sources & Confessions al final. Cover Your Tracks es el ancestro espiritual de todo este trabajo, y amiunique es más riguroso. Esto sería como su primo de edición pirata
    • También hay otra herramienta para revisar fugas de información: https://www.ipleak.com/full-report/
  • Vaya, parece que alguien que usa ChatGPT descubrió el concepto de encabezados del navegador y luego le puso frases raras como “decidimos no decírtelo”.
    Si de verdad quieres saber qué envía tu navegador, mira aquí:
    https://browserleaks.com/
    https://coveryourtracks.eff.org/

  • “No pedimos tu ubicación. Tu dirección llegó antes que tú” es una tontería. Si buscaron mi ubicación en una API/servicio de geolocalización usando mi dirección IP como clave, entonces sí pidieron mi ubicación.
    Y para que funcione la comunicación por internet, la IP es casi indispensable. Hay formas de usar servicios que la ocultan, pero entonces ese servicio pasa a tener mi información

    • No. El navegador sí tiene un mecanismo para pedir la ubicación, y el “pedimos” de aquí significa que no usaron ese mecanismo. La parte importante es que no te preguntaron a ti como usuario.
      Si tienes un diccionario, no necesitas preguntarle a tu interlocutor el significado de una palabra; puedes buscarla en el diccionario. Una palabra puede tener varios significados o ser coloquial, así que puedes inferir mal. Para corregir esa inexactitud podrías necesitar otros puntos de datos, como el contexto de la conversación, o pedirle confirmación directamente a la otra persona
    • Creo que lo leíste mal. No significa “no se lo preguntamos a nadie”, sino que no se lo preguntamos directamente al usuario.
      Y claro que la dirección llega antes. Si no, no tendrían cómo devolverte los datos que pediste
    • Los proxies multisalto tipo Tor, según cómo estén estructurados, se conocen por no poder correlacionar la IP de origen con la IP de destino