Prohíben la inyección de ruido en los productos estadísticos publicados por el Census Bureau
(desfontain.es)- La inyección de ruido usada para crear estadísticas públicas a partir de conjuntos de datos confidenciales es una herramienta de evitación de divulgación que oculta la información personal de los datos originales mientras mantiene la utilidad estadística.
- Una orden del Departamento de Comercio de EE. UU. prohíbe la inyección de ruido en todos los productos estadísticos del Census Bureau y del Bureau of Economic Analysis, apuntando directamente a la privacidad diferencial.
- El Census Bureau usó principalmente intercambio de registros en los censos decenales de 1990 a 2010, pero después de que se evidenciara lo fácil que era reconstruir registros individuales a partir de estadísticas públicas, adoptó privacidad diferencial para el censo de 2020.
- La privacidad diferencial combina la limitación de contribución con una adición de ruido cuidadosamente calibrada para ofrecer mayor utilidad con un nivel de privacidad similar.
- Si se elimina el ruido, las futuras publicaciones estadísticas podrían volverse mucho menos útiles que antes o convertirse en datos muy inseguros.
Contexto
- Los productos estadísticos son varios números publicados a partir de conjuntos de datos confidenciales, y cuando esos conjuntos contienen información sensible, los números publicados no deben revelar esa información.
- El U.S. Census es un caso representativo: se publican estadísticas, pero el contenido de los formularios individuales completados por residentes de EE. UU. debe mantenerse en secreto.
- En estadística, las técnicas para publicar estadísticas útiles mientras se protege la privacidad de los datos originales se conocen como evitación de divulgación.
- Entre estas técnicas están la supresión, que elimina datos que no superan ciertos umbrales; la generalización, que hace los atributos menos precisos; y el muestreo, que elimina algunos registros al azar.
- Las técnicas de evitación de divulgación también incluyen el intercambio de registros, que cambia aleatoriamente atributos entre distintos registros; la limitación de contribución, que restringe el impacto máximo de una sola persona; y la adición de ruido, que suma números aleatorios a las estadísticas.
-
Privacidad diferencial y el censo de 2020
- Al combinar algunas técnicas se puede lograr privacidad diferencial, ampliamente considerada entre científicos como el estándar de oro en protección de la privacidad.
- La privacidad diferencial suele depender de una combinación de limitación de contribución y adición de ruido cuidadosamente calibrada.
- El Census Bureau usó principalmente intercambio de registros en los censos decenales desde 1990 hasta 2010.
- Más tarde reconoció que el intercambio de registros no era muy seguro y que era fácil reconstruir registros individuales usando solo estadísticas públicas.
- Como la agencia está legalmente obligada a mantener esos registros confidenciales, probó varias alternativas y adoptó privacidad diferencial para el censo de 2020 como el método que mejor preservaba la utilidad de las estadísticas mientras bloqueaba esos ataques.
-
Caída de utilidad y resistencia
- La privacidad diferencial no se eligió por la elegancia de sus matemáticas, sino porque entre varias opciones para mitigar ataques era la que más conservaba la utilidad de los datos.
- Los parámetros exactos de privacidad tampoco se eligieron por ofrecer garantías de prueba especialmente fuertes, sino para llegar a un nivel aceptable de protección de privacidad maximizando al mismo tiempo la utilidad de los datos.
- Decir que preservaba la mayor utilidad bajo restricciones de privacidad recién descubiertas no significaba que mantuviera la misma utilidad que el censo de 2010.
- Los números se volvieron menos precisos, y la imprecisión pasó a ser mucho más transparente, por lo que ya no era fácil ignorarla.
- Los demógrafos y científicos sociales ya no pudieron ignorar que estaban trabajando con datos con ruido, y se volvió necesario un gran cambio en la forma de conceptualizar y manejar esos datos.
- Quienes realmente usaban datos del Census para reconstruir registros individuales ya no pudieron hacerlo, y los demógrafos reconocieron que eso era una práctica común.
- También es un secreto a voces que operadores políticos hacían este tipo de reconstrucción como parte de esfuerzos de manipulación de distritos electorales.
Contenido de la orden
- El gobierno decidió que la inyección de ruido ya no es una técnica aceptable de evitación de divulgación.
- La orden apunta claramente a la privacidad diferencial, pero parece afectar también a otras técnicas que implican aleatoriedad.
- El texto de la orden especifica que siempre debe priorizarse la generalización y que la supresión solo debe usarse como “último recurso”.
- No está claro por qué la orden es tan específica.
- La orden aclara cuidadosamente que “no debe interpretarse de una manera que entre en conflicto con la Constitución, las leyes, las regulaciones u otras disposiciones legales”, y las obligaciones de confidencialidad sobre esos productos estadísticos siguen vigentes.
Impacto real
- Las consecuencias podrían ser graves para la utilidad, la privacidad o ambas.
- Las futuras publicaciones estadísticas podrían ser menos útiles que las publicaciones pasadas, o tan inseguras que cueste creerlo.
- Cuando se elimina una herramienta útil de la caja de herramientas de evitación de divulgación, la compensación entre privacidad y utilidad siempre se vuelve más dolorosa.
- El objetivo de esta línea de investigación es entender y cuantificar mejor los riesgos de privacidad, y desarrollar mejores herramientas para mitigarlos mientras se preserva la utilidad.
-
El lugar de la privacidad diferencial
- En la publicación de estadísticas, la privacidad diferencial es actualmente la mejor herramienta disponible.
- La privacidad diferencial ofrece una forma de cuantificar con más precisión esa compensación, y extrae más utilidad de los datos que las técnicas competidoras con niveles de privacidad similares.
- Si se elimina la privacidad diferencial, solo quedan técnicas con menor utilidad para un nivel de privacidad parecido, o peor privacidad para la misma utilidad.
- Las técnicas competidoras también dependen de la adición de ruido.
-
Otras técnicas también usan aleatoriedad
- El Cell Key method, usado por otras agencias estadísticas, añade ruido a las estadísticas.
- El intercambio de registros que usó el Census de 1990 a 2010 también introduce aleatoriedad en el proceso.
- El muestreo se usa ampliamente en todo el trabajo estadístico.
- La imputación) también añade ruido a los datos en términos técnicos.
-
Límites de la generalización y la supresión
- La generalización y la supresión son herramientas muy toscas.
- Solo funcionan cuando las estadísticas ya son muy gruesas y la cantidad de estadísticas publicadas es pequeña.
- En productos de datos complejos con muchas estadísticas sobre grupos pequeños, como el U.S. Census, la generalización y la supresión terminan destruyendo toda la utilidad de los datos o dejándolos muy vulnerables a ataques de privacidad.
- La destrucción de utilidad se nota especialmente en los grupos minoritarios.
-
Por qué el ruido dificulta los ataques
- Los ataques de privacidad contra publicaciones estadísticas se parecen a resolver sistemas de ecuaciones.
- Esa tarea se vuelve mucho más fácil cuando se sabe con certeza que todas las estadísticas son perfectamente exactas.
- El ruido obliga al atacante a calcular probabilidades, cuantificar incertidumbre y considerar cuidadosamente las líneas base.
- La aleatoriedad es útil para la evitación de divulgación incluso sin garantías formales, y hace que los ataques sean mucho más difíciles.
- Si se elimina la aleatoriedad, los ataques se vuelven triviales.
Por qué está ocurriendo esto
- No se conocen las motivaciones.
- No está claro si el objetivo es obligar al U.S. Census a publicar estadísticas que permitan una reidentificación real para ayudar en futuros esfuerzos de manipulación de distritos electorales.
- Tampoco está claro si el objetivo opuesto es impedir la publicación de datos demográficos útiles para que los investigadores no puedan mostrar desigualdades injustas dentro de la población.
- La navaja de Hanlon ofrece una interpretación alternativa.
- La publicación de datos estadísticos implica una compensación fundamental entre privacidad y utilidad, y esa compensación es un problema incómodo.
- Sería una situación mucho más fácil si publicar muchas estadísticas no implicara automáticamente un alto riesgo de privacidad.
- La privacidad diferencial hace explícita esa compensación y, por lo tanto, vuelve imposible ignorarla.
- Prohibir la privacidad diferencial puede ser una forma de fingir que el problema no existe y esperar que desaparezca.
1 comentarios
Comentarios de Hacker News
Trabajé como encuestador del censo durante el último censo, y la confianza de la comunidad ya era baja, aunque también tuve muchos encuentros interesantes
Mientras recolectaba datos bastante invasivos con una cara amable, de verdad creía que esos datos se usarían y resguardarían de forma responsable
Ahora que se ha derrumbado el cortafuegos que impedía que los datos sensibles del gobierno se usaran como arma o se monetizaran, me da pena la gente que irá casa por casa en 2030, y más aún quienes den voluntariamente información que podría perjudicarlos
También me parece curioso el comentario de que “el censo caro solo necesita contar cabezas”. Los datos recolectados eran una línea base importante para el entendimiento común, y esto no le hará ningún bien a su calidad en el futuro
Por cierto, como me asignaron sobre todo hogares sin respuesta, naturalmente daba la impresión de que la gente de mi zona odiaba al gobierno, ignoraba volantes extrañamente amenazantes, o se había mudado hacía poco y no conocía a quienes vivían ahí durante el periodo de la encuesta
Desde encuestas nacionales de opinión con decenas de miles de personas hasta pequeñas encuestas comunitarias, todo depende de esto
Los resultados del censo, que logran la participación más diversa, le dan a Estados Unidos beneficios casi ilimitados, y favorecen a todos, desde los periódicos nacionales hasta los condados rurales
Si las comunidades más pequeñas pierden incluso la poca confianza que les queda en la privacidad del censo, serán las que más pierdan en todos estos sentidos
Y también es desalentador que la gente siga sintiéndose atraída por un partido que dice abiertamente y con orgullo que quiere abusar de estos datos
Eso disparó mucho la desconfianza hacia el gobierno, y ya era difícil lograr que la gente respondiera encuestas
Es difícil imaginar por qué una persona común creería que la Census Bureau realmente va a mantener sus datos a salvo
No importa lo que diga la ley o la Constitución: si trabajas para alguna agencia, pronto te ven como gobierno. Las tasas de respuesta siguen bajando, y ahora el presidente incluso ataca las estadísticas económicas
Viéndolo con cinismo, parece que seguirán reduciendo a las agencias estadísticas y haciendo que las estadísticas sean cada vez menos útiles. Este cambio de política también va en esa dirección, y al final intentarán pasarlo al sector privado
Pero el sector privado no puede hacer el trabajo que el gobierno hace sobre el terreno
Se necesita información precisa para elaborar planes de mejora y hacer la vida mejor para todos
La actitud de “solo hay que contar cabezas” revela de forma interesante la manera de pensar de mucha gente hoy
Parece que no quieren mejorar la vida, o ni siquiera pueden imaginar cómo hacerlo. Es realmente triste
Esta semana, en la convención estatal republicana de Texas, propusieron una enmienda para agregar al borrador de la plataforma una postura contraria a la privacidad diferencial
Según cuentan, alguien que había participado en el censo lo justificó con el ejemplo de que 1 persona sin hogar bajo un puente podría convertirse en 5 por culpa de la privacidad diferencial, así que sería algo ridículo a simple vista
No sé si se aprobó, pero así es la presión de base que empuja este tipo de cosas
Me parece bastante triste. En un escenario ideal, el Estado debería poder ver cómo está compuesta la población que existe hoy, para que podamos tomar buenas decisiones sobre la organización que administramos entre todos
Dañar intencionalmente la infraestructura de recolección de datos me parece un error del que nos vamos a arrepentir después
Creo que gran parte del éxito de Estados Unidos vino de buenas instituciones capaces de manejar datos detallados. Eso permitió ajustar las políticas a los resultados con más rapidez
Entiendo por qué la gente quiere reducir toda capacidad estatal. Sienten que el gobierno está lleno de sus opositores y que esa capacidad se usará contra ellos
Pero cuanto más se debilita su poder relativo, menos capacidad hay para vencer esa inercia, el gobierno se vuelve menos competente y al final la vida empieza a empeorar
No se necesitan datos a nivel de vivienda de inmediato, pero puede haber excepciones, como ubicar bloques censales en los distritos electorales correctos. Aun así, por encima de cierto nivel de agregación, se debería usar la mejor información posible
Solo vuelve más tonto al gobierno, de modo que después, aunque quiera hacer lo correcto, no pueda tomar decisiones eficaces porque no tendrá la información necesaria
La federación solo necesitaría quedarse con los datos agregados
No es un problema de “toda” capacidad estatal; el Estado solo debería tener la capacidad absolutamente mínima necesaria para hacer lo que deba hacer
Por ejemplo, recolectar información racial no es absolutamente necesario, así que no debería hacerse
Porque en el futuro el gobierno puede llenarse de opositores. Más aún, los mayores daños causados por actores estatales han surgido de manera constante no de la maldad deliberada, sino de intentos de “ayudar”
Si te importa un censo preciso, en realidad deberías celebrarlo
El censo presupone cierto nivel de confianza sin importar lo que se haga
La confianza de que estos datos no quedarán identificados de manera que puedan usarse para fraude, fraude financiero u otros abusos
Pero en Nueva York los registros de compraventa de viviendas son públicos, y como efecto secundario muchas hipotecarias envían cartas disfrazadas de solicitudes de pago
La privacidad diferencial es absolutamente necesaria, y que los científicos sociales no puedan reconstruir datos a nivel individual es un resultado intencional
Para la mayoría de los fines basta con una descripción macroscópica, y exigir más que eso equivale a pedir un Estado de vigilancia
En Alemania no es común que una hipoteca o el banco que la posee se venda de mano en mano como si fuera una papa caliente a otro incauto, así que una carta así despertaría sospechas de inmediato
Está prohibido en el conjunto de datos, y se puede agregar en la etapa de análisis. Se puede elegir el tipo de ruido que se quiera.
No tengo muy claro la implicación política aquí, pero en cierto nivel se necesita una línea base real que incluya “esta persona/hogar se negó a responder”.
Aun así, publicar los datos sin procesar parece dispararse en el pie desde la perspectiva de la seguridad nacional, y además hay muchas otras razones para no hacerlo.
Hay muchísimas formas de hacer esto mal, y por eso se ha invertido tanto análisis en la privacidad diferencial.
Puede que no sea tanto que la privacidad diferencial haga explícito este conflicto y vuelva imposible ignorarlo, sino que se está diciendo que uno de los dos objetivos vale más que el otro y no debe sacrificarse.
Sorprende que aquí haya reacciones de “hay que publicarlo todo”, porque son un pensamiento unidimensional en el mal sentido.
El censo solo consiste en hacer preguntas.
Si empiezas a publicar y convertir en arma datos sobre personas con distintas características, la gente simplemente va a mentir o dejará de responder.
Y entonces lo que queda son datos peores que no tener nada, porque la gente intentará actuar en función de esos malos datos.
Eso ya pasó al menos una vez hace no mucho en otro país, así que no me parece que la preocupación sea una sobrerreacción.
El ejemplo más evidente es que la Census Bureau elaboró listas de personas de origen japonés durante la Segunda Guerra Mundial para usarlas en el internamiento.
Y creo que el impulso real ahora está en crear listas para quitarle el derecho al voto a la gente.
El censo existe para proporcionar información con la que decidir la representación. Todo lo demás es adicional.
Se puede tener datos a nivel de condado o distrito electoral, pero a medida que sube la resolución se deberían eliminar datos, de modo que a nivel de vecindario o manzana solo queden los conteos de población.
Saber la raza, etnia o contexto socioeconómico de quienes viven en una manzana solo sirve para discriminarlos.
Yo espero a que venga el censista y solo digo cuántas personas viven en mi domicilio.
Eso es necesario para una representación electoral adecuada, y fuera de eso no hace falta nada más.
Es demasiado difícil reconciliar estas ideas.
Dicen que el censo de 2020 adoptó privacidad diferencial, y que si se quita este único filtro habría “consecuencias terribles” para la utilidad, la privacidad o ambas.
Pero se ha hecho el censo durante cientos de años y todo iba bien, y solo en el último censo se agregó este elemento de privacidad.
Si quitar una sola de esas cosas de pronto crea una situación terrible, suena raro. Antes ni siquiera existían esas funciones de privacidad, así que en realidad parecería que estamos mucho mejor que hace siglos.
Por eso se siente como un problema exagerado en lo emocional.
Ataques contra la privacidad que antes eran imposibles por costo ahora son posibles por centavos.
Además, como ya se señaló, la gente ya ha usado datos del censo para manipular distritos electorales, así que estos ataques son reales y vienen ocurriendo desde hace mucho tiempo.
Antes podía considerarse que reconstruir registros individuales no era realista, al menos a gran escala. Hoy ya no se puede decir eso.
Una contraseña de 4 dígitos quizá habría sido segura durante cientos de años, pero hoy, por la misma razón, es una irresponsabilidad de seguridad.
Muchas de las técnicas que hoy se usan para reidentificar datos requieren una capacidad de cálculo que antes no estaba disponible.
Incluso cuando eran posibles, los recursos limitaban la escala. Lo digo como alguien con título en estadística.
Además está la conectividad: internet, redes sociales, rastreo web y hackeos han multiplicado las fuentes de datos para contrastar.
En los años 70 y 80, la huella de registros de un estadounidense era dramáticamente menor que la de hoy.
Lo que pasa es que las protecciones anteriores no eran fuertes y podían romperse, por eso fueron reemplazadas por otras más fuertes.
1990 fue la época en que se popularizaron las computadoras personales y explotó la capacidad de cómputo disponible para individuos, y desde entonces se volvió posible separar información personal de los datos que hacía públicos el censo.
Ahí fue cuando surgió el problema. No es un problema exagerado.
Desde la perspectiva de alguien de cierto país europeo, en un censo no se puede saber qué respuesta podría causarte problemas.
“¿Cuál es tu religión?” puede parecer completamente inocuo, pero en los años 40, cuando cierto ocupante extranjero pudo vincular esa respuesta con personas concretas, terminó siendo una respuesta fatal a posteriori.
Las preguntas de 2020 fueron cuántas personas vivían o se alojaban en esta casa/departamento/casa móvil al 1 de abril, si faltó incluir a alguien más, qué tipo de vivienda era, número de teléfono, nombre de la persona 1, sexo, edad y fecha de nacimiento, si era hispano/latino/español y raza.
Tampoco hay gran cosa que impida mentir.
Nadie debe ser obligado a revelar información sobre sus creencias religiosas o su pertenencia a una organización religiosa.
https://www.congress.gov/94/statute/STATUTE-90/STATUTE-90-Pg...
También hizo listas de judíos pensando que podrían servir para algo algún día, y los alemanes se alegraron mucho al encontrarlas.
La obsesión de Estados Unidos con preguntar a la gente por su origen percibido, por ejemplo AAPI, AA, Latino, etc., va más allá de lo raro: es abiertamente peligrosa.
No deberían hacer esas preguntas, y jamás deberían registrarlas junto con el nombre.
Por suerte, ahora para ellos es aún más fácil: se lo compran a un broker de datos y dejan que Palantir haga la segmentación.
Me parece que decir que la privacidad diferencial hace explícito el trade-off es más bien al revés.
Técnicas como la privacidad diferencial, salvo para la pequeña minoría de expertos que vive y respira este tema, ocultan el hecho de que existe un trade-off.
No sé lo suficiente como para defender esta decisión, pero si de verdad existe ese trade-off, cuando ya no se pueda recurrir a este tipo de técnicas, incluso quienes no son estadísticos tendrán que enfrentarlo.
Si los datos sobre el público son tan riesgosos que los resultados deben disfrazarse, quizá sean datos que no deberían recopilarse en primer lugar.
Como la gente subestima constantemente cuánta información se filtra, no evalúa bien ese trade-off.
Por eso, lo correcto es forzar que solo se filtre una cantidad segura de información.
Puede haber casos en los que sea mejor no compartir ni recopilar los datos, pero estos datos claramente tienen valor, así que la cantidad óptima para almacenar y publicar no es 0.
Al subcontratar la responsabilidad del pensamiento estadístico, una persona termina con una extraña sensación de poder al decidir de antemano los trade-offs sin que quienes la rodean necesiten entenderlos bien.
Si en ningún contexto se pudiera intercambiar ni recopilar información de identificación personal, ¿cómo funcionaría la sociedad?
La anonimización y la seguridad son fundamentales, y hacen posibles muchas funciones importantes.
En un mundo donde nunca se pudiera proporcionar ni recopilar información potencialmente riesgosa, ¿cómo recibiríamos el correo?