1 puntos por GN⁺ 4 시간 전 | 1 comentarios | Compartir por WhatsApp
  • La directiva DAO 216-26 del Departamento de Comercio de EE. UU., emitida el 4 de junio de 2026, revierte la forma en que la BEA y la U.S. Census Bureau protegen las estadísticas públicas a técnicas propias de los años 70, lo que puede debilitar tanto la utilidad de los datos públicos detallados como la protección de los encuestados
  • La directiva prohíbe técnicas modernas de limitación de divulgación como la privacidad diferencial (differential privacy) y la inyección de ruido, y solo permite coarsening como redondeo, agregación y uso de rangos, además de suppression únicamente como último recurso
  • El ejemplo de cervecerías en County Business Patterns muestra que un simple coarsening puede volver inútiles las estadísticas por industria y región, o permitir reconstruir los valores de empresas individuales con álgebra de preparatoria cuando se combinan varios valores agregados
  • La Census Act tipifica como delito divulgar datos de forma que se pueda identificar la información aportada por una persona o empresa específica, y las tasas de respuesta al censo y la confianza en las estadísticas federales dependen en gran medida de la garantía de confidencialidad
  • Más allá de los desacuerdos dentro de la comunidad científica sobre las técnicas de privacidad, debe rechazarse un enfoque en el que actores políticos, y no especialistas de las agencias estadísticas federales, prohíban unilateralmente la elección de métodos

Cómo DAO 216-26 cambió la protección de confidencialidad en las estadísticas públicas

  • El 4 de junio de 2026, el Secretario de Comercio de EE. UU. emitió DAO 216-26, restringiendo las técnicas de protección de confidencialidad que pueden usarse en todas las publicaciones de la BEA y la U.S. Census Bureau
  • Esta directiva devuelve la protección de estadísticas públicas a técnicas de inicios de los años 70, haciendo retroceder más de medio siglo de avances en protección de titulares de datos y metodología
  • Gracias al desarrollo de tecnologías de protección de confidencialidad, la Census Bureau había podido compartir más datos y con mayor nivel de detalle
  • Como resultado, la utilidad de las estadísticas puede disminuir, puede reducirse el número de estadísticas publicables, o puede debilitarse el nivel de protección

Contexto político y conflicto legal

  • Detrás de DAO 216-26 operan con fuerza intereses políticos más que la validez científica
  • La directiva ha sido criticada por eludir procedimientos administrativos legalmente requeridos
  • Cumple una promesa hecha por los arquitectos de Project 2025 de la Heritage Foundation y refleja la retórica y los malentendidos del Center for Renewing America (CRA), fundado por el director de la OMB, Russell Vought
  • Un documento del CRA sobre privacidad diferencial en el Censo 2020 afirma que “aunque se agregara la citizenship question al Census, sería imposible confirmar el estado de una persona mientras se use differential privacy”
  • Pero enmascarar este tipo de datos sobre características individuales es precisamente lo que exige la Census Act, es decir, 13 U.S. Code Section 9
    • Esa disposición tipifica como delito cualquier divulgación que permita identificar los datos proporcionados por una persona específica
    • La confidencialidad también es clave para que la gente responda al censo

Técnicas prohibidas y técnicas permitidas

  • DAO 216-26 prohíbe no solo la privacidad diferencial, sino también técnicas modernas de evitación de divulgación e incluso algunas técnicas antiguas
  • La técnica central permitida queda limitada a coarsening
    • Es una forma de reducir el nivel de detalle o especificidad de las estadísticas públicas
    • Incluye redondeo, agregación, agrupación y uso de rangos
  • suppression consiste en eliminar explícitamente ciertos valores, pero solo se permite como último recurso
  • noise infusion es un método que modifica un conjunto de datos añadiendo valores aleatorios o ruido, y queda prohibido
  • La inyección de ruido fue creada para responder a la creciente demanda de datos detallados dentro de un marco legal de confidencialidad que prohíbe publicar datos que permitan reidentificación

Alcance sobre productos de datos existentes

  • coarsening y suppression solían ser en general suficientes para estadísticas agregadas de alcance nacional, como los Principal Federal Economic Indicators
  • Pero estas técnicas no encajan bien con datos empresariales y demográficos detallados por geografía e industria
  • La prohibición de la inyección de ruido tiene el efecto de vetar la técnica central de evitación de divulgación en decenas de publicaciones de datos de los últimos 30 años
    • input noise infusion se usa desde 2002 en Quarterly Workforce Indicators y también estaba planeado para estadísticas de la BEA
    • swapping se ha usado en publicaciones del censo decenal desde 1990
    • differential privacy se usa desde 2008 para compartir datos de patrones de movilidad en OnTheMap y en productos basados en el Censo 2020
    • Hasta antes de la directiva reciente, también estaba planeado para el Censo 2030
  • Se indica que el working paper WP2026-9 de la BEA fue eliminado por el Departamento de Comercio

El problema que revela el ejemplo de County Business Patterns

  • DAO 216-26 difícilmente es compatible con la doble obligación de la Census Bureau de ofrecer al mismo tiempo confidencialidad y aptitud de uso
  • El ejemplo de County Business Patterns de Nathan Goldschlag muestra la tensión que surge al desglosar estadísticas de actividad empresarial por industria y geografía
    • Si en un condado pequeño hay solo una cervecería y se publica el número exacto de empleados, la información de una sola empresa queda expuesta tal cual
    • Si hay dos cervecerías, un propietario puede restar los empleados de su empresa al total y averiguar cuántos empleados tiene la competencia
    • Incluso si hay tres o más, si no se publica el total de empleados, a un posible nuevo participante del mercado le resulta difícil obtener la información que necesita
  • En este ejemplo, el coarsening vuelve inútiles las estadísticas públicas

Un escenario donde incluso el coarsening permite reconstrucción

  • Un ejemplo adicional muestra que el coarsening también puede fallar en preservar la confidencialidad
  • En un condado hipotético hay dos pueblos, North Bend y South Bend, y cada uno tiene una cervecería
    • En North Bend hay una empresa de embotellado móvil
    • En South Bend hay una empresa de embotellado fija
    • En total hay 4 empresas relacionadas con la cerveza
    • La cervecería de North Bend y la embotelladora de South Bend son empresas de propiedad pública
  • El CBP publica cinco estadísticas
    • Número total de empleados de las empresas relacionadas con la cerveza en North Bend
    • Número total de empleados de las empresas relacionadas con la cerveza en South Bend
    • Número total de empleados de cervecerías en todo el condado
    • Número total de empleados de embotelladoras en todo el condado
    • Número total de empleados de empresas de propiedad pública en todo el condado
  • En este caso hay 5 ecuaciones para 4 incógnitas, y con solo A, B, C y E ya puede resolverse el número exacto de empleados de cada empresa con álgebra de preparatoria
  • Aunque el coarsening por geografía, sector y tipo de propiedad se aplique con buena intención, si interactúan mal entre sí pueden reconstruirse por completo todos los valores
  • noise infusion altera este sistema de ecuaciones para impedir una reconstrucción exacta

Los límites prácticos de volver a “tradstat”

  • El Departamento de Comercio sostiene que esta directiva implica volver a técnicas estadísticas tradicionales de los años 70, o “tradstat”, y que eso beneficia a los consumidores de datos
  • El FAQ de la BEA afirma que esta actualización de métodos de limitación de divulgación protege a los encuestados y “proporciona información económica más esencial al público”
  • Pero el ejemplo de Goldschlag muestra que el coarsening puede operar justo al revés
  • Por definición, el coarsening reduce el acceso a información detallada
  • En el ejemplo donde tres tipos de coarsening interactúan mal, sin inyección de ruido la confidencialidad puede romperse con cálculos básicos
  • En el censo, métodos formales de inyección de ruido como la privacidad diferencial sirven para mantener confidenciales características individuales como el estatus de ciudadanía

Por qué la confidencialidad es importante en las estadísticas federales

  • Incluso dentro de la comunidad científica sigue habiendo debate sobre cuál es la mejor forma de proteger la confidencialidad de los datos de los encuestados
  • Pero DAO 216-26 se describe como una medida impulsada por intereses políticos más que por la ciencia
  • La directiva podría poner en riesgo la confianza pública en el proceso censal
  • Los funcionarios intentarán obedecer la directiva al mismo tiempo que cumplen la ley que exige proteger la confidencialidad de los encuestados
    • Puede que produzcan menos datos
    • Puede que vuelvan los datos tan burdos que dejen de servir
    • Puede que, bajo presión política, terminen publicando datos cuyo enmascaramiento se rompe fácilmente, como en el ejemplo de las cervecerías
  • Cualquiera de esas opciones dificulta garantizar la confidencialidad de los encuestados, y muchas empresas y personas podrían optar por no responder
  • Eso podría tener consecuencias destructivas para las instituciones encargadas de proporcionar los “datos de la democracia”

La respuesta necesaria

  • En lugar de que actores políticos pasen por encima de los expertos estadísticos del gobierno, se necesita una inversión profunda en las agencias estadísticas de EE. UU.
  • Deben garantizarse personal y apoyo para que las agencias puedan mejorar sus métodos con las mejores herramientas disponibles
  • Independientemente de la postura sobre técnicas específicas de refuerzo de privacidad, debe rechazarse colectivamente un enfoque anticientífico en la operación estadística federal
  • Las acciones propuestas son las siguientes
    • Compartir el texto con redes profesionales y comunidades
    • Buscar el contacto de representantes de la Cámara y comunicar preocupaciones al Congressional representative
    • Exigir la retirada del DAO, el cumplimiento del debido procedimiento administrativo y que la elección de métodos técnicos para equilibrar utilidad y confidencialidad quede en manos de expertos de las agencias estadísticas federales
    • Para ayudar a preservar working papers y documentos del Census, se puede colaborar con la declaración sobre privacidad diferencial del Data Rescue Project o usar Save Page Now del Internet Archive
  • Como las páginas que explican noise infusion y differential privacy ya están siendo retiradas de línea, hace falta archivar páginas metodológicas y documentos técnicos relacionados

1 comentarios

 
GN⁺ 4 시간 전
Opiniones de Hacker News
  • La directiva DAO-216-26, emitida el 4 de junio de 2026 por el secretario de Comercio de Estados Unidos, prohíbe la privacidad diferencial y varias técnicas modernas y antiguas, y limita las técnicas de evasión de divulgación pública a “hacer los datos más gruesos”.
    También prohíbe la inyección de ruido, es decir, “un método para modificar un conjunto de datos agregando valores aleatorios, o ruido”, bloqueando así una técnica de protección que fue central en decenas de publicaciones de datos durante los últimos 30 años.
    Los funcionarios, al intentar cumplir al mismo tiempo con la ley que les exige proteger la confidencialidad de los datos de los encuestados y con esta orden, podrían publicar menos datos o hacerlos tan gruesos que queden inútiles. También podrían terminar publicando datos fácilmente reidentificables por presión política; la administración actual está a un nivel maldito.

    • La opinión sobre la administración actual de Estados Unidos es tan baja que, cuando hacen algo terrible pero sofisticado, mis propios sesgos pueden volverse un punto ciego.
      Aun así, me sorprende que siquiera hayan examinado la privacidad diferencial, y más sorprendente todavía es que, después de examinarla, hayan llegado a la conclusión de que había que eliminarla. ¿Qué lógica podría haber detrás de esto?
    • La administración actual está capturada por multimillonarios e intereses extranjeros, y ambos quieren que el gobierno de Estados Unidos colapse.
      Para que Estados Unidos vuelva a ser tomado en serio, mucha gente tendría que ir a prisión, ser ahorcada o ser deportada.
      ¿Dónde están ahora esos cobardes belicosos que hablaban tanto de armas y de la Segunda Enmienda? Van a seguir gritando libertad aunque la casa esté ardiendo.
    • No es una maldición, sino un intento activo de consolidar su propio poder, como buenos fascistas autoritarios.
      Y aun así algunos se engañan pensando que, si animan con más fuerza a su querido líder, la corriente también se volverá a su favor. Lo ven como un partido deportivo en el que hay que apoyar a tu equipo aunque rompa las reglas abiertamente.
    • Hacer los datos más gruesos no es tan elegante como la privacidad diferencial, pero usarlo no equivale a una “emergencia de privacidad”; es solo un censo un poquito menos preciso.
      Nadie sabe qué efecto tendría en la economía real una diferencia de precisión de ese tamaño.
      Sería bueno usar técnicas más elegantes y también tengo la intuición de que esta política es mala, pero no veo que esto llegue a ser una “emergencia”. Llamarlo así se siente exagerado.
  • El llamado a la acción de este artículo es contactar a los legisladores, pero falta el enlace para encontrar sus datos de contacto. Se puede encontrar aquí: https://www.congress.gov/members/find-your-member

  • ¿Cuál será el objetivo político detrás de esta directiva? Seguramente hay un propósito nada sutil, pero no sé cuál es.

    • Las personas que actualmente están en el poder quieren cada byte de datos sobre quienes viven en este país.
      Quieren dividir a la gente según criterios arbitrarios y tratar a esos grupos como se les antoje. Según la persona, eso podría significar encarcelamiento, deportación o cosas aún peores.
  • Al ver la parte que dice “si se cumple esta orden, se destruirán los datos públicos del Departamento de Comercio de los que dependen decisiones importantes, como dónde construir los servicios necesarios para el bienestar de nuestras comunidades”, queda claro que este no es un artículo sobre privacidad.
    Scott suena como un científico de la computación que, por el ecosistema estadounidense, terminó usando un tono exagerado.

    • Si no se puede anonimizar un conjunto de datos lo suficiente como para evitar las leyes de protección de datos personales u otras leyes de confidencialidad, no se puede publicar.
      Si a los responsables de datos se les prohíben las técnicas que usan para anonimizar, no podrán anonimizar lo suficiente. No es una lógica difícil de seguir.
    • Este es un artículo invitado de Cynthia Dwork. No es el estilo de Aaronson, es un texto de Dwork.
  • ¿Alguien puede explicar por qué la Heritage Foundation apuntó contra estas técnicas estadísticas? ¿Cuál es la motivación política?

    • Hay un ejemplo aquí: https://x.com/WadeMiller/status/1985183761957372286
    • Se trata de fortalecer a las grandes empresas y abrir de par en par las protecciones estadísticas para facilitar 1) mejor agitación y propaganda, 2) el seguimiento de minorías que no les gustan, y 3) la segmentación electoral.
    • El censo de 2020 tuvo varios problemas, y muchos de ellos terminaron dando a los demócratas más escaños en la Cámara de Representantes de los que les habrían correspondido.
      Además, los resultados del censo debían llegar a la Casa Blanca en diciembre de 2016, pero de alguna manera no llegaron hasta el 21 de enero de 2017.
      No sé si la privacidad diferencial estuvo directamente relacionada, pero parece que la están metiendo en el mismo paquete que otros problemas para culparla.
    • Es posible que tenga que ver con una historia como esta: “Los nazis utilizaron censos periódicos, declaraciones de impuestos y registros de la policía local. En países ocupados como Alemania y Países Bajos, esta información se organizó de forma sistemática. En algunos casos se usó tecnología de IBM, es decir, máquinas de tarjetas perforadas Dehomag, para tabular y clasificar datos del censo e identificar a personas judías”.
  • El texto presenta dos formas de proteger la privacidad en datasets y luego ataca las debilidades teóricas del método antiguo con un escenario artificial, para llevar al lector a elegir otra solución supuestamente más nueva.
    Pero la nueva solución no se explica en detalle más allá del nombre. Lo que me pregunto es: 1) si alguna vez la generalización realmente falló de la manera descrita en el texto y filtró información, 2) cómo funciona esa “otra” solución que, según dicen, deberíamos desear, y 3) cuál es la diferencia en el nivel de detalle que antes era imposible cuando había que generalizar los datos, pero que ahora se volvió posible con la nueva solución.

    • (1) “A Simulated Reconstruction and Reidentification Attack on the 2010 U.S. Census” https://arxiv.org/pdf/2312.11283
      (2) Consiste en agregar ruido gaussiano cuidadosamente ajustado. En los últimos 6 años también se descubrió cómo agregar mucho menos ruido gaussiano: “The 2020 Census Disclosure Avoidance System TopDown Algorithm” https://arxiv.org/abs/2204.08986
      (3) Esto es más difícil de responder. El objetivo de la Oficina del Censo era publicar estadísticas con el mismo formato que en las décadas anteriores. El objetivo de 2020 era publicar las mismas estadísticas con los mismos márgenes de error, y la evidencia sugiere que se logró. “Evaluating Bias and Noise Induced by the U.S. Census Bureau's Privacy Protection Methods” http://arxiv.org/abs/2306.07521, “Evaluating the Impacts of Swapping on the US Decennial Census” http://arxiv.org/abs/2502.01320
  • Discusión anterior: https://news.ycombinator.com/item?id=48517377

  • Artículo relacionado: https://news.ycombinator.com/item?id=48517377
    Es una lástima que esto se haya politizado. Estoy trabajando en privacidad diferencial para cumplir con el GDPR y es una tecnología interesante.

    • ¿Cuando dices que trabajas en privacidad diferencial te refieres a trabajo legal?
  • Hay un dato reciente sobre el Congreso que me gusta mucho.
    La licencia parental a nivel federal, es decir, licencia por paternidad y maternidad, cuenta con el apoyo de alrededor del 80% de los adultos en Estados Unidos. La apoyan tanto votantes demócratas como republicanos, sin importar su orientación política.
    Pero uno podría sorprenderse de que, siendo tan popular, no sea una obligación federal. El grupo al que no le gusta son las empresas, y las empresas donan mucho dinero a los políticos. Porque les sale más barato donar a políticos que se oponen a la licencia parental que pagar directamente el costo de la licencia parental.
    Cuento esta historia a menudo porque recuerda que hay grupos que gastan mucho tiempo y dinero para imponer su voluntad. Puede parecer abrumador, pero si llamas a tu representante local, esa llamada se contabiliza. Ellos quieren saber qué les importa a sus votantes, así que basta con llamar y decírselo.

    • Algo que resulta especialmente impactante al ver las filtraciones recientes es lo barato que se vende el Congreso.
    • Por las respuestas que recibí al escribirles a mis representantes locales, parecen preocuparse mucho más por sus patrocinadores corporativos y la línea del partido que por sus votantes.
    • Si se pregunta solo si se apoya o no una licencia parental obligatoria a nivel federal, la mayoría la apoyaría, pero si se pregunta si cambiarían su voto por ese motivo, suena como el tipo de tema en el que quienes la apoyan responderían que no es una prioridad principal ni lo bastante importante como para actuar.
      El 20% que se opone podrían ser, por ejemplo, dueños de pequeñas empresas. Si no se exime a las pequeñas empresas, tendrían que pagarle a quien toma una licencia larga y también a un reemplazo, algo que no pueden afrontar; y si se exime a las pequeñas empresas, a los dueños de grandes empresas no les gusta nada que les dé una ventaja relativa a las compañías pequeñas.
      Así que, cuando se enfrentan un lado donde el 80% lo quiere pero solo al 1% le importa, contra otro donde el 20% lo quiere pero al 75% le importa, el segundo número resulta más grande.
    • Si ya pensabas que el financiamiento político o la compra de políticos por parte de empresas era malo, en Estados Unidos va a empeorar exponencialmente.
      La Corte Suprema acaba de tomar una decisión que permite a los oligarcas ricos dar cantidades ilimitadas de dinero a sus títeres favoritos, digo, políticos[1].
      [1]: https://www.npr.org/2026/06/30/nx-s1-5827039/supreme-court-c...
    • La vivienda gratis, la comida gratis, la atención médica gratis y los ingresos gratis también son enormemente populares entre la población adulta de Estados Unidos.
      El problema es que esas cosas en realidad no son “gratis”: alguien tiene que pagar el costo.
      https://en.wikipedia.org/wiki/Tyranny_of_the_majority
  • Llamar a tu legislador no tendrá exactamente ningún efecto[1].
    Los centros de datos también siguen siendo aprobados, aunque las comunidades locales se oponen a ellos casi universalmente y sus externalidades negativas son mucho más reales y directas.
    La verdadera crisis está en un sistema político capturado.
    En Australia, en los años 90, un partido racista y supremacista blanco llamado One Nation surgió por una extraña combinación de acontecimientos, y Pauline Hanson, dueña de una tienda de fish and chips, se convirtió en legisladora. Hace casi 30 años dio su famoso primer discurso en el Parlamento[2].
    Después de varios escándalos, One Nation desapareció por un tiempo, en parte porque la coalición conservadora Liberal/National prácticamente absorbió a principios de los 2000 su plataforma racista de usar a los refugiados como chivo expiatorio. Pero, curiosamente, ahora volvió. Aunque ese no es el punto central.
    Australia usa lo que en Estados Unidos normalmente llaman voto por orden de preferencia. Los votantes pueden numerar directamente a los candidatos o seguir el orden de preferencias registrado por el partido. Como mucha gente elige esto último, la distribución de preferencias es importante.
    One Nation usó una estrategia de distribuir sus preferencias contra el titular del cargo. Si era un escaño de los Liberales, iban para Labor; si era al revés, entonces al contrario. Esto asustó al establishment político, de modo que los principales partidos, aunque eran adversarios entre sí, se asignaron preferencias más altas mutuamente que a One Nation, y One Nation no obtuvo escaños pese a superar el 10% de los votos.
    El punto clave es que demasiados políticos y partidos ven sus escaños como propiedad propia. En Estados Unidos, las primarias también suelen tratarse como un trámite formal para el candidato señalado por el partido, y la tasa de reelección en el Congreso se mantuvo por encima del 95% durante décadas.
    Curiosamente, el Partido Demócrata está ahora en un estado de rebelión casi abierta, y en las últimas semanas varios titulares de larga trayectoria, de 10 a 30 años, fueron desplazados en primarias por retadores.
    También hay un dato interesante que supe esta semana. Han pasado unos 18 años desde que el fallo Citizens United prácticamente eliminó los límites al gasto electoral, y un tercio de todo el dinero gastado desde entonces se gastó en las primarias de este año. En la primaria de Thomas Massie se gastaron más de 35 millones de dólares en el bando opositor, convirtiéndola en la primaria más cara de la historia de Estados Unidos, y en otros lugares también se están moviendo millones. Se estima que el gasto total para un escaño del Senado por Maine llegará a 400 millones de dólares.
    Al final, el único método que funciona es hacer que los legisladores teman perder sus cómodos puestos. Si llevas 30 años en el cargo y no tienes nada que mostrar, ya es hora de irte.
    [1]: https://act.represent.us/sign/problempoll-fba
    [2]: https://www.youtube.com/watch?v=p2ypTX9ntTQ

    • Como otro australiano, ¿alguna vez contactaste a tu legislador local?
      Yo al principio también era cínico, en plan “¿para qué?”, pero cuando lo hice de verdad me di cuenta de que estaba equivocado, y fue una experiencia bastante buena.
      Ahora creo que los legisladores no siempre están en posición de estar cerca de los hechos. Así que, si los contactas y les transmites lo que piensas, en realidad les estás haciendo un gran regalo.
      Especialmente en temas estatales y locales, puede tener bastante efecto en la práctica. En asuntos federales quizá menos, pero al menos queda la satisfacción de recibir una respuesta de confirmación del jefe de despacho o de algún asesor.
    • Solo con introducir el voto por orden de preferencia ya sería un gran avance.
      El bipartidismo es una falsa elección binaria impuesta deliberadamente, como cuando un padre le dice a un niño que elija entre brócoli y zanahoria para que crea que fue su propia decisión. Ambos partidos están controlados por la clase inversionista.
    • Estoy de acuerdo. Está bien llamar a tu representante.
      Si se muestra ambiguo o evita dar una respuesta firme, hay que hacer lo que se pueda para desplazarlo en las primarias. Todos los “centristas” terminarán vendiéndote al panóptico.
    • Pregúntale a Tom S. de California y sabrás qué garantiza ese tipo de gasto.
      Lo más urgente es arreglar los procesos electorales rotos, como en California, donde ahora se tardan más de 30 días en “contar” los votos.