3 puntos por GN⁺ 2025-11-07 | 1 comentarios | Compartir por WhatsApp
  • Se incorporó a Have I Been Pwned (HIBP) un enorme conjunto de datos con 1,957,476,021 direcciones de correo únicas y 1,300 millones de contraseñas
  • De ellas, 625 millones de contraseñas nunca se habían visto antes, lo que lo convierte en el mayor volumen de datos que HIBP ha procesado hasta ahora
  • Los datos fueron recopilados desde la plataforma de inteligencia de amenazas de Synthient e incluyen material de credential stuffing con combinaciones de correo y contraseña filtradas en múltiples brechas
  • Para verificar la autenticidad de los datos, HIBP pidió confirmación directa a sus suscriptores, y en algunos casos todavía incluían contraseñas realmente en uso
  • Este índice no corresponde a una filtración de Gmail, sino al resultado de la recolección de credenciales de víctimas infectadas con malware; los usuarios pueden revisar su exposición mediante HIBP o Pwned Passwords

Resumen de los datos

  • El conjunto de datos incluye 1,957,476,021 direcciones de correo únicas y 1,300 millones de contraseñas
    • De ellas, 625 millones de contraseñas aparecieron por primera vez en HIBP
    • Es el mayor volumen que HIBP ha procesado hasta la fecha, unas 3 veces más grande que la filtración previa más grande
  • Los datos forman parte de la inteligencia de amenazas recopilada por Synthient e incluyen listas de credential stuffing
    • Los datos de credential stuffing se generan al reutilizar combinaciones de correo y contraseña filtradas en múltiples brechas
    • Debido a la práctica de usar la misma contraseña en varios sitios, una sola filtración puede terminar comprometiendo cuentas en otros servicios

Proceso de verificación de los datos

  • La verificación comenzó con la dirección de correo personal del autor, y algunas contraseñas antiguas sí coincidían
    • Otras contraseñas no resultaban familiares, y algunas incluían valores anómalos como direcciones IP
  • También se pidió verificación a suscriptores de HIBP para reunir más casos
    • Un usuario encontró tanto una contraseña antigua como una reciente y las cambió de inmediato
    • Otro usuario tenía contraseñas que había usado hace 10 a 20 años
    • Algunas respuestas mostraron contraseñas expuestas que aún se seguían usando en cuentas activas
  • El resultado de la verificación mostró que en los datos se mezclan información antigua y contraseñas realmente en uso
    • Algunas entradas también eran contraseñas generadas automáticamente o tan antiguas que ya no se recordaban

Función de búsqueda de Pwned Passwords

  • El servicio Pwned Passwords de HIBP almacena por separado las direcciones de correo y las contraseñas
    • Esta es una medida de seguridad y privacidad para evitar el riesgo de exponer pares de correo-contraseña
  • Los usuarios pueden comprobar si una contraseña fue expuesta de las siguientes formas
    1. Usando la página de búsqueda de Pwned Passwords
    2. Mediante búsquedas por código con la API de k-anonymity
    3. A través de la revisión automática con 1Password Watchtower
  • Todas las combinaciones posibles de PIN de 4 dígitos ya han sido filtradas, y también existe una visualización de patrones de uso de PIN basada en los datos de HIBP

No es una filtración de Gmail

  • Este incidente no está relacionado con una vulnerabilidad de seguridad de Gmail, sino con datos de credenciales recolectados de víctimas infectadas con malware
  • El conjunto completo incluye 32 millones de dominios de correo, de los cuales gmail.com representa 394 millones
    • Las direcciones de Gmail son apenas cerca del 20% del total, y el 80% restante pertenece a otros dominios
    • No está relacionado con una falla de seguridad de Google

Proceso técnico

  • Estos datos son aproximadamente 3 veces más grandes que la filtración previa más grande, por lo que el procesamiento fue muy complejo
    • HIBP procesó los datos durante unas 2 semanas en un entorno de Azure SQL Hyperscale (80 núcleos)
    • Durante la generación del hash SHA1 de las direcciones de correo fallaron las actualizaciones masivas, por lo que se cambió a un procesamiento por lotes de 1 millón de registros
  • 2.9 millones de los 5.9 millones de suscriptores están incluidos en este conjunto de datos
    • Para evitar filtros de spam y límites del servidor al enviar correos masivos, se adoptó una estrategia de envío gradual
    • El volumen de envío se ajustó con un incremento de 1.015 veces por hora, equivalente a aproximadamente 45% más por día
    • Se mantuvo la confiabilidad mediante configuraciones de DKIM, DMARC y SPF, además del uso de IP dedicada
  • El tamaño de respuesta de la API de Pwned Passwords aumentó de un promedio de 26 KB a 40 KB
    • Esto se debe a que el tamaño de los rangos de hash creció cerca de un 50%, y la eficiencia se mantuvo con compresión brotli

Conclusión y medidas recomendadas

  • Este conjunto de datos puede consultarse en HIBP como “Synthient Credential Stuffing Threat Data”
    • Es un conjunto distinto de datos previos de Synthient, aunque existe cierta superposición
  • HIBP verificó la integridad de los datos y ofrece una función de búsqueda centrada en la privacidad
  • Medidas de seguridad recomendadas para los usuarios
    • Usar un administrador de contraseñas
    • Crear contraseñas fuertes y únicas
    • Usar passkeys y activar la autenticación multifactor (MFA)
  • HIBP señala que este trabajo fue un proyecto muy costoso en tiempo y dinero, y pide a los usuarios que, en lugar de solicitar acceso a los datos, se enfoquen en mejorar sus hábitos de seguridad

1 comentarios

 
GN⁺ 2025-11-07
Comentarios de Hacker News
  • Ha habido demasiadas filtraciones de datos hasta ahora. Siento que mi dirección, SSN, número de teléfono, correo electrónico y todo lo demás ya quedaron expuestos varias veces
    He recibido avisos de filtraciones de universidades, sitios de empleo, redes sociales y más, y además supongo que mi información también debe estar circulando por ahí mediante análisis legítimos de big data
    Ahora guardo y administro contraseñas fuertes en Bitwarden, pero siento que mis cuentas antiguas de hace años todavía podrían estar en riesgo
    Sinceramente, ya no sé qué se puede hacer a estas alturas. Da pena pensar que mi información ya está allá afuera

    • Uso un alias de correo distinto para cada cuenta y un gestor de contraseñas
      En mi tiempo libre estoy limpiando cuentas viejas. Gracias a eso, puedo identificar de inmediato el origen del spam o de una filtración por la dirección de correo
      Con filtrado Sieve se puede clasificar de forma mucho más precisa. Si usas juntos envelope to y header to, puedes filtrar correctamente incluso correos en BCC o enviados a alias
      Documentación relacionada: RFC5228 Sieve Filtering
      Antes incluso recuperé una cuenta que había olvidado gracias a un correo de spam que incluía una de mis contraseñas antiguas
    • Bitwarden de verdad es buenísimo. En lo personal lo recomiendo a la gente que conozco, pero la reacción ha sido mínima
      Mi esposa dice que proteger la información en línea ya es una batalla perdida. Tal vez tenga razón
    • Las direcciones son en su mayoría registros públicos. Si las buscas en sitios como fastpeoplesearch.com, aparecen de inmediato
      Los números de teléfono también antes estaban todos en el directorio telefónico. Todavía se sienten como información pública
    • Estoy en una situación parecida. En EE. UU. es importante poner un bloqueo de crédito con las tres grandes agencias de crédito
      Hace tiempo alguien contrató cable usando mi información y me costó mucho trabajo quitarlo de mi historial crediticio
    • Yo estaba en servicio militar, y China hasta me robó mi perfil de ADN. A estas alturas ya me resigné
  • Parece que Troy ahora podrá ahorrar mucho espacio en la base de datos
    Casi dan ganas de dejarlo así nomás:

    def email_compromised(email):
        return True
    

    Se siente como si ya hubieran comprometido todos los correos

    • No necesariamente. Mis dos correos principales todavía aparecen limpios
      En cambio, el correo que uso para cosas varias ya tiene 9 filtraciones registradas
  • Parece que en estos datos viene incluida una filtración no divulgada de Spotify
    A inicios de 2020, alguien inició sesión en mi cuenta de Spotify con una contraseña débil desde una IP de EE. UU.
    Unas horas después Spotify me envió automáticamente un restablecimiento de contraseña, pero nunca hubo un aviso oficial de filtración
    Hasta ahora ese correo aparece en HIBP

    • Si una empresa grande como Spotify sufrió algo así, debió reportarlo oficialmente
  • Respeto el trabajo de Troy Hunt, pero aunque busque mi correo en Have I Been Pwned, no hay una acción práctica real que pueda tomar
    El sitio solo muestra el mensaje de “estás en riesgo, así que administra bien tus contraseñas”
    Cambiar más de 500 contraseñas simplemente no es realista. Al final uno termina dependiendo de gestores de contraseñas como Bitwarden, 1Password o Chrome

    • Hay que usar una contraseña aleatoria y única para cada sitio
      Yo antes reutilizaba la misma contraseña y una vez me comprometieron todas las cuentas
      Ahora solo memorizo la contraseña maestra del gestor, la de Gmail y la de cifrado de disco; todo lo demás lo genera el gestor
      Y activo 2FA (U2F/WebAuthn) donde sea posible
    • Sí. Al final el gestor de contraseñas es la pieza clave
    • En la página HIBP Passwords puedes ingresar una contraseña directamente para verificar de forma segura si fue filtrada
      1Password funciona de la misma manera y no guarda nombres de cuenta, así que no crea un nuevo riesgo de filtración
    • Este conjunto de datos parece ser un agregado unificado de varias filtraciones, así que no se puede saber el origen
    • Antes recibí una alerta de HIBP y restablecí de inmediato las contraseñas de usuarios
      Pero la mayoría eran contraseñas que ya venían de filtraciones viejas, así que intento evitar acciones innecesarias
  • Como uso muchas direcciones de correo personalizadas, para revisarlas en HIBP necesito una suscripción de pago
    Manejo cientos de correos, así que es incómodo. Aun así, sigue valiendo la pena usar una dirección única para cada sitio

    • Antes la búsqueda por dominio era gratuita. Me registré en 2017 y recibí alertas de filtración en 2020 y 2022
    • En realidad, si usas correos alias, puedes saber de inmediato cuándo hubo una filtración. Además, solo con el correo es difícil cometer robo de identidad
    • Estoy en la misma situación. Llevo el seguimiento de todos mis correos en el gestor de contraseñas, pero revisarlos uno por uno en HIBP es tedioso
    • Lo realista es asumir que todos los correos ya quedaron expuestos. El correo no es un secreto
    • Al final, la contraseña sí es el verdadero secreto. Mientras mantengas contraseñas fuertes, todo bien
  • Hace tiempo, por la filtración de Facebook, comprometieron uno de mis correos viejos, y otra persona volvió a registrar ese dominio para intentar secuestrar la cuenta
    Por suerte, pude frenarlo gracias al 2FA y a las alertas de seguridad de Facebook
    Hay que quitar de las cuentas cualquier dirección de correo que ya no se use

    • Si usas un dominio propio para el correo, eso implica costos de mantenimiento de por vida. Si dejas vencer el dominio, otra persona puede comprarlo e intentar recuperar tus cuentas
      Desde que iCloud y Gmail facilitaron conectar dominios personalizados, este riesgo se volvió mayor
    • Sorprende que alguien llegue tan lejos solo para apuntar a una cuenta
    • Sí da curiosidad que esa persona haya pagado por comprar el dominio solo para intentarlo. Ni siquiera soy famoso
  • Me pareció interesante la parte de que corrieron Azure SQL Hyperscale con 80 núcleos durante 2 semanas
    Para gestionar solo correos y contraseñas, SQL parece una elección excesiva.
    Incluso con 15 mil millones de registros, 600 GB suenan como algo que un servidor normal podría manejar

    • En realidad, el problema era actualizar 1.9 mil millones de hashes SHA1
      Las actualizaciones in-place eran lentas, así que crearon una tabla aparte, y además al enviar notificaciones por correo también toparon con los límites del proveedor de email
    • Pienso lo mismo. Supongo que Troy usó Azure por su relación con Microsoft
      El título de “Microsoft Regional Director and MVP” resulta confuso
    • Azure SQL definitivamente fue una mala elección. Si solo se trata de búsquedas por hash, una estructura basada en archivos binarios sería mucho más eficiente
      Podrías crear un archivo de 20 GB con hashes SHA1 ordenados, y con búsqueda binaria o un índice basado en la distribución del hash podrías lograr consultas de 1 solo I/O
      Si lo divides en 65,536 fragmentos y los ordenas, también resuelves el problema de memoria
      Una estructura así se podría operar en Blob Storage por unas 50 veces menos costo que Azure SQL
  • Parece que los datos de HIBP tienen algún tipo de vencimiento. Antes mi correo aparecía en la filtración de Dropbox, pero ahora ese registro ya no está
    Página de la filtración de Dropbox

  • Tengo curiosidad por saber cuál es mejor entre Bitwarden / 1Password / Proton Pass
    Proton Pass todavía me parece demasiado nuevo como para confiar plenamente, y además siempre viene a la mente eso de “no pongas todo en una sola canasta”
    Elegí Bitwarden porque es open source, y espero que, como tiene una gran base de usuarios gratuitos, los problemas se detecten y resuelvan rápido

    • Uso 1Password y la UI y las funciones de administración empresarial son mucho más cómodas
      Además, si usas una cuenta de negocios, te incluyen gratis una cuenta familiar, lo cual es una ventaja
      Aun así, la filosofía open source de Bitwarden también es algo muy válido a considerar
  • Creo que el título de esta publicación habría sido más preciso como “1.3 mil millones de contraseñas filtradas
    El número es un poco menor, pero el significado es mucho mayor

    • Probablemente la cantidad real de contraseñas sea aún menor 😉