- Se incorporó a Have I Been Pwned (HIBP) un enorme conjunto de datos con 1,957,476,021 direcciones de correo únicas y 1,300 millones de contraseñas
- De ellas, 625 millones de contraseñas nunca se habían visto antes, lo que lo convierte en el mayor volumen de datos que HIBP ha procesado hasta ahora
- Los datos fueron recopilados desde la plataforma de inteligencia de amenazas de Synthient e incluyen material de credential stuffing con combinaciones de correo y contraseña filtradas en múltiples brechas
- Para verificar la autenticidad de los datos, HIBP pidió confirmación directa a sus suscriptores, y en algunos casos todavía incluían contraseñas realmente en uso
- Este índice no corresponde a una filtración de Gmail, sino al resultado de la recolección de credenciales de víctimas infectadas con malware; los usuarios pueden revisar su exposición mediante HIBP o Pwned Passwords
Resumen de los datos
- El conjunto de datos incluye 1,957,476,021 direcciones de correo únicas y 1,300 millones de contraseñas
- De ellas, 625 millones de contraseñas aparecieron por primera vez en HIBP
- Es el mayor volumen que HIBP ha procesado hasta la fecha, unas 3 veces más grande que la filtración previa más grande
- Los datos forman parte de la inteligencia de amenazas recopilada por Synthient e incluyen listas de credential stuffing
- Los datos de credential stuffing se generan al reutilizar combinaciones de correo y contraseña filtradas en múltiples brechas
- Debido a la práctica de usar la misma contraseña en varios sitios, una sola filtración puede terminar comprometiendo cuentas en otros servicios
Proceso de verificación de los datos
- La verificación comenzó con la dirección de correo personal del autor, y algunas contraseñas antiguas sí coincidían
- Otras contraseñas no resultaban familiares, y algunas incluían valores anómalos como direcciones IP
- También se pidió verificación a suscriptores de HIBP para reunir más casos
- Un usuario encontró tanto una contraseña antigua como una reciente y las cambió de inmediato
- Otro usuario tenía contraseñas que había usado hace 10 a 20 años
- Algunas respuestas mostraron contraseñas expuestas que aún se seguían usando en cuentas activas
- El resultado de la verificación mostró que en los datos se mezclan información antigua y contraseñas realmente en uso
- Algunas entradas también eran contraseñas generadas automáticamente o tan antiguas que ya no se recordaban
Función de búsqueda de Pwned Passwords
- El servicio Pwned Passwords de HIBP almacena por separado las direcciones de correo y las contraseñas
- Esta es una medida de seguridad y privacidad para evitar el riesgo de exponer pares de correo-contraseña
- Los usuarios pueden comprobar si una contraseña fue expuesta de las siguientes formas
- Usando la página de búsqueda de Pwned Passwords
- Mediante búsquedas por código con la API de k-anonymity
- A través de la revisión automática con 1Password Watchtower
- Todas las combinaciones posibles de PIN de 4 dígitos ya han sido filtradas, y también existe una visualización de patrones de uso de PIN basada en los datos de HIBP
No es una filtración de Gmail
- Este incidente no está relacionado con una vulnerabilidad de seguridad de Gmail, sino con datos de credenciales recolectados de víctimas infectadas con malware
- El conjunto completo incluye 32 millones de dominios de correo, de los cuales gmail.com representa 394 millones
- Las direcciones de Gmail son apenas cerca del 20% del total, y el 80% restante pertenece a otros dominios
- No está relacionado con una falla de seguridad de Google
Proceso técnico
- Estos datos son aproximadamente 3 veces más grandes que la filtración previa más grande, por lo que el procesamiento fue muy complejo
- HIBP procesó los datos durante unas 2 semanas en un entorno de Azure SQL Hyperscale (80 núcleos)
- Durante la generación del hash SHA1 de las direcciones de correo fallaron las actualizaciones masivas, por lo que se cambió a un procesamiento por lotes de 1 millón de registros
- 2.9 millones de los 5.9 millones de suscriptores están incluidos en este conjunto de datos
- Para evitar filtros de spam y límites del servidor al enviar correos masivos, se adoptó una estrategia de envío gradual
- El volumen de envío se ajustó con un incremento de 1.015 veces por hora, equivalente a aproximadamente 45% más por día
- Se mantuvo la confiabilidad mediante configuraciones de DKIM, DMARC y SPF, además del uso de IP dedicada
- El tamaño de respuesta de la API de Pwned Passwords aumentó de un promedio de 26 KB a 40 KB
- Esto se debe a que el tamaño de los rangos de hash creció cerca de un 50%, y la eficiencia se mantuvo con compresión brotli
Conclusión y medidas recomendadas
- Este conjunto de datos puede consultarse en HIBP como “Synthient Credential Stuffing Threat Data”
- Es un conjunto distinto de datos previos de Synthient, aunque existe cierta superposición
- HIBP verificó la integridad de los datos y ofrece una función de búsqueda centrada en la privacidad
- Medidas de seguridad recomendadas para los usuarios
- Usar un administrador de contraseñas
- Crear contraseñas fuertes y únicas
- Usar passkeys y activar la autenticación multifactor (MFA)
- HIBP señala que este trabajo fue un proyecto muy costoso en tiempo y dinero, y pide a los usuarios que, en lugar de solicitar acceso a los datos, se enfoquen en mejorar sus hábitos de seguridad
1 comentarios
Comentarios de Hacker News
Ha habido demasiadas filtraciones de datos hasta ahora. Siento que mi dirección, SSN, número de teléfono, correo electrónico y todo lo demás ya quedaron expuestos varias veces
He recibido avisos de filtraciones de universidades, sitios de empleo, redes sociales y más, y además supongo que mi información también debe estar circulando por ahí mediante análisis legítimos de big data
Ahora guardo y administro contraseñas fuertes en Bitwarden, pero siento que mis cuentas antiguas de hace años todavía podrían estar en riesgo
Sinceramente, ya no sé qué se puede hacer a estas alturas. Da pena pensar que mi información ya está allá afuera
En mi tiempo libre estoy limpiando cuentas viejas. Gracias a eso, puedo identificar de inmediato el origen del spam o de una filtración por la dirección de correo
Con filtrado Sieve se puede clasificar de forma mucho más precisa. Si usas juntos
envelope toyheader to, puedes filtrar correctamente incluso correos en BCC o enviados a aliasDocumentación relacionada: RFC5228 Sieve Filtering
Antes incluso recuperé una cuenta que había olvidado gracias a un correo de spam que incluía una de mis contraseñas antiguas
Mi esposa dice que proteger la información en línea ya es una batalla perdida. Tal vez tenga razón
Los números de teléfono también antes estaban todos en el directorio telefónico. Todavía se sienten como información pública
Hace tiempo alguien contrató cable usando mi información y me costó mucho trabajo quitarlo de mi historial crediticio
Parece que Troy ahora podrá ahorrar mucho espacio en la base de datos
Casi dan ganas de dejarlo así nomás:
Se siente como si ya hubieran comprometido todos los correos
En cambio, el correo que uso para cosas varias ya tiene 9 filtraciones registradas
Parece que en estos datos viene incluida una filtración no divulgada de Spotify
A inicios de 2020, alguien inició sesión en mi cuenta de Spotify con una contraseña débil desde una IP de EE. UU.
Unas horas después Spotify me envió automáticamente un restablecimiento de contraseña, pero nunca hubo un aviso oficial de filtración
Hasta ahora ese correo aparece en HIBP
Respeto el trabajo de Troy Hunt, pero aunque busque mi correo en Have I Been Pwned, no hay una acción práctica real que pueda tomar
El sitio solo muestra el mensaje de “estás en riesgo, así que administra bien tus contraseñas”
Cambiar más de 500 contraseñas simplemente no es realista. Al final uno termina dependiendo de gestores de contraseñas como Bitwarden, 1Password o Chrome
Yo antes reutilizaba la misma contraseña y una vez me comprometieron todas las cuentas
Ahora solo memorizo la contraseña maestra del gestor, la de Gmail y la de cifrado de disco; todo lo demás lo genera el gestor
Y activo 2FA (U2F/WebAuthn) donde sea posible
1Password funciona de la misma manera y no guarda nombres de cuenta, así que no crea un nuevo riesgo de filtración
Pero la mayoría eran contraseñas que ya venían de filtraciones viejas, así que intento evitar acciones innecesarias
Como uso muchas direcciones de correo personalizadas, para revisarlas en HIBP necesito una suscripción de pago
Manejo cientos de correos, así que es incómodo. Aun así, sigue valiendo la pena usar una dirección única para cada sitio
Hace tiempo, por la filtración de Facebook, comprometieron uno de mis correos viejos, y otra persona volvió a registrar ese dominio para intentar secuestrar la cuenta
Por suerte, pude frenarlo gracias al 2FA y a las alertas de seguridad de Facebook
Hay que quitar de las cuentas cualquier dirección de correo que ya no se use
Desde que iCloud y Gmail facilitaron conectar dominios personalizados, este riesgo se volvió mayor
Me pareció interesante la parte de que corrieron Azure SQL Hyperscale con 80 núcleos durante 2 semanas
Para gestionar solo correos y contraseñas, SQL parece una elección excesiva.
Incluso con 15 mil millones de registros, 600 GB suenan como algo que un servidor normal podría manejar
Las actualizaciones in-place eran lentas, así que crearon una tabla aparte, y además al enviar notificaciones por correo también toparon con los límites del proveedor de email
El título de “Microsoft Regional Director and MVP” resulta confuso
Podrías crear un archivo de 20 GB con hashes SHA1 ordenados, y con búsqueda binaria o un índice basado en la distribución del hash podrías lograr consultas de 1 solo I/O
Si lo divides en 65,536 fragmentos y los ordenas, también resuelves el problema de memoria
Una estructura así se podría operar en Blob Storage por unas 50 veces menos costo que Azure SQL
Parece que los datos de HIBP tienen algún tipo de vencimiento. Antes mi correo aparecía en la filtración de Dropbox, pero ahora ese registro ya no está
Página de la filtración de Dropbox
Tengo curiosidad por saber cuál es mejor entre Bitwarden / 1Password / Proton Pass
Proton Pass todavía me parece demasiado nuevo como para confiar plenamente, y además siempre viene a la mente eso de “no pongas todo en una sola canasta”
Elegí Bitwarden porque es open source, y espero que, como tiene una gran base de usuarios gratuitos, los problemas se detecten y resuelvan rápido
Además, si usas una cuenta de negocios, te incluyen gratis una cuenta familiar, lo cual es una ventaja
Aun así, la filosofía open source de Bitwarden también es algo muy válido a considerar
Creo que el título de esta publicación habría sido más preciso como “1.3 mil millones de contraseñas filtradas”
El número es un poco menor, pero el significado es mucho mayor