Investigadores de IA de Microsoft expusieron accidentalmente 38 TB de datos

(wiz.io)

7 puntos por GN⁺ 2023-09-19 | 1 comentarios | Compartir por WhatsApp

El equipo de investigación de IA de Microsoft expuso accidentalmente 38 terabytes de datos privados al publicar datos de entrenamiento de código abierto en GitHub
Los datos expuestos incluían copias de respaldo de discos de trabajo de dos empleados, secretos, claves privadas, contraseñas y más de 30,000 mensajes internos de Microsoft Teams
Estos datos se compartieron usando tokens SAS, una función de Azure que permite compartir datos desde una cuenta de Azure Storage. Sin embargo, el enlace estaba configurado para compartir toda la cuenta de almacenamiento, lo que provocó la exposición de los datos
El incidente resalta los nuevos riesgos que enfrentan las organizaciones al usar IA y muestra la necesidad de controles de seguridad y salvaguardas adicionales a medida que más ingenieros manejan grandes volúmenes de datos de entrenamiento
El equipo de investigación de Wiz descubrió la exposición al encontrar en internet un contenedor de almacenamiento mal configurado
Encontraron un repositorio de GitHub llamado robust-models-transfer dentro de la organización de Microsoft, creado para ofrecer código de código abierto y modelos de IA para reconocimiento de imágenes, pero que debido a una mala configuración permitía una URL con acceso a más que solo los modelos abiertos
El token usado también estaba mal configurado para permitir permisos de "control total", por lo que un atacante podía ver, eliminar y sobrescribir archivos existentes
Este incidente subraya los riesgos de seguridad de los tokens SAS, ya que otorgan un alto nivel de acceso a las cuentas de almacenamiento y pueden tener problemas de expiración. Además, son difíciles de administrar y revocar
El equipo de Wiz recomienda evitar el uso de Account SAS para compartir externamente debido a la falta de seguridad y gobernanza, y sugiere usar Stored Access Policy o User Delegation SAS para compartición con límite de tiempo
El equipo también recomienda crear cuentas de almacenamiento dedicadas para el intercambio externo y usar CSPM para monitorear y aplicar políticas
Este incidente recuerda a los equipos de seguridad que deben entender los riesgos inherentes en cada etapa del proceso de desarrollo de IA, incluyendo el riesgo de compartir datos en exceso y los ataques a la cadena de suministro
Microsoft posteriormente invalidó el token SAS y lo reemplazó en GitHub, además de completar una investigación interna sobre el impacto potencial

1 comentarios

GN⁺ 2023-09-19

Opiniones de Hacker News

Artículo sobre el incidente de exposición de datos causado por investigadores de IA de Microsoft, pero los comentaristas señalan que esto no está directamente relacionado con la IA
El problema tiene más que ver con el proveedor de nube, tokens de seguridad confusos y el manejo de descargas de datos a gran escala
Uno de los riesgos específicos de IA que se destaca es el uso de objetos serializados de Python para almacenar modelos de IA grandes, lo que puede estar ofuscado y potencialmente incluir código malicioso
Este incidente se debió a una mala configuración de los tokens de almacenamiento, un caso común que subraya la necesidad de pruebas de penetración regulares
Se critica el uso de archivos Pickle y tokens SAS en el almacenamiento de Azure, y se sugiere usar control de acceso basado en roles (RBAC) en su lugar
Este incidente revela la ausencia de defensa en profundidad; los tokens SAS no tenían período de expiración, ofrecían acceso profundo e incluso incluían respaldos de máquinas con sus propios tokens
Se sugiere destruir todos los secretos y variables de entorno, y que la mayoría de los sistemas podrían funcionar con un esquema basado en roles
Esto parece haber sido una falla humana al generar tokens de seguridad, y se propone que las organizaciones configuren OrgPolicy para evitar el intercambio masivo de tokens de autenticación/credenciales
Hay sorpresa de que alguien pudiera exportar mensajes de Teams desde Teams
La exposición de datos continuó durante dos años y fue corregida hace dos meses
A algunos comentaristas no les gusta el sistema de gestión de claves de Azure y sugieren que sería mejor tener claves nombradas ilimitadas para cada contenedor
Este caso parece demostrar la dificultad de la seguridad en la nube, donde uno o dos errores pueden exponer terabytes de datos

Investigadores de IA de Microsoft expusieron accidentalmente 38 TB de datos

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News