7 puntos por GN⁺ 2023-09-19 | 1 comentarios | Compartir por WhatsApp
  • El equipo de investigación de IA de Microsoft expuso accidentalmente 38 terabytes de datos privados al publicar datos de entrenamiento de código abierto en GitHub
  • Los datos expuestos incluían copias de respaldo de discos de trabajo de dos empleados, secretos, claves privadas, contraseñas y más de 30,000 mensajes internos de Microsoft Teams
  • Estos datos se compartieron usando tokens SAS, una función de Azure que permite compartir datos desde una cuenta de Azure Storage. Sin embargo, el enlace estaba configurado para compartir toda la cuenta de almacenamiento, lo que provocó la exposición de los datos
  • El incidente resalta los nuevos riesgos que enfrentan las organizaciones al usar IA y muestra la necesidad de controles de seguridad y salvaguardas adicionales a medida que más ingenieros manejan grandes volúmenes de datos de entrenamiento
  • El equipo de investigación de Wiz descubrió la exposición al encontrar en internet un contenedor de almacenamiento mal configurado
  • Encontraron un repositorio de GitHub llamado robust-models-transfer dentro de la organización de Microsoft, creado para ofrecer código de código abierto y modelos de IA para reconocimiento de imágenes, pero que debido a una mala configuración permitía una URL con acceso a más que solo los modelos abiertos
  • El token usado también estaba mal configurado para permitir permisos de "control total", por lo que un atacante podía ver, eliminar y sobrescribir archivos existentes
  • Este incidente subraya los riesgos de seguridad de los tokens SAS, ya que otorgan un alto nivel de acceso a las cuentas de almacenamiento y pueden tener problemas de expiración. Además, son difíciles de administrar y revocar
  • El equipo de Wiz recomienda evitar el uso de Account SAS para compartir externamente debido a la falta de seguridad y gobernanza, y sugiere usar Stored Access Policy o User Delegation SAS para compartición con límite de tiempo
  • El equipo también recomienda crear cuentas de almacenamiento dedicadas para el intercambio externo y usar CSPM para monitorear y aplicar políticas
  • Este incidente recuerda a los equipos de seguridad que deben entender los riesgos inherentes en cada etapa del proceso de desarrollo de IA, incluyendo el riesgo de compartir datos en exceso y los ataques a la cadena de suministro
  • Microsoft posteriormente invalidó el token SAS y lo reemplazó en GitHub, además de completar una investigación interna sobre el impacto potencial

1 comentarios

 
GN⁺ 2023-09-19
Opiniones de Hacker News
  • Artículo sobre el incidente de exposición de datos causado por investigadores de IA de Microsoft, pero los comentaristas señalan que esto no está directamente relacionado con la IA
  • El problema tiene más que ver con el proveedor de nube, tokens de seguridad confusos y el manejo de descargas de datos a gran escala
  • Uno de los riesgos específicos de IA que se destaca es el uso de objetos serializados de Python para almacenar modelos de IA grandes, lo que puede estar ofuscado y potencialmente incluir código malicioso
  • Este incidente se debió a una mala configuración de los tokens de almacenamiento, un caso común que subraya la necesidad de pruebas de penetración regulares
  • Se critica el uso de archivos Pickle y tokens SAS en el almacenamiento de Azure, y se sugiere usar control de acceso basado en roles (RBAC) en su lugar
  • Este incidente revela la ausencia de defensa en profundidad; los tokens SAS no tenían período de expiración, ofrecían acceso profundo e incluso incluían respaldos de máquinas con sus propios tokens
  • Se sugiere destruir todos los secretos y variables de entorno, y que la mayoría de los sistemas podrían funcionar con un esquema basado en roles
  • Esto parece haber sido una falla humana al generar tokens de seguridad, y se propone que las organizaciones configuren OrgPolicy para evitar el intercambio masivo de tokens de autenticación/credenciales
  • Hay sorpresa de que alguien pudiera exportar mensajes de Teams desde Teams
  • La exposición de datos continuó durante dos años y fue corregida hace dos meses
  • A algunos comentaristas no les gusta el sistema de gestión de claves de Azure y sugieren que sería mejor tener claves nombradas ilimitadas para cada contenedor
  • Este caso parece demostrar la dificultad de la seguridad en la nube, donde uno o dos errores pueden exponer terabytes de datos