微软AI研究部门在发布开源模型时意外泄露38 TB训练数据。

事件分析

近日，云安全公司Wiz研究人员发布了关于微软人工智能研究部门员工意外泄露38 TB数据的研究报告。报告称微软员工在发布开源训练数据时，意外分享了一个包含有泄露的信息的错误配置的Azure Blob存储桶（storage bucket）的URL，其中包含38 TB的人工智能训练数据，这些数据本身是用作迁移学习训练的。

数据泄露的原因是使用了权限过大的Shared Access Signature (SAS) token。SAS token可以用于Storage的访问权限设置，可以实现对分享的文件的完全控制。SAS token正确使用可以对存储资源提供一种安全的授权访问方式。其中包括对客户端数据访问的精准控制，指定可以交互的资源，定义与资源相关的权限，确定SAS token的有效时间。

SAS token很难监控，因为微软并未在Azure中提供一种中心化的管理方式。由于缺乏监控和管理，SAS token也会带来安全风险。因此需要对其的使用需要尽可能地限制。此外，token还可以被配置为永久有效，因此使用账户SAS token进行外部分享是不安全的。

暴露的数据包括微软员工的个人信息备份，包括微软服务的密码、安全密钥、来自359名微软员工的超过3万条Teams消息。

9月18日，微软称没有客户数据暴露，该安全事件也不影响其他内部服务。