某车企使用用户敏感数据训练AI模型，因数据泄露而事发

来源：安在

原文：cybernews

作者：Paulina 某初创公司作家

仅供学习，如有侵权，请联系删除！

在如今AI飞速发展的背景下，越来越多的企业开始训练起独属于自己的AI大模型。从现实来看，AI大模型能够为企业提供深入的洞察和预测，企业可以通过由AI大模型所分析出来的结论做出更科学的决策，比如市场趋势分析、消费者行为预测等。同时，AI大模型也可以帮助企业自动化完成一些重复性、繁琐的工作，比如自动回复客户邮件、自动分类垃圾邮件等，从而提高工作效率。

但对于AI大模型而言，其最关键的一点在于：AI大模型需要各种数据进行训练。比如根据历史数据和实时数据，AI大模型可以优化业务流程，提前发现潜在问题并采取相应的措施来避免。再比如，通过分析客户反馈意见等数据，AI大模型可以帮助企业更好地理解客户需求，从而提高产品质量。

因此，对于需要海量数据的AI大模型而言，数据安全成为了AI发展史上永远绕不开的话题和挑战。近日，就有国外团队发现，某头部车企以及其他一些公司正在使用用户敏感数据以训练AI模型。

因数据泄露而败露

Europrivacy认证
文末扫描二维码咨询
CAIM报名
点击
CAIL报名
点击

2024年2月1日，国外研究团队发现了一起数据泄露事件，事件主体是一家名为Rawdamental的数据收集和分析公司，由于其内部系统的配置问题，导致了许多与之合作的企业数据都遭到了泄露，其中不乏各企业用户的个人隐私和敏感数据。

Cybernews的作家Paulina 对此表示，尽管在荷兰公司注册处找不到名为Rawdamental的公司，但多家荷兰企业都使用了Rawdamental的服务。“此次发现的安全事件影响了十多家公司的用户，这些公司可能都使用了Rawdamental的数据收集服务，其中还包括拥有近7000名员工的跨国汽车经销商Van Mossel。”

Paulina列举了此次受泄露事件影响的公司，他们分别为：

1、汽车经销商——Van Mossel

2、软件公司——Simpul.nl 和 Divtag.nl

3、摩托车零件市场——Motorparts-online.com

4、营销机构——InovaMedia

5、烟花零售商——Vuurwerkbestel.nl6、室内装饰零售商——Oletti.nl7、圣诞礼物服务商

——Kerstpakkettenexpress.nl

和kerstcomplimenten.nl

8、荷兰赛车粉丝俱乐部——Ttassen-fanbase.com

Paulina表示，之所以Rawdamental需要收集各企业的用户数据，旨在各企业提供初始数据集，以训练AI模型来预测用户行为。“虽然使用企业AI模型的道德性值得商榷，但当前的数据泄露事件表明了，此类服务的安全性仍然值得关注！”

目前，Cybernews已经联系了使用Rawdamental服务的公司，但尚未收到回复。Paulina说：“我们的调查发现，此次泄露是由于Kibana公司的仪表板（一个流行的在线工具，用于搜索、可视化和分析存储的数据）缺少身份验证而造成的。这个缺失身份验证的仪表板导致Kibana内部数据自2021年12月以来就一直是可以公开访问的状态。”

据Paulina所言，该公司尚未对Cybernews或荷兰计算机应急响应小组（CERT）的联系做出回应。

基于私人数据训练AI模型

Rawdamental的商业模式是基于为其客户收集大量的数据，以创建网站访客的独特画像。通过收集点击流数据，该公司编制了关于用户行为的庞大数据块，这些数据块可以被公司用来训练他们的AI模型。

Paulina对此表示，使用此类数据集来训练AI是非常危险的。“我们对泄露的数据进行了调查，结果显示，在收集的数据中包含了用户个人信息和隐私。也就是说，基于用户私人数据训练的模型，可能会在用户未经同意的情况下泄露敏感信息。”

Cybernews的安全研究员Aras Nazarovas同意此观点，他表示：“这是社会环境中，AI工具层面一个众所周知的风险，多个组织已禁止这样的使用方法，因为担心敏感的公司信息可能会泄露给相关的运营商。此次泄露事件也提醒了我们，此类风险同意存在于传统的在线工具中。”

经过国外研究团队总结，泄露的网络流量数据包括：

1、用户的IP地址

2、访问的URL

3、访问的页面标题

4、用户代理

5、用户名以及用户正在参与的项目

6、基于不同类型元数据创建的用户标识符

未能匿名化的用户数据

Nazarovas说，除了数据泄露为威胁者创造了明显的安全漏洞外，另一个让人担忧的地方在于，大多数公司对用户数据的匿名化处理不当。“比如像Rawdamental这样的服务，匿名化用户数据是至关重要的。尽管该公司确实在匿名化方面做出了实践，但调查显示，他们未能预见到所有潜在的情况。”

Nazarovas拿Rawdamental的客户平台举例，他表示，这些平台很可能专门用于会计，而在这些平台上的标题标签中有着可识别个人身份的信息，比如姓名和项目，这些信息会出现在浏览器的标签名中。“显然，Rawdamental没有为这种情况实施保护措施，因此他们收集到了敏感的用户数据。此外，收集的数据中还包含了用户的IP地址，这表明在完全匿名化数据集方面的实践是无效的。”

另一方面，Paulina 指出，除了Van Mossel之外，大多数受影响的服务都没有披露那些“用于跟踪和指纹识别的第三方cookie”。“这意味着，公司隐私政策的模糊性让用户无法确定他们的个人信息是否已与Rawdamental等第三方服务共享。”

公司的回应

国外相关报道发布以后，Rawdamental主动联系了Cybernews，声称内部已经开始调查此事，并已经开始实施相关措施以“增强其系统的安全性”。

据Rawdamental公司发言人声称，开放的Kibana实例是某测试项目的一部分。能够确定的是，项目在IP地址身份验证的安全方面出现了错误，但这些数据并未用于AI训练，而仅仅是被收集了。

另一位发言人在电子邮件中回复道：“我们现在的首要任务是确保数据安全，当然内部已经开始通知了可能受影响的合作方。我们将与有所关联的公司保持密切合作，协助他们解决这一事件可能带来的潜在影响。对于此次事件的发生我们深感遗憾，我们会向受影响的客户表示诚挚的歉意。”

企业能否使用个人数据训练AI大模型？

通过此次国外的数据泄露事件，我们不禁会思考：在数据安全如此重要的背景下，企业还能否继续使用个人数据来训练AI大模型？从国内各专家的回应来看，在科技、经济如此激烈竞争的国际形势下，这是必然的趋势，但企业使用数据时必须遵守相关的法律法规和伦理准则，也就是说，企业必须确保所使用的用户个人数据具有合法来源，并已获得用户的明确同意或符合法律、行政法规规定的其他情形，比如《网安法》、《数安法》、《个保法》等就是企业最好的依据。

有专家提出，在使用用户个人数据训练AI大模型时，企业应采取必要的技术和管理措施来保护用户的隐私。例如，对数据进行脱敏处理，避免在训练过程中泄露用户的敏感信息。企业还应建立严格的数据访问和使用权限管理制度，确保只有经过授权的人员才能访问和使用用户个人数据。该名专家还表示，当使用用户个人数据训练AI大模型时，企业应确保模型的决策过程透明且可解释，这有助于用户理解模型的工作原理和结果，并增强对模型的信任。

而内控制度中较为重要的一环便是责任与问责，即企业在使用用户个人数据训练AI大模型时，要明确相关人员的责任，并制定出符合法律法规的流程和体系。如果发生数据泄露或滥用等情况，企业还应积极采取措施进行补救，并向相关监管机构报告。

当然，在使用数据方面，也有专家表示，企业应采取有效措施提高训练数据的质量，确保数据的真实性、准确性、客观性和多样性。这有助于提高AI大模型的性能和泛化能力。

综上所述，企业可以在遵守相关法律法规和伦理准则的前提下，使用用户个人数据来训练AI大模型。然而，在使用过程中必须确保数据的合规性、质量、隐私保护。同时，企业还应关注最新的技术发展趋势和监管要求，以便更好地应对挑战并抓住机遇。

一些措施和预防

如何在保障AI大模型训练效果的同时，有效防止数据泄露？首先，企业可以采用先进的加密技术对数据进行处理，确保数据在传输和存储过程中的安全。同时，企业可以通过匿名化和去标识化技术，降低数据与个人身份的直接关联，进一步保护用户隐私。关于匿名化上文已有涉及，从国外安全专家的要求来看，匿名化应做到覆盖完全，故此，关于匿名化的审核、评估和检查必不可少。

当然，最重要的还是建立完善的数据安全管理体系，对数据进行分类分级，明确数据的访问权限和使用范围。国内安全专家提出，企业要加强对数据传输和存储过程中的监控，及时发现和应对潜在的安全风险。此外，企业还应关注AI系统的安全漏洞，定期进行安全测试和漏洞修复，确保系统的安全性。

从目前相关实践来看，管理层面的保障措施必不可少。比如在收集和使用用户数据时，企业应明确告知用户数据的使用目的和范围，并征得用户的明确同意。同时，加强对数据使用的监管，确保企业和合作伙伴在使用数据时遵循相关法律法规，不得将用户数据用于非法用途。

企业内部可以鼓励安全人员在数据隐私和安全技术方面进行创新，采用最新的安全技术和解决方案，提升数据保护能力。例如，利用区块链技术实现数据的去中心化存储和访问控制，降低数据泄露的风险。由于数据隐私和安全是全球性问题，所以国内企业也可以借鉴其他国家的最佳实践，加强与国际同行的合作，共同研究数据隐私和安全技术，分享安全经验和教训，共同提升全球数据保护水平。

在持续监测与改进方面，有安全专家表示，企业应建立持续的数据安全监测机制，对AI大模型训练过程中的数据安全进行实时监控。一旦发现数据泄露或其他安全风险，应立即采取应对措施，防止风险扩大。同时，企业还应定期对数据保护措施进行评估和改进，以适应不断变化的安全环境和业务需求。

加入AITrust开放社群