探寻合规之道,共筑数据保障之堡。专注为数据安全管理者、技术专家、隐私法务、律师等专业人士打造的知识共享与交流平台。
点击 "合规社" > 点击右上角“···” > 设为星标⭐
■作者:木言
生成式AI(Generative AI)作为人工智能领域的突破性技术,以其强大的数据生成、模式识别和预测能力,正在深刻影响传统的网络安全领域。但是对于数据安全的引用,笔者还没有看到体系化的梳理。本文尝试将围绕生成式AI在数据安全中的某个具体应用场景展开探讨。
在前面的文章中,我们将数据的访问的场景主要分三种大的场景:
从上图看,访问的主体的是各类身份、客体是数据源。因此,
第一步:我们是需要明确可以被访问的资源,那就是分类分级。
第二步:是梳理访问数据源的各类主体,分别是业务侧身份访问、接口身份侧、工具侧身份访问。
围绕这个主题我们简述一下生成式AI的应用场景。
传统的数据分类方法依赖于人工规则或简单的机器学习模型,效率低下且难以适应复杂的数据环境。生成式AI通过其强大的语义理解和数据生成能力,极大提升该工作的范围和效率。
自动识别数据
生成式AI模型,特别是基于自然语言处理的预训练模型,能够高效地解析非结构化数据(如文本、文档、邮件)中的敏感信息。在某些场景下,LLM还能够基于上下文语义,进行元数据补全、注释补全等工作,提升字段的可读性和可理解性。
生成数据标签与规则
生成式AI不仅能识别数据,还能生成分类规则和标签。在复杂的数据环境中,手动制定分类规则不仅耗时耗力,且容易出错。生成式AI可以通过分析历史数据,生成符合企业需求的分类规则。
动态更新分类模型
数据环境的动态变化要求分类模型具有自适应性。生成式AI通过持续学习和生成新数据样本,可以动态更新分类模型。例如,当企业引入新的业务系统或数据类型时,生成式AI能够快速生成相关样本,调整模型以适应新的数据特征,从而确保分类分级的实时性和准确性。
非结构化数据的多模态解析(不在本场景中)
部分大模型支持扩模态输入,如文本、图片、音频、视频,可以对多种类型的数据进行融合建模和分类分级。但是此类模型的部署成本高,也是制约非结构化数据分类分级工作的核心因素。
生成式AI在业务访问风险监测中的应用
针对业务侧的身份直接访问,在笔者的前文中有提及,需要基于IPDR原则构建以数据为核心的业务数据安全体系。当系统具备基础的数据安全防护能力之后,我们需要关注的员工日常工作用的访问数据的环节,即数据访问的风险监测。
数据访问异常:员工访问了未经授权的敏感数据或超过了其权限范围的数据。
数据下载异常:员工大量下载、拷贝或传输敏感数据,特别是与其工作职责不符合的情况下。
异常登录行为:员工在非工作时间或非常规地点登录系统,或者使用了其他员工的账号进行登录。
异常文件操作:员工在短时间内频繁删除、复制或移动大量文件,或者对关键系统文件进行修改。
这一类的风险,多数情况下我们可以基于在系统中设定部分静态的防护规则,比如限定数据访问量、限定数据的频次等。复杂一点的,可以考虑以数据资产与用户实体为对象,根据数据资产与用户历史行为以及同群体行为作为基线,基于此可通过基线特征偏移度来预测异常人员、异常行为可能会带来的安全事件,并以此做到早发现早防护,尽早介入数据泄露行为管控。
此类场景传统的小模型已经足够应对,生成式AI在其中应用的相对有限。
生成式AI在业务侧访问API风险监测中的应用
API是现代数字化系统的核心组件,用于数据交换和功能调用。然而,API的开放性也使其成为数据泄露和攻击的高风险点。生成式AI在API风险监测中发挥了重要作用,能够通过其异常检测和模式生成能力,显著提升API安全性。
1. API资产测绘阶段
在全生命周期管理框架的资产测绘阶段,采用主被动结合的方式测绘API资产画像与影子API探测。通过AI智能技术对API资产进行全面梳理与提纯,分级分类管理。
2.行为建模阶段
构建业务行为模型以检测接口调用时序异常、逻辑异常;利用生成式AI识别非常规参数组合;结合上下文与语言分析敏感数据泄漏,确保API在数据传输和存储过程中的安全性。
3. 自动化生成安全策略阶段
基于生成式AI的模型可以分析历史API调用日志,生成针对特定API的安全策略。例如,生成式AI可以根据API的使用模式,自动生成访问控制列表(ACL)或速率限制规则,减少人工干预的需求。自动化策略生成方式能够快速响应新的威胁场景。
4、自动化攻防演练阶段
利用生成式AI模拟攻击路径,生成黑产变种攻击样本,预演漏洞利用过程,提前发现并解决潜在安全隐患,并针对已修复漏洞进行二次验证,形成从资产测绘到攻防演练的闭环体系。
该场景下生成式AI的应用是当下数据安全的一个热点,各个厂商都先后发布的对应的产品,本文不再展开。
生成式AI在各类直连数据访问的风险监测应用
在这里我们以一个典型的攻击为例子阐述:外部攻击者在社交媒体、暗网扒信息,翻官网、查员工账号,甚至用搜索语法精准找漏洞,挖到管理员邮箱就开始制定攻击计划。下一步发钓鱼邮件伪装成老板通知,藏恶意链接或附件。当点开后,电脑被植入木马,创建隐藏账号、修改日志“隐身”。装Rootkit工具当 “双面镜”,进程注入伪装正常程序。同时通过内网的各类横向移动,获取数据库的访问权限,导出后加密文件,通过隐蔽的C2服务器传输出去并模拟正常流量当“掩护”。
这类安全事件,你很难定义其为单独的数据安全事件。更多的还是网络安全事件,数据被窃取只是结果。因此生成式AI成熟的应用是在网络安全的事件研判分析,并不是独立去说数据安全事件分析。
我们可以简单梳理一下生成式AI在安全事件研判过程中的逻辑,核心是围绕身份、行为、上下文、IT资产、敏感数据资产。
下面是结合前文一个网络安全事件研判流程:
通过语义理解与上下文建模技术,对原始告警进行业务意图识别,区分正常行为与潜在威胁; 对可明确判断为无害的告警(如合法操作、系统自检等)直接打标并归入无害事件分组,对疑似恶意或不确定的告警进入下一阶段深入分析。
对于生成式AI初步识别为恶意的事件,启动深度调查流程,结合多个安全模块进行辅助验证和综合分析: 实体提取:自动识别事件中的关键实体,包括攻击源、受害者IT资产、敏感数据资产等实体。 威胁情报联动:对接本地及外部情报库,验证相关IP、域名等是否关联已知威胁。 资产指纹识别:评估受害资产的类型、数据资产的敏感等级、暴露面与重要性,辅助影响范围判断。 综合事件分析引擎:基于多维度信息融合,如基于罕见值模型、时间序列模型以及聚类等无监督模型,为身份的行为序列模型提供行为特征,提早发现异常账号、异常数据访问、取用行为。对行为进行结果判定;若判定为恶意事件,则进一步自动分类其攻击类型,标注攻击者身份、受害者资产及攻击后果,并执行事件归并与关联分析,构建安全事件明细。 在事件综合分析过程中,如果实体中涉及到敏感数据,需要考虑在研判要素中加入数据安全事件的分析维度,提升整个事件的风险等级。 从前文的整体分析逻辑来看,在当你定义一个数据安全事件,需要将数据资产和前面的所有身份、IT资产、行为做关联,但是数据资产本身的不可见性(被加密)、以及流动性(同一份数据存在多个系统中),进一步提升了风险研判的难度。
在基础模型风险运营的基础上,对于部分有大量历史告警数据的客户,可以利用生成式AI从聚焦事件内容本身转移到行为的分析,通过数据处理 对往期日志数据实施清洗/过滤、标准化、关联补齐、添加标签等处理,将标准数据加载到数据存储中进行进一步的行为挖掘。
在数据安全分类分级中,生成式AI通过自动化识别和动态更新极大提升了效率。在API风险监测中,其异常检测和策略生成能力增强了系统安全性。在数据安全事件研判中,由于网络安全和数据安全边界模糊,生成式AI通过从身份、行为、上下文和数据资产等维度进行风险检测,由于多数时候数据资产的不可见性/流动性,使得目前的主要应用还是聚焦在网络安全层面。
以上是个人针对生成式AI在数据安全一个小的应用场景体系化梳理,不足之处还希望各位读者多多批评指正。
本文作者 木言 数字安全业务规划专家 在金融、政府、医疗、等行业有丰富的行业实践经验,对数据安全体系有深入的理解,长期关注和从事零信任、CARTA、CSF等技术框架在数据安全领域的实践落地,擅长数据安全方向的技术体系建设与应用、数据安全体系的创新与实践等。
📖 推荐阅读
880+已加入
「 数据安全合规知识星球 」是一个专注于数据安全和个人信息保护的资源和知识集散地。星球提供图解PPT、行业解决方案、数据安全合规管理制度模板、评估工具及评估报告模板、监管政策及标准汇编整理等,帮助组织或个人理解并遵守数据安全合规的法律法规,促进操作和业务流程的安全合规。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...