本篇正文[译文,见1-9章节]的完整题目是:
以数据为中心的革命:数据安全如何成为人工智能时代的重心
该文发表于2024年12月20日,是2024年笔者看到关于数据安全最优秀的一篇外文报告,很多观点与我思考的一致,所以快速重新整理发出,希望大家搞清楚名词背后解决的实际问题。
数据安全格局正在经历重大转变,并已到达一个转折点。这一转变是由数据的激增、生成式人工智能的兴起以及数据合规性法规日益严格所推动的。传统的基于网络的安全措施已不再足够,因为数据本身已成为新的边界。这需要转向以数据为中心的安全策略。
PS:为什么?可以参阅笔者如下文章。
组织面临众多挑战,包括数据泄露、合规处罚以及数据本身的动态性质。其他紧迫问题涉及GenAI的复杂性、网络弹性和数据蔓延。为了应对这些挑战,全面的数据安全计划必须涵盖数据发现、分类、治理、数据保护、监控、响应和恢复。
本文提出了一个案例,说明为什么网络安全的下一个重大机遇将集中在数据及其周围,而数据是每个组织的皇冠上的明珠。与Cyera(数据安全供应商)合作编写了报告的后半部分,使用他们的平台作为数据安全革命的案例研究,以及他们的平台如何说明这一方向。此外,这项研究建立在对不同安全运营商进行的广泛数据安全市场研究的基础上。软件分析师与多位首席数据官、领导者和安全领导者进行了交谈,以编写本报告。
本报告涉及的供应商Cyera阐明了几个观点(如下),再次印证笔者在2024年初发文【】的内容。
1.Cyera认为:传统方法的局限性,即将数据和身份视为独立的实体,分别进行保护,导致安全流程碎片化,难以获得全面的安全态势视图。随着云服务的采用,客户需承担数据保护和身份访问管理(IAM)的责任,这推动了数据安全和IAM的融合。企业越来越意识到将数据安全和IAM视为孤立领域会导致效率低下和次优结果。未来的IAM、数据管理和数据安全将密不可分。组织应将数据安全和IAM整合到统一的安全策略中,以更好地保护敏感数据和身份。
2.Cyera认为:重新定义数据分类,传统方法(正则等)缺乏对数据上下文的理解,无法准确判断数据的真实含义。例如,关键词“Jordan”可能指人名、国家名(约旦)或品牌名,但传统方法无法区分,其他传统算法(文件指纹和精确数据匹配),如文件指纹和精确数据匹配(EDM),在处理大量数据集时资源消耗大,计算成本高。AI和LLM的引入标志着数据分类领域的重大转变,它们能够理解数据上下文,实现前所未有的准确性。Cyera通过其创新的AI和LLM技术,重新定义了数据分类的标准,提供了高精度、高效率且上下文感知的数据分类解决方案,有效解决了传统方法的局限性,为组织的数据安全提供了强有力的支持。
Cyera对EB级Snowflake数据进行分类并发现超过1万亿条处于危险中的敏感记录。强调了对强大的数据安全态势管理 (DSPM) 的迫切需求。这一里程碑得益于我们行业领先的扫描速度:每天2PB,或每分钟1TB(每位客户)。从这个角度来看,1EB可以以4K分辨率存储所有电影约1000万次。对于数据安全专业人员来说,以这种规模扫描和分类信息的能力代表了数据保护的新可能性。它以以前无法实现的规模提供更快的洞察、更多创新、降低风险和更高的合规性。
Cyera的工程师与Snowflake的核心工程团队合作,开发了融合速度、精度和成本效益的尖端方法。以下是实现方法:
(1)智能采样:利用Snowflake的内置聚类技术,Cyera开发了一种无偏差采样方法,可以在不影响质量的情况下进行大规模扫描。
(2)精度估计:Cyera的先进框架可以分析小子集数据,以极高的精度估计敏感记录数量,无需处理整个数据集。
(3)动态扩展:Cyera智能优化客户Snowflake帐户内的扫描资源,确保成本效率、性能和速度之间的无缝平衡。这使得即使是最大的表也可以扫描,而无需闲置计算资源的开销,从而提供无与伦比的效率和可扩展性。
(4)面向安全的部署:我们的部署采用只读方法,确保对生产环境零影响。虽然许多工具都需要管理员权限,但Cyera实现了对Snowflake数据的可见性,不会引入不必要的风险或损害运营安全,并遵守最严格的安全实践(无管理员权限、每日密钥轮换、静态和传输加密等)。
这些创新不仅使Cyera能够处理EB级部署的规模,还为我们的客户提供无与伦比的洞察力,并且月底不会有大笔账单。
以下是Cyera如何为拥有28.5TB Snowflake数据的客户带来即时价值。
(1)下午3:00:一位客户部署了Cyera来扫描其 28.5TB Snowflake 环境以查找敏感数据。
(2)上午8:00(第二天):客户打开他们的Cyera平台,发现他们的整个Snowflake 环境在一夜之间被彻底扫描,识别出16亿条处于危险中的敏感记录,并将它们映射到全球合规框架中。
上述方法是基于业务配合融合式的方案(业务+安全),不可能是基于流量的采集分类,因此国内大多数供应商正在用另一种不太可能走得太远的方法,也正是安全尴尬的地方,业务生态不太好,无奈之举吧,所以不要一味的与国外的参数比较。
以下是Cyera介绍视频,可以看到真正意义做到以数据或者身份为视角,将关联的信息串接到可视化界面中。笔者看视频后,突然解答了我一直的疑问,现在我可以说了,建议ITDR供应商将ITDR看成技术思路,尽快转向DSPM方向,否则将来您的路将很窄了。
正文如下:
1数据安全是网络安全下一件大事的顶峰
如果网络安全的历史可以预示未来,那么它很可能会走向数据安全。我们希望通过回顾收入超过10亿美元(或未来12个月内接近10亿美元)的公司来评估成功(如下图所示),或者“下一件大事”,这些公司在市场类别中采用分层安全方法发展,这是许多安全领导者使用的流行框架。此时间线遵循了从网络安全到现代数据安全的历史:
(1)边界安全(1990 年代):互联网早期的风险导致了Checkpoint和Juniper Networks 等安全供应商的出现,它们的成立旨在保护企业边界安全。
(2)网络安全(2000 年代):这个时代诞生了像 Palo Alto Networks和Zscaler这样围绕防火墙建立的公司。
(3)电子邮件安全(2005):随后,我们看到了Proofpoint和Microsoft Security的崛起,以保护这种攻击媒介。
(4)主机(端点)安全(2010 年代):随着McAfee、Symantec、TrendMicro、Sophos 以及 Crowdstrike 的初步成功,我们看到了保护操作系统和端点的重要性日益提升。
(5)身份安全(2015 年):SaaS应用程序的兴起催生了对身份安全控制的需求,以确定正确的用户及其对企业资源的访问权限。我们看到Okta以及随后的CyberArk成为一个成功的平台。
(6)云和应用程序安全(2020 年代):尽管云安全一直存在,但随着 Wiz 的成功,疫情使其重新兴起。
(7)数据安全(2024 年?):这让我们不禁要问,为什么我们从未见过第一个价值10亿美元的数据安全平台。
2整体数据安全平台的案例
在不断发展的网络安全格局中,数据安全是最大的挑战。尽管数据是最重要的资产,但控制力度往往最弱。第三方解决方案、云环境、SaaS和AI的激增将数据分散到动态位置,包括混合云和多云系统。再加上员工、承包商和合作伙伴的广泛访问,导致可见性和控制方面出现巨大复杂性。随着组织越来越多地采用以数据为中心的基于云和AI驱动的架构,安全方法的根本转变势在必行。传统的数据安全解决方案已不再足够。现代数据环境的动态特性需要实时、适应性强的安全措施。现在是时候建立一个全面的整体数据安全平台来应对这些不断变化的挑战了。
3本研究报告
本报告研究了数据安全领域。它深入分析了全面数据安全计划的基本要素,包括数据发现、分类、保护和销毁。报告还强调了AI/ML和传统技术在转变数据安全计划中的作用。此外,它概述了竞争格局,并展示了著名的数据安全平台Cyera如何通过其整体解决方案应对这些挑战。总之,本报告为努力应对数据安全复杂性并保护其最宝贵资产——数据的组织提供了宝贵的知识。
4关键可行要点
1.安全领导者将数据安全项目列为新年的优先事项。根据YL Venture 基于Forrester的《数据安全状况》(2024 年7月)的调查,目前83%的企业使用终端DLP,但只有13%的企业在云端完全部署了数据安全功能。这一差距,加上日益增长的隐私和合规性需求,使下一代 DLP解决方案成为未来安全战略的关键组成部分。
2.根据对218多名CISO的调查,进入2025年的公司正在制定预算,将数据安全(包括 DLP)列为优先考虑事项。数据显示,DLP已卷土重来,因为近一半的数据安全项目涉及数据防泄漏 (DLP)。在 AI 为问题的分类方面带来的可能性下,这个长期存在的市场似乎正在蓬勃发展;虽然数据安全态势管理作为一个单独的类别似乎正在减少,但机密管理、数据保管和标记化都作为项目出现在讨论中。
3.Gartner已将GenAI周围的数据安全确定为2025年的头号网络安全趋势,而第四大趋势则凸显了组织日益增长的向网络弹性转型的愿望。根据网络安全业内人士和Cyera的研究,75% 的企业计划在未来 12 个月内采用DSPM解决方案
4.目前,企业面临着管理和使用整个企业数据的挑战。整个企业缺乏跨职能协作。企业的各个方面都有数据,因此很难确定并制定一个良好的跨职能战略。
5.每家公司都需要制定数据安全策略,以满足以数据为中心的世界的需求。相对于网络安全历史上的其他类别,数据安全拥有最少的安全解决方案。这为数据安全提供了在网络安全领域打造下一个十亿美元公司的机会。
6.根据我的研究,下一个数据安全平台将建立在强大的数据发现和分类(DSPM)以及围绕数据防泄漏(DLP)构建的整体数据保护机制之上,作为核心基础,为企业中其他数据相关的解决方案提供支持。
7.处于高速增长阶段的Muji进行了全面的分析,题为“网络弹性和数据保护交集的弹性前景”,其中涉及网络安全CNAPP供应商,如CrowdStrike、Palo Alto和Zscaler。
8.本报告旨在提供数据安全生态系统的详细分类,我与Cyera合作编写了此报告,以展示像 Cyera 这样的公司如何引领下一代数据安全平台。
4证据:数据安全收购和投资激增表明数据争夺战
最大的网络安全公司一直在进行军备竞赛,试图通过尽快收购公司来追赶上来保护数据之王。数据安全投资和收购活动的增加凸显了对有效数据保护解决方案的需求不断增长。DSPM 市场经历了大幅增长,融资和并购交易超过 10 亿美元。例如,Tenable最近收购了Eureka Security,这表明数据安全作为其传统漏洞管理解决方案之外的一个关键关注领域的重要性日益增加。
大型网络安全公司的重大收购支持了这一趋势。例如,
lPalo Alto Networks收购Dig Security
lCrowdStrike收购 Flow
lRubrik收购Laminar
lProofpoint 收购Normalyze(2024 年)
lNetskope 收购Dasera(2024 年)
lTenable 收购Eureka(2024 年)
lCyera收购了Trail Security(2024),并以 30 亿美元的估值获得 3 亿美元资金。
Altitude Cyber 称,交易量也在上升,仅2024 年就有114笔交易,总额近26亿美元。自 2020 年以来,已有576笔交易,融资总额达 99 亿美元,这表明数据安全在网络安全解决方案的持续发展中发挥着关键作用。此外,风险资本对数据安全公司的投资也相当可观,整个行业筹集的资金超过5亿美元。这些备受瞩目的交易反映了更广泛的行业趋势,即老牌网络安全公司正在投资数据安全。数据安全市场持续增长,我们预计未来几年还会增长。
5在数据安全中定义数据及其上下文
首先,定义数据及其相关背景非常重要。数据可以有多种形式,包括敏感信息、机密数据、加密算法和AI模型。然而,本报告的重点是敏感业务数据,这些数据可以以各种方式表现出来。
(1)结构化数据:以预定义格式存储的数据,如数据库、电子表格和表格。示例包括 CRM 系统中的客户记录或 HR 系统中的员工数据。
(2)非结构化数据集:不遵循预定义格式的数据,例如电子邮件、文档、社交媒体帖子、图像、视频和聊天记录。这可以包括内部通信线程、客户支持单和演示文件。
这些数据存储在哪里?
这些数据集通常存储在数据库、SaaS、云和 Web 上。
在这些地方,网络安全中的数据呈现各种形式,每种形式都带来独特的安全挑战并需要量身定制的保护措施。
(1)静态数据:是指存储在服务器或云存储等静态位置的信息。它们通常通过加密、访问控制和数据分类来保护,以防止未经授权的访问或篡改。相比之下,
(2)传输中的数据:在网络中移动,受到 TLS/SSL 和 VPN 等安全通信协议的保护,以防止在传输过程中被拦截或篡改。
(3)使用中的数据:需要运行时加密和端点检测,以防止内存驻留攻击。
PS:本文并未详述,可参考笔者历史文章。
5.1可见性仍然是一个挑战
然而,当今许多企业面临的最大挑战是这些数据分散在多个位置。超过48%的信息安全专业人员缺乏对SaaS环境中数据的可视性,这凸显了保护基于云的数据的复杂性。83%的受访者同意缺乏数据可视性会削弱他们的安全态势,这凸显了其在有效保护中的关键作用。
对于那些知道其数据位于何处的组织,超过39%的企业仍报告说,他们仍在本地拥有大量数据,30%的企业报告说SaaS位置显示了企业间的分散性。
5.2背景是关键
由于组织拥有不同类型的数据,可见性必须考虑其相关背景。组织拥有不同形式的数据,例如敏感和受监管数据(如PII、PHI 或财务记录),以确保合规性并避免法律后果。但他们也有其他类型的数据,包括由网络流量或用户活动生成的行为和观察数据,以支持异常检测和威胁情报,或用于其他业务目的。因此,企业需要了解每个数据的背景。他们需要知道:
l如果数据可识别(无论是否为 PII)
l与数据相关的角色以及谁应该拥有适当的访问权限
l区域性(了解与该数据相关的每个地区的监管要求)
l获取数据元数据的能力至关重要,因为每个数据集都是独一无二的
l所有这些因素都凸显了对更好的数据安全解决方案的需求。
6企业当前面临的挑战和数据安全的驱动力
推动人们关注数据安全的主要因素有七个:
1.数据泄露量:重大数据泄露事件影响了各大公司,包括23andMe 、AT&T 、Ticketmaster 、戴尔和美国运通。企业投资 DSPM解决方案的主要原因是为了防止潜在的数据泄露(20%),其次是促进GenAI技术的部署(13%)。企业专注于了解其敏感数据存储在何处,并对其数据存储的内容进行分类,以采取主动措施防止潜在的数据泄露和丢失。数据泄露量:发生过重大数据泄露事件(23andMe 、AT&T 、Ticketmaster 、戴尔、美国运通)。企业购买DSPM解决方案的最大原因之一是防止潜在的数据泄露(20%),其次是促进 GenAI 技术的部署(13%)。企业希望了解其敏感数据存储在何处,并对数据存储中的内容进行分类,以便采取措施避免潜在的数据泄露和丢失。
2.网络弹性和从漏洞中恢复:组织因停机、管理分心、知识产权损失和声誉受损而面临重大财务损失。事实上,53%的组织报告称,仅在过去一年中,敏感信息就遭受了重大损失。戴尔、美国运通、美国银行23andM等重大漏洞凸显了数据安全故障带来的实际成本。根据IBM的年度“数据泄露成本报告”,2024 年全球数据泄露的平均成本达到488 万美元,比上一年增长了10%。
3.从数据泄露中恢复 - 勒索软件费用:超过80%的受数据泄露影响的企业选择支付赎金,2023 年总额达到11亿美元。从数据泄露中恢复 - 勒索软件费用:超过80%的受影响企业支付赎金,2023 年总额达到11 亿美元。
4.采用Gen AI使问题复杂化:随着企业努力保持竞争力,数据已成为一项关键资产。GenAI 中数据的集成增加了对大型语言模型所使用的数据的定位和分类的需求,以防止敏感信息被无意中包含在这些模型中并泄露。模型开发通常涉及开源和闭源模型,以及大量测试,导致一些企业运行超过100种不同的模型。这种复杂性使得很难识别所有模型中的安全漏洞,导致超过40%的公司遇到与AI模型相关的隐私或安全问题。AI co-pilots的兴起正在推动更SaaS系统要求访问企业数据。虽然64%的公司表示在采用生成式 AI 方面面临压力,但84% 的公司认为网络安全是采用的主要障碍。
5.数据是世界上增长最快的资源。数据量正在迅速扩大,导致云数据蔓延和相关风险:数据是组织内增长最快的资产之一,但这种增长往往会导致数据蔓延——数据在多个系统中重复。这给数据管理带来了重大挑战,因为不同的数据源导致缺乏可见性。随着公司利用多个云环境和SaaS平台,管理数据蔓延变得越来越复杂。随着数据的增长,由于访问控制不佳、端口不安全以及备份管理不当,云资源变得更加脆弱。值得注意的是,99%的云身份“特权过多”,80%的数据泄露涉及存储在云中的数据,凸显了数据管理和监督不足所带来的风险。
每天大约会产生4.02亿兆字节的数据。今年将产生约147 zettabytes的数据。2025年将产生181 zettabytes的数据。4年前,平均每家公司有100 个SaaS应用程序,而现在则有3000多个SaaS 应用程序。
6.罚款和监管合规处罚:合规要求(例如HIPAA 、GDPR 、CCPA 、DORA 、LGPD和PIPEDA)最为突出。目前已有137个国家颁布了数据保护法,其中最引人注目的是 GDPR 和 CCPA,预计隐私法规只会继续加强,尤其是最近提出的《美国隐私权法案》。
7.合规框架和敏感数据管理:组织通常不知道他们拥有的敏感信息及其所在位置,从而阻碍了他们充分保护这些信息的能力。只有4% 的企业拥有专门的敏感信息存储。
7全面数据安全方案分类
公司制定数据安全计划后,应实施以下措施:
7.1数据发现、分类和清单:
数据安全的基础步骤包括三个关键部分:
(1)发现:此初始步骤涉及系统地识别和定位组织环境中的所有数据资产。
(2)分类:此过程涉及根据数据的敏感性和重要性对其进行分类和标记,以便应用适当的安全控制。
(3)数据清单:这涉及维护结构化和非结构化数据的综合目录,以确保完全的可见性和控制力。
7.2数据保护:
(1)数据保护和沿袭:现代数据防泄漏系统与云访问安全代理 (CASB) 集成,以提供全面的保护。这些系统监控数据移动、检测敏感信息并防止所有环境中未经授权的访问或泄露 - 无论数据是处于静止状态、使用中还是传输中。
(2)加密和数据安全:多层保护,包括数据脱敏、加密、标记化和散列,确保敏感信息即使被访问也能保持安全。这些技术将敏感数据转换为不可读的格式,同时保持功能性。
(3)身份和访问管理:强大的访问控制结合了用户权限管理、行为分析和持续监控。该框架遵循最小特权原则:
数据访问治理 = 数据源 + 权利 + 权限 + 执行措施
风险评估 + 洞察 / 工作流程 = 补救措施
(4)安全监控和响应:通过事件分类、持续监控以及与安全信息和事件管理 (SIEM) 系统集成进行全面的事件响应,确保快速检测和响应潜在的数据安全事件。
7.3数据删除、备份和恢复
在勒索软件成为当今最严重攻击之一的时代,强大的备份和恢复系统比以往任何时候都更加重要。组织必须实施全面的备份策略。定期测试恢复程序可确保业务连续性,并帮助组织在潜在事件或数据泄露后快速恢复运营。
企业应该开发安全的备份存储,并实施具有适当访问控制和加密的冗余存储系统。其次,他们应该有一个实施安全删除方法的处置协议。
随着人工智能系统的兴起,数据处置变得越来越复杂,需要仔细考虑法规遵从性和道德影响。删除数据时,组织必须确保彻底删除所有系统的数据,包括人工智能训练数据集、缓存版本和备份副本。
围绕数据发现、保护和恢复构建的基础为整个企业的许多其他数据用例奠定了基础。企业的一些首要任务包括在数据用于AI模型之前保护数据,尤其是对于生成式AI/LLM 用例。整个企业的其他重点关注领域包括支持隐私、治理、风险和合规性(GRC)。该领域强调正确处理、处理和存储个人和敏感数据,以确保保护个人权利和隐私,并实现对监管框架的遵守。
8企业数据安全生命周期管理
数据安全态势管理 (DSPM)
(1)数据发现
(2)数据分类
(3)数据治理
数据保护
(1)数据防泄漏
(2)数据加密和脱敏
(3)数据监控与响应
数据恢复与销毁
(1)数据备份与恢复
(2)数据删除
8.1高级数据发现
在当今复杂的企业环境中,敏感数据通常分散在不同的存储库中,包括云服务、本地系统和第三方应用程序。第一步是发现数据的位置,并为所有企业数据开发一个集中位置。如果没有发现,保护数据的努力就会受到破坏,因此这一步是建立强大安全态势的基础。
识别所有数据存储:从结构化数据库到云存储中的非结构化文件,DSPM可以发现可能被忽视的存储库。DSPM需要能够发现以下数据:
(1)块存储
(2)对象存储
(3)托管云数据库
(4)托管云数据仓库
(5)自托管嵌入式数据库
(6)数据存储在隔离的私有云环境中
(7)本地数据存储(私有数据中心)
映射数据关系:通过分析元数据和访问模式,DSPM揭示了数据在系统之间的流动方式,使组织能够识别关键的暴露点。全面的发现使组织能够识别可能未正确保护的敏感数据,例如存储在配置错误的云存储桶或具有过多权限的共享文件夹中的数据。准确的数据发现有助于遵守GDPR、CCPA和HIPAA等监管要求。通过维护敏感数据的最新清单,组织可以在审计期间证明合规性并避免代价高昂的处罚。
8.2数据分类
法规遵从性数据分类的最终目标是确保组织的敏感数据按照适用的法律、法规和行业标准得到准确识别、分类和管理。51%的运营商根据分类效果来评估DSPM供应商。
适当的分类有助于应用适当的安全控制来保护敏感数据,例如个人身份信息(PII)、受保护的健康信息(PHI)或财务记录。它确保遵守GDPR、HIPAA、CCPA、PCI DSS等法律下的特定要求。
管理监管机构:它为监管机构提供了一种清晰而系统的方法来验证敏感数据是否得到正确管理,因此,组织可以最大限度地降低不合规风险,避免昂贵的处罚,并最大限度地减少潜在违规的影响。
支持数据访问和保留策略:数据分类使组织能够实施基于角色的访问控制,确保只有授权人员才能访问敏感数据。它还有助于管理数据保留策略,确保遵守规定特定类型的数据必须保留多长时间或何时必须删除的法规。
8.2.1传统数据分类
传统的数据分类方法主要侧重于根据敏感度手动定义和分类数据。这些旧方法的主要特点包括:
实施时间长:旧的数据管理方法存在缺陷。根据企业战略集团 (ESG)的数据,在对1000多名高管进行调查后,他们发现DSPM(传统)部署通常需要4-6个月,而实施时间通常为3个月。
基于规则的系统:依赖于静态模式,例如关键字、正则表达式或预定义规则。例如,正则表达式可以将“Jordan”标记为敏感词,但无法辨别它指的是人、国家还是品牌。这种不考虑上下文的方法经常导致误报,从而削弱其在复杂数据环境中的可靠性。
手动数据标记:业务团队必须了解其数据,并手动标记数据的敏感度。这种模式在数据蔓延猖獗和工作流动态的环境中也行不通,因为敏感数据可能存在于多个孤立的生态系统中。
静态检测算法:静态检测方法,例如精确数据匹配 (EDM) 和文件指纹识别,比手动标记(专注于识别与预定义数据模式的精确匹配)有了很大的进步。虽然它们对结构化数据有效,但对于非结构化或半结构化数据来说效率低下且成本高昂。
这些解决方案面临的挑战是误报率高,缺乏情境理解。这些解决方案需要大量资源且耗时,不适合现代大规模环境。它们也无法适应新的数据类型或不断变化的业务需求。此外,传统方法需要大量资源,通常需要数周或数月才能完成大型存储库的扫描,从而导致数据安全出现重大漏洞。
8.2.2随着人工智能和LLM的出现,数据分类的现代方法
人工智能模型具有天生的适应性,能够理解情境。经过各种数据集训练的LLM可以分析复杂的非结构化数据格式,例如电子邮件、报告和混合半结构化文件。这种适应性使得能够检测到传统系统经常遗漏的敏感数据类型。
我们以“Jordan”为例
Jordan是一个国家
Jordan是一个受欢迎的品牌
Jordan是一个射击品牌
改进分类的最佳方法是利用上下文数据,让人工智能确定这些数据的使用上下文。
人工智能有其自身的局限性,例如测量困难、缺乏特异性、幻觉(虚假信息风险)以及控制和一致性问题。此外,即使使用OpenAI人工智能,成本仍然很高。这意味着分类需要更复杂。像Cyera这样的公司利用RegEx、NLP、统计验证和人工智能增强了现代方法。Cyera使用具有高召回率模型(清理垃圾)+高精度模型+上下文的分类引擎,与竞争对手相比,该引擎已被证明在分类中实现90%以上的准确率。
上下文和元数据:
AI 模型评估数据的周边元数据和使用环境,从而实现细致入微的分类。例如,区分客户的电话号码和员工的电话号码可以实现量身定制的安全协议。现代系统使用元数据(例如地理位置、合规框架和数据角色)丰富分类结果,从而实现细粒度的策略实施。
客户目标
最好的人工智能分类引擎会不断学习并适应独特的数据环境。文件级分类除了内容级检测外,还会考虑整个文件的特征,从而能够识别财务报告或知识产权等敏感文件
通过减少误报和扩大安全工作,基于人工智能的系统可以增强对数据的理解,最大限度地减少人工工作,减少安全漏洞,并提供见解和建议。
8.3数据访问治理
利用核心身份安全协议和数据访问治理 (DAG)是现代数据安全的关键组成部分,可帮助组织大规模实施最低权限访问,同时保持对数据活动的全面可见性。DAG的核心结合了几个关键元素:数据源、授权、许可和执行操作,所有这些元素共同构成了一个强大的访问控制框架。DAG 的基础在于其访问控制策略,这些策略决定了谁可以访问特定数据集以及在什么情况下可以访问。
8.3.1数据和身份安全
身份和数据始终是相互关联的,就像同一枚硬币的两面。然而多年来,组织主要关注的是身份方面。虽然身份驱动的方法(如最小特权访问和零信任框架)很有效,但如果缺乏所要保护的数据的可见性和上下文,它们往往会失效。例如,我们通常知道谁可以访问什么,但缺乏对如何使用这种访问权限或是否有必要的洞察。这种差距使敏感数据(现在是增长最快的攻击面)暴露在外,特别是在内部威胁、合规风险和第三方访问等领域。
通过将身份背景与数据洞察相结合,组织可以统一了解与敏感信息交互的人员和内容,从而发现以前未解答的问题。这种共生关系可以实现精细的访问控制、更强大的风险管理和更丰富的安全态势。例如,了解数据流(从应用程序到系统再到用户)可以洞察数据蔓延、潜在滥用和保护机制中的弱点。同样,跟踪非人类身份和外部访问可以揭示与第三方集成相关的关键风险。数据安全既需要构建新的解决方案,又需要与身份安全供应商紧密集成。为了有效实施,DAG必须与现有的安全基础设施集成,包括单点登录 (SSO) 和身份提供商 (IdP)。
8.4数据保护
数据保护有三个组成部分:
(1)数据防泄漏
(2)数据加密和脱敏
(3)数据监控与响应
8.4.1数据防泄露
DL解决方案的核心目标是通过确保只有授权系统或用户才能传输敏感数据来防止未经授权的数据传输和泄露。它们旨在监控和阻止违反政策的数据移动。DLP安装在端点、云、电子邮件、SaaS(CASB) 上。公司还在Web、AI 模型和 API 上拥有某种形式的DLP。
8.4.1.1传统DLP
Symantec和McAfee构建了第一代 DLP。这些传统的DLP解决方案依赖于僵化、基于规则和繁重代理的系统,难以适应现代数据环境。它们的手动规则创建带来了重大挑战,例如:
准确率差、误报率高:这些系统由于分类错误而产生高达90%的误报,导致事件响应团队收到大量不必要的警报。
情报有限——缺乏情境感知意味着系统无法区分合法商业活动和实际威胁。
部署复杂——基于代理的模型需要数年才能实施,并且执行策略的运营开销巨大。此外,跨端点、电子邮件和网络的检测分散且时间长,导致策略不一致和安全漏洞。
归根结底,传统的 DLP 解决方案缺乏在当今动态环境中保护敏感数据所需的灵活性、准确性和效率。这些缺点使得对更复杂、更集成的解决方案的需求变得显而易见。
8.4.1.2现代 DLP
现代AI驱动的DLP解决方案利用无代理技术,结合先进的AI、实时执行和无缝集成来创建动态、自适应的框架。这些解决方案可有效保护所有环境中的敏感数据,满足当今复杂数据环境的需求。以下是基于Trail的DLP解决方案(现已被Cyera收购)的现代DLP示例。
(1)DSPM分类引擎:传统的 DLP 解决方案缺乏 DSPM 系统的上下文信息,但现代解决方案(例如 Cyera 使用的解决方案)将 DSPM 与 DLP 集成以提供检测功能,从而显著减少误报。Cyera 的无代理DLP可通过主动警报实现实时检测。人工智能DLP可以实时分析数据移动,在未经授权的传输发生之前阻止它们。
(2)无代理模型:现代DLP解决方案可以使用API快速部署以与现有工具集成,从而无需大量代理安装。
(3)异常检测:行为分析检测异常的用户或系统活动,为潜在的违规行为提供早期预警。
(4)自我调整策略:AI根据真实世界数据不断完善DLP策略,通过自我学习和反馈循环减少误报并提高准确性。
8.4.1.3人工智能驱动的DLP的未来在于DSPM 解决方案的背景下:
Cyera收购Trail Security完美地体现了这种动态。如上所述,通过将DSPM的标记数据与GenAI驱动的DLP引擎相结合,如今的DLP解决方案比20年前更加强大。所有这些都由更多数据驱动,从而实现更准确的检测,因为使用更多发现和分类的数据可以提高动态数据的准确性。
利用 DSPM/AI构建DLP可以更轻松地为DLP引擎创建检测规则和逻辑。最后,所有这些都提高了静态数据、动态数据及其谱系的可见性,并识别了所有流点。因此,现在,组织能够更好地使用更强大的DLP来防止内部威胁,例如IP、客户或意外处理不当。他们可以更好地防止AI数据使用和LLM无意中泄露敏感数据,并防止与第三方过度共享。
8.5数据加密和脱敏
数据加密是数据安全的另一个重要方面。它涉及使用各种技术来保护敏感信息在传输和存储过程中免受未经授权的访问。加密可确保即使数据在未经适当授权的情况下被拦截或访问,如果没有正确的解密密钥,数据仍然无法读取。一些企业会利用某种形式的数据哈希处理。在本文中,我们将重点介绍这两种方法:
(1)数据加密:加密是企业使用的关键方法。它通过加密、标记化和脱敏等技术对数据进行模糊处理,同时管理加密密钥。全面的加密策略可以帮助公司遵守法规,并在数据泄露时充当最后一道防线。敏感数据应始终受到某种形式的加密,但传统加密会使数据难以使用。公司可能会考虑使用标记化(信用卡网络使用的关键工具)、格式保留加密和同态加密(可以为加密数据的机器学习提供支持)等技术。例如,Skyflow正在构建此架构的一个新部分,即数据隐私保险库 - 敏感数据的集中控制点 - 以确保数据不会在公司的系统中扩散
(2)数据脱敏:用于向未经授权的用户隐藏敏感数据,通常通过基于ABAC等策略的动态数据脱敏。它越来越多地用作实现数据配置和访问的核心控制,并用于面向数据受众(首席数据办公室和分析官)的解决方案中。
8.6监控和响应
数据保护的第三个关键要素是确保公司在检测到事件时拥有良好的监控控制,以便能够有效地应对事件。43%的专业人士在部署数据安全解决方案时,优先考虑实时数据监控和根据来自网络安全内部人员的数据对数据事件发出警报。
由于我们知道攻击者可以绕过安全控制,因此数据安全平台必须具备强大的监控功能,以检测危险的用户行为并验证正确的数据加密和访问控制。关键解决方案的一些核心协议包括:
(1)告警管理:数据安全平台需要与 SIEM、票务系统(JIRA、ServiceNow)、电子邮件解决方案(Gmail、Outlook)和消息传递工具(Slack、Microsoft Teams)集成,以确保在实时检测到威胁时快速通知。
(2)监控功能:包括文件完整性监控、第三方风险监控 (TPRM) 和数据库篡改检测。这些解决方案需要数据映射和沿袭功能来跟踪整个系统中的数据移动。
(3)用户活动监控和行为分析:这些应该包括实时威胁识别功能,以检测潜在威胁。
数据安全平台应能够检测数据泄露并支持即时取证事件响应。如果发生数据泄露,解决方案必须通过监控和映射功能提供全面的数据点,以便进行彻底调查。
此外,组织应维护一个程序,以保持其“皇冠上的宝石”备份并随时准备恢复。这些解决方案必须支持审计要求。如果发生勒索软件攻击,攻击者可以访问信息,组织应该能够迅速恢复其“皇冠上的宝石”,以恢复业务运营。
8.7数据恢复与销毁
有效安全计划的最后阶段是确保公司拥有强大的数据备份、恢复和删除不应使用的数据的能力。组织经常会遇到数据膨胀的问题,主要表现在以下三个方面:
(1)易受恶意攻击者和内部威胁的数据
(2)导致企业容易受到数据隐私罚款的数据
(3)数据冗余,导致存储成本过高
因此,数据安全平台应该能够支持数据清理和数据销毁,以确保敏感或过时的数据被不可逆转地删除,不会留下任何可以利用的残留信息。数据清理解决了冗余、过时或琐碎(ROT)数据的积累问题,这可能会不必要地增加组织的攻击面。我们已经看到新的合规要求,如GDPR、CCPA和HIPAA,要求企业在不再需要时安全地删除个人或敏感数据。不遵守规定可能会导致巨额罚款。因此,DSPM 解决方案应该能够允许数据清理,以确保符合“被遗忘权”和其他数据擦除要求。
此外,DSPM 工具应能够识别包含过期、冗余或敏感信息的数据存储库,从而自动发出清理或销毁告警。此外,清理和清除旧数据或未使用的数据可以降低存储成本和计算开销,尤其是在云环境中。
最后,组织必须拥有强大的系统来在其环境中定位和检索个人数据,以响应DSAR(数据主体访问请求),即个人在特定情况下(例如,当不再需要处理时)请求删除(或复制)其个人数据。根据新法规,这些必须及时完成(通常在GDPR下30天内)。
8.7.1数据备份
数据备份和恢复是该策略的重要组成部分。DSPM平台需要与数据备份公司整合并协同工作,以确保数据得到正确备份。目标是提供关键保障,防止数据丢失、泄露和运营中断。当发生数据泄露时,公司需要一种方法来恢复运营。备份系统会创建不可变的数据副本,确保勒索软件攻击无法加密或删除备份。Cohesity和Rubrik等公司使用不可变存储和快照链来防止对备份文件进行未经授权的更改。这些解决方案有助于在发生硬件故障、泄露或灾难时实现业务连续性和灾难恢复 (BCDR)。这些备份解决方案提供审计跟踪、保留策略和数据加密,以满足合规性要求。
9数据安全平台竞争格局
在过去四年中,数据安全市场生态系统已迅速发展为许多供应商,涵盖上述不同类别。一些供应商通过收购进入市场,而其他供应商则从头开始构建解决方案以参与市场竞争。大型安全供应商收购了过去几年建立的许多 DSPM供应商。根据Altitude Cyber数据集,我们看到数据安全和相邻市场类别的投资额超过100亿美元,融资活动超过500次。
竞争格局大致可分为以下参与者,并深入涵盖以下基础设施领域(需要指出的是,供应商在某个领域具有优势并不意味着他们不覆盖其他领域):
(1)本地:Varonis、Rubrik(Laminar)、BigID
(2)云:Cyera、Wiz、Prisma Cloud
(3)SaaS:Microsoft Purview(M365)、Netskope、Salesforce(自有)
(4)数据传输:Crowdstrike、Zscaler、Soveren
(5)原生解决方案:Satori 、Privacera 、Sentra 、Concentric AI 、Securiti是目前市场上的一些独立供应商
再次强调,市场地图上列出了许多供应商。需要澄清的是,其中一些供应商已将其产品扩展到多个数据领域。
许多供应商都拥有跨DSPM(发现和分类)、DLP(保护数据访问方式、数据是什么以及传输中的加密)以及最终数据备份的安全控制。
在10多家公司被大型平台收购后,Cyera已成为上述大多数领域中资金最充足、增长最快、最独立的整体解决方案。因此,本报告的其余部分将重点介绍如何使用现有平台作为案例研究来解释大多数理论概念。
9.1Cyera
Cyera由Yotam Segev和Tamar Bar-Ilan于2021年创立,迅速成为少数几个独立数据安全平台之一,旨在提供对数据资产的全面可视性、控制和保护,无论其位于何处。根据与CISO和领先公司的讨论,Cyera在市场上所有数据安全平台中经历了最显著的增长和发展。以下是一些亮点:
在同等规模的数据安全市场中,它们的估值最高。
他们已经筹集了超过7亿美元的资金。
他们在全球拥有200多家客户。
他们的收入增长了4.6倍。
该公司的核心价值主张是帮助企业在从发现到销毁的整个生命周期内保护其数据。
9.2Cyera的理念:构建智能数据安全大脑的魔方模型
Cyera正在构建一个解决方案,首先,它与您现有的所有安全工具(如EDR、网络安全、SaaS 安全等)集成,以发现所有不同位置的数据。一旦他们为您提供了完整的可见性,他们就会应用分类引擎来了解整个企业的数据背景。然后,他们应用他们的人工智能引擎来推导背景、风险并实施控制,以在整个企业堆栈中构建一个“凝聚力大脑”。通过利用这些对数据核心理解的基本原则,他们能够使用这个“数据安全”平台将见解传递给其他解决方案。
9.3Cyera 的平台
Cyera 正在构建一个涵盖从发现到销毁的整个数据安全生命周期的解决方案。
发现和分类:Cyera 的解决方案已证明能够在整个企业内实时准确地发现和分类数据。它可以通过识别上下文风险(例如过多的访问权限或错误配置的存储桶)来管理数据访问和使用。他们构建了一个以发现和分类为基础的解决方案。他们拥有基于身份的数据访问控制,使组织能够监控员工如何与特定数据集交互。
由DLP提供支持的发现、检测和响应 (DDR):Cyera的解决方案建立在我之前概述的所有安全控制之上,使组织能够监控谁有权访问哪些数据以及这些数据在内部是如何被利用的。最近对Trail Security的收购增强了他们的保护能力,并将在明年进一步发展。Cyera提供了一种无代理解决方案,可在分散的DLP系统中提供统一视图。它使用AI来更好地指导 DLP 策略并改进现有解决方案。通过实时检测和编排,Cyera 将DLP覆盖范围扩展到更多端点和应用程序,提供详细的沿袭和数据流洞察。他们的平台已被证明可以帮助企业有效应对数据泄露,在监管机构介入的情况下提供泄露范围审计。此外,该平台还增强了补救工作流程,识别漏洞并评估风险。
以身份为中心的数据安全:Cyera的身份安全方法通过解决数据和身份管理相互交织的挑战重新定义了数据保护。通过将上下文数据洞察与身份属性统一起来,Cyera 让组织能够查看和控制敏感数据。在我看来,Cyera采取了一种全新且急需的方法来解决数据安全中最大的挑战之一:以有意义的方式将身份与数据联系起来。多年来,我们严重依赖身份驱动的决策(例如最小特权访问),但往往缺乏数据本身的完整上下文。Cyera通过将数据可见性与身份上下文统一起来,颠覆了这一局面,使人们能够回答那些关键的、尚未解答的问题,即谁真正有权访问敏感信息、如何使用敏感信息以及风险在哪里。令我印象深刻的是,Cyera不仅仅解决了合规性或内部威胁问题。它旨在让企业真正了解其数据在应用程序、系统和用户之间的流动,从而增强安全性并推动创新。无论是识别过度授权的访问、确保第三方访问安全,还是应对庞大的数据环境,Cyera的解决方案都能清晰地指出大多数工具的不足之处。这正是未来安全所需要的一种整体的、数据优先的思维方式。
9.4Cyera 的竞争优势
毫无疑问,Cyera的竞争对手包括Varonis和BigID等老牌企业,以及Laminar Dig Security等新兴创业公司。Cyera将数据发现、分类和风险缓解功能整合到一个平台的能力使其具有竞争优势。根据我的广泛研究,Cyera展示了相对于市场上其他参与者的几个关键竞争优势:
9.4.1卓越的数据分类
Cyera卓越的数据分类能力体现在敏感医疗数据分类的85-99%准确率,以及敏感数据识别的92%总体准确率,这比行业标准的50%有了显著提高。该公司利用先进的技术,包括用于信用卡数据验证的Luhn校验算法,来实现这种高水平的准确性。从技术角度来看,Cyera凭借其针对本地环境的无代理解决方案脱颖而出,超越了Stealthbits等传统工具,同时与Wiz等竞争对手相比,它还提供了更强大的数据安全态势管理(DSPM)技术。
Cyera刚刚实现了一个里程碑,成功对1EB(1000 PB)的Snowflake数据进行了分类,数据分类准确率超过95%。作为背景信息,这是全球每个沙元素的数量。他们能够发现1万亿条处于危险中的敏感记录。
他们实现这一目标的一个重要因素是使用Cyera先进的AI系统,该系统可以自动学习新的分类并提供上下文(可识别性、安全性、角色、地理位置)。他们结合自然语言处理、机器学习、统计验证+正则表达式来实现这一目标,因此它具有复合和强化优势,使他们随着时间的推移比竞争对手具有显著优势。
这些模型经过大量数据的预先训练,以创建强大的、开箱即用的数据分类器,以识别常见的数据类型-例如信用卡、SSN 等。
更重要的是,Cyera模型能够自动学习每个客户独有的新分类,这一点至关重要。这是在生产运行时根据客户特定数据完成的,即员工ID、产品 CKU、批号、索赔号等都是自动学习过程的一部分。随着模型的适应,准确性会越来越好。Cyera分类的数据中有40-70%是客户独有的,这一点至关重要。
他们不断训练分类引擎。模型根据分析师数据库元数据、文件内容和其他上下文信息对数据进行分类。它们确保平台中只呈现由大量训练数据支持的高精度分类,从而最大限度地减少误报。类似的想法是如何使用GraphRAG系统通过使用上下文来增强搜索。Cyera将同样的方法应用于DSPM。
9.4.2分类速度
Cyera 解决方案的另一个关键亮点是其对大量数据进行分类的速度。在上述案例研究中,他们能够对1000 PB的数据进行分类。
一位拥有28.5TB Snowflake数据的客户在下午3:00部署了Cyera来扫描其环境中的敏感数据。到第二天早上8:00,Cyera已完全扫描了环境,识别出16亿条存在风险的敏感记录,并将其映射到GDPR、HIPAA和PCI DSS等全球合规框架。
这一过程以前可能需要几个月的时间,而Cyera只需不到一天的时间即可完成,让安全团队能够快速获得可操作的见解,并专注于降低风险和创新,而不是数据分类。以Snowflake为例,数据的快速增长导致敏感云记录呈指数级增长,因此这种快速高效的数据扫描变得越来越重要。网络安全缺乏管理如此大量敏感数据的工具,导致许多组织面临更高的数据泄露、合规性问题和暴露风险。
9.4.3构建数据大脑
在市场地位方面,Cyera通过专注的方法确立了其领导者地位,强调解决方案的速度和有效性。该公司的表现一直优于Laminar(Rubrik)等竞争对手,后者的发展受到收购相关延迟的阻碍。此外,与Wiz有限的范围相比,Cyera在数据安全方面的覆盖范围更广,帮助他们在大多数竞争销售周期中获得交易,进一步巩固了其在市场上的地位。
Cyera正在数据态势管理(DSPM)和数据防泄漏(DLP)基础上构建数据安全平台,所有平台均由Gen-AI提供支持,可驱动企业内的所有其他安全程序。
这里的关键是Cyera将自己定位为“数据大脑”,将关键见解传递给其他关键技术,例如安全服务边缘服务 (SSE)、CSPM(即 Wiz)SIEM、备份和恢复、端点安全、Snowflake、DevOp 安全(Armor Code),甚至Microsoft Purview等。
没有人能将这种深度的DSPM(发现、分类和总体态势)与数据防泄漏相结合。Cyera的DLP(收购的Trail)使用DSPM洞察和AI为现有DLP策略(来自Purview、Zscaler 等)生成建议,使其更加准确。它还将阻止敏感数据流出。
基础支柱是DSPM(跨IaaS、SaaS、DBaaS和本地)。然后将数据映射到身份(这对于零信任数据访问至关重要)、评估服务(数据风险以及违规准备),利用DSPM+AI驱动的数据防泄漏的组合。未来,Cyera计划构建一个专注于风险的产品模块 - 解决组织的隐私问题。
10总结/平台机会
总之,数据安全格局正在发生巨大变化。数据的指数级增长,加上生成式人工智能的兴起和日益严格的监管环境,使得传统的以网络为中心的安全已过时。数据本身现在已成为边界,需要以数据为中心的安全策略。
本报告阐明了组织面临的多方面挑战:数据泄露、网络弹性、GenAI 的复杂性、数据蔓延、合规处罚以及数据的动态性质。随着数据隐私法律和合规要求的不断增加,组织正在努力保持合规性并避免代价高昂的处罚。这些挑战需要一个全面的数据安全计划,该计划涵盖发现、分类、治理和保护,以及强大的监控、响应和销毁能力。
人工智能分类和无代理DLP等先进技术不再是奢侈品,而是有效数据安全的必需品。随着数据的不断增长和发展,组织将优先考虑强大、全面的数据安全措施和平台,以保护其最宝贵的资产,更重要的是,确保长期的弹性。安全的未来在于数据源——既是为了企业的竞争优势,也是为了保护公司免受网络攻击。
END
往期推荐
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...