注:本期内容根据UIBE阿波罗股权投资俱乐部2024年5月8日的数据安全专场讲稿整理而来,仅为个人观点,不构成任何投资建议,特此说明。正文如下:
大家好,我是俊少聊创业的主理人,今天的演讲叫做《数据安全下半场》,主要是来跟大家聊一聊数据安全细分赛道在未来几年可能的一些热门方向和创业机会。
第一张图片是这两天正在进行的RSAC大会创新沙盒十强。如果您对网络安全这个行业不太了解,可以把RSAC朴素地理解成网络安全行业的“奥斯卡”。大家可以看到,除了标蓝的这两个项目跟数据安全没有太强的关联,另外八个都跟数据安全强相关。
尤其是昨天比赛刚刚产生的冠军Reality Defender,这是一个生成式AI深度伪造检测创企——它主要是干什么的呢?简单来说,不管是Sora也好,还是GPT4也好,它们会生成大量的视频、图片或文字内容,Reality Defender就是去分辨哪些是AI伪造出来的内容,从而杜绝一些潜在的经济或刑事犯罪。
数据安全从2023年11月份OpenAI发布Chatgpt这一划时代的AI产品之后,已经进入到了一个全新的阶段。值得一提的是,今年的RSAC2024创新沙盒十强当中除了刚才提到的八个跟数据安全有关,有五个是跟AI安全直接有关的,我们后面会详细的展开AI安全相关话题,此不赘述。
上图是俊少对数据安全上下半场的一个划分,它可能不太科学,但是有一定的道理。我们首先来看上半场,第一个阶段,俊少这个地方写到的是2018年到2021年。为什么这么去标定?因为2018年欧盟正式发布了GDPR,这块后面俊少会展开分享;上半场的第二个阶段则是2020年到2022年,这个部分它为什么重要?想必大家也能猜出来,那就是新冠疫情的三年,这一时期产生了大量的公共数据,相关治理成为巨大的挑战,后面俊少也会详细讲到,另外这个时期也是我国数据安全集中立法的重要阶段。2022年以后,就是我们今天要讲的重点,数据安全下半场。疫情过去之后,2023年我们的实体经济十分困难,就像腿蹲麻了的人,准备重新站起来的状态,如果把这一时段当做过渡期,那么下半场的真实起点,可以说是2023年,也可以说是2024年以后。所以,在2024年繁花开到荼蘼之际,有一个这样的会议,来讨论相关的话题,还是非常应时应景的。先简单来看一下上半场。上图左侧是云岫资本在2021年预测的数据安全的四个未来发展方向,以及当时已经涌现出来的几家国外相关领域独角兽企业,右侧是我补充的几个国内对标企业。其中跟下半场关系最密切的是AI数据安全企业熠数科技,这家公司脱生于腾讯,提供基于AI的全数据生命周期的伴随式安全产品与服务,是近两年来国内最早也最深度应用AI的数据安全团队之一。上半场这些独角兽企业的融资和营收的情况如何呢?大家可以看到上图中划虚线的两个时间节点,2018年是欧盟的GDPR,2020年是美国的CCPA,在这两根线之前,BigID和Onetrust的融资是非常平缓的,但从GDPR实施开始,这两家公司迎来了爆发式的融资增长——通常情况下,融资的金额和估值都是跟创企的营收情况直接挂钩的,所以虽然没有直接数据去证明这两家公司的营收有大幅的飞跃,但是可以想见,他们在GDPR跟CCPA的带动下,营收都有大幅提升,Onetrust在一次采访中披露的数据可以佐证这一判断,就是自GDPR通过之后,它的营收三年翻了48倍。为什么说中国的机会来了?大家可以看一下《个人信息保护法》,如图所示,该法很大程度上借鉴了GDPR,连惩罚的方式都一模一样。上图是GDPR累计罚款的统计,从2018年5月份开始累积,真正到开始上量,有很多企业挨罚,其实都已经是两年多接近三年之后了。这说明什么问题呢?我们的《个人信息保护法》是2021年发布的,那么算一算,到现在差不多也是两年多快三年了。换句话说,我们之所以预判相关创投机会在中国马上要迎来一个爆发式增长,因为这件事情在西方世界已经发生过。如上图所示,中国数据安全相关立法,也是在近几年紧锣密鼓地推进,左侧是普华永道整理的中美欧相关立法对比,右侧则是ISC整理的数据安全系列国标。上半场说完之后,下半场我们重点来看一下,数据安全行业发生了哪些变化。俊少在上图中把它们加粗加红列了一下,我们不会每一项都跟大家详细分析,时间所限,只同大家重点讨论标红的几项。需要说明的是,上图所列数据安全未来十大方向,援引自明朝万达在2023年底的相关报告,虽然俊少不完全苟同,但是大部分还是说在点子上的,并且与上半场云岫资本在2021年预测的四大方向相互印证比较,看看哪些实现了,哪些改变了,也自有其乐趣所在。第一个差异,“数据交易”。首先,数据想要交易,得把它从资源先变成资产,而去年财政部已经从官方层面认可了“数据作为生产要素是一项企业资产”。在这之前,数据只能费用化并计入当期损益,到明年或后年,它对企业不能再产生任何价值,而这显然不能反应真实情况,例如对于互联网企业,用户数量是重要的估值依据,但相关数据之前在资产负债表里显示不出来。如今国家把数据明确定义为资产,让它能够进入到资产负债表里面,以无形资产或存货的形式存续下来,这件事情对于企业后续融资、数据交易或做一些其他的事情,都会非常有意义。而在数据入表的整个过程当中,对于数据安全企业来说,或者这些处理数据的公司来说,他们的甜点在哪呢?会计准则当中写得非常清楚,能够准确计量的数据才能视为资产,如果你没有办法发现、采集和加工数据,根本谈不上数据资产化,更妄提数据交易。而上述工作,正好是原来做分类分级、数据治理的这些公司所擅长的,所以数据入表相关工具的研发,对于数据安全企业来说,具有极强的先发优势和资源禀赋。第二点“出境数据”。不管是监管单位也好,还是做出境合规的会计事务所和律师事务所也好,他们都需要工具,但是他们可能并不懂技术,所以相关工具的利好其实是能够看得到的。大家都知道滴滴前两年被罚款80多个亿,我们重点是来看看这之后的出境合规有什么变化。第一个变化是,如今你并不用像滴滴那样,每个毛孔都被放大镜逼视,而是改成只针对于企业出境数据接受出境合规监管,这对于很多原本想要出镜,碍于监管范围过大而作罢的企业来说是个利好,所以可以预见有更多的企业能够走出去,是为“宽出”;但是,与此同时,出境企业将面临更加苛刻的监管,是为“严管”——但怎么严管,怎么通过严管,这都是留给数据安全创企的商业机会。第三点,“生成式人工智能”。开头就提过,RSAC2024创新沙盒十强企业中半数与人工智能相关,其实除了这些数据安全企业,还有一家工具公司不容忽视,那就是给大模型做语料优化的ScaleAI,这家公司利用AI为数据自动化生成标签,2023年底估值超过73亿美金——如果把大模型的效果视为算力、算法和语料三者的乘积,而短期内算力英伟达一家独大,算法Tenserflow为主的情况保持不变,即把此两项视为常量的话,语料就是影响大模型效果的关键变量。你的算力越强,大模型训练所需要花费的时间越短,交互输出的速度越快,但是如果你的语料不好,会出现像林黛玉倒拔垂杨柳这样的可笑结果。当然了,好的语料,它不光是解决准确性的问题,你有大量的垃圾语料,大模型训练过程中,其实也会更加耗费宝贵的算力。你可以通过算法优化,去对冲这部分算力的耗损,而算法工程师又洛阳纸贵,也可以增派人手优化语料,但更多企业选择性价比更好的ScaleAI来做这件事情。目前国内也有一些企业在对标ScaleAI,比如霍因科技,他们在离散制造领域拥有大量的行业积累——相信后面会有更多在垂直领域做语料优化的企业,当企业积累了足够多的行业知识,会形成不可被轻易取代的比较优势,所以不要怕切入的市场狭窄,连ScaleAI也不是从一开始就面向通用大模型的,他最早是从给车企数据打标开始做起,循序渐进做到今天这一步的。利用AI给AI赋能,可以理解成“用魔法打败魔法”,并且基于这套逻辑给AI企业“卖铲子”,类似的机会非常值得去深挖。并且像ScaleAI和霍因科技,它们不只给大模型“卖铲子”,所有大数据企业都是它的客户。比如说,这几年特别火的隐私计算,不管你是多方计算还是联邦学习,你得有高质量的前置数据,如果这些数据中存在大量的垃圾,你只有两种选择,要么接受垃圾数据对算力的挤占和消耗,要么计算之前请霍因科技对数据进行清洗优化——当然了,如前所述,企业也可以增派人手手动优化,但性价比上远不如专业的人做专业的事来得合算。总结来说,像ScaleAI这类公司,不但能够帮助大模型企业做语料优化,是这波AI淘金热里“卖铲子”的、相关技术还能复用于隐私计算、BI企业等大数据公司,帮助这些企业降低负载,提升效果,所以估值上天也就不难理解了——在螺帽和刀子之间,坚定投资刀子,前者只能套螺丝,而后者可以切菜、裁纸、做手术……第四点,“公共数据安全”。大家都知道,2023年成立了国家大数据局,俊少认为这其中有两个重要的原因,一是因为现在我们需要有新的增长动力,而中国本身又是全球最大的数据产出大国,数据作为数字经济的新兴生产要素,作为“新质生产力”的重要基石,价值还没有被有效释放;另一个重要动力其实在开篇已经提到过,那就是上半场的新冠疫情。疫情期间产生了前所未有的巨量公共安全数据,“绿码”仿佛就在昨天,而且出于疾控的原因,所有组织史无前例的,相互拉通了相关数据,这相当于强迫数字化在它还没有做好准备的时候提前发生了很多年——而当疫情消退,大量敏感数据铺了一地,各个部门之间不再像即战状态下那样协同高于一切,这时候就需要有一个权威机构站出来,去协调各方和自上而下管理调度数据。而要做好这件事,政府需要有人来帮他们搭系统、做工具,而这些事情普通研发企业是做不了的,因为首先你得确保数据安全,所以这门生意也是从疫情衍生出来,利好数据安全创企的新生意、好生意。第五点,“密评”。今天不知道为什么,前面大家在讲数据安全合规的时候都没有提到密评,可能就像大家聊网络安全的时候,很少聊等保是一样的,觉得这些都是行活,同质化严重,最后就是卷价格,没什么好讲。事实上,俊少建议大家不要忽视这个部分,可以说密评是具有中国特色的数据安全合规重要切口,是对等保成功经验的继承和发展,是数据安全企业不容错过的高确定性现金牛业务,是密改/数据安全产品销售的关键动力和重要抓手。而且据未经证实的消息,密评发牌还没多久,就有一家广东公司在密评上拿到了上千万的订单,熟悉网络安全的用户都知道,这即使放到整个网安大盘子里来比,都不是一个小订单,是非常了不起的。讲到密码,绕不过一家创业公司,那就是炼石。这家创企最早是做云加密网关(CASB)的,想做公有云,做SaaS。但是刚才大家都聊到一个问题,那就是软件为什么在中国卖不好?俊少认为这个问题要从更底层的逻辑上面去分析,它不是个简单的知识产权与使用习惯的问题,而是与我们的所有制息息相关。中国是公有制为主体,西方世界更多是私有制为主体,这就决定了甲方的不同。私有制为主体的国家,有钱的是私营业主,大家会更重视投入产出比,所以公有云起得来;而在中国,大预算聚集在党政军和国央企,而对于这些关乎国计民生的重要单位,成本虽然重要,但它们更关心安全,所以在中国私有云发展得更好——公有云运营商姑且捉襟见肘,寄生于公有云的SaaS团队又怎么可能活得好呢?所以,对于一开始选择了公有云SaaS的炼石,最初的几年(2016-2019)可以说异常艰难。后来,炼石是怎么破局的呢?因为它做对了一件事情,就是把原有技术用到了国密改造上面。2019年《密码法》颁布,很多关键基础设施都需要进行国密改造,你要改系统,就得代码重构,比如说你是某航空公司,上百个业务系统,你是一把手,让你把所有代码重构一遍,且不说花多少时间,谁敢保证重构的系统不出差错呢?一旦系统崩溃,飞机从天上掉下来,谁来担责?炼石给出的解法是,把他的云加密网关并联到原有的业务系统当中,不需要代码重构的同时实现国密合规改造——客户从公用云上的私营业主转换为关键基础设施,更加符合中国国情,在商业上也便立住了。炼石的故事对我们有两个重要启发,第一是不要急于丢弃“失败的产品”,在之前的文章里俊少也提到过,无效的止咳糖浆也有可能成为可口可乐,炼石则证明了这件事在2B领域同样成立,不要因为拉不动磨而哭泣,说不定你不是驴而是一只天鹅;第二个启示是,创业者必须深刻理解你的生意植根的土壤,不要责怪沙漠里长不出牡丹,没有人阻止你种植仙人掌。第六点,“AI+安全”。这里有一个不太恰当的参照系,上世纪九十年代的日本——这里不是唱衰中国经济,也没有任何预测,只是说当下我们的很多关键词,跟当时的日本有相似之处。比如说,我们现在也面临着老龄化加剧的问题,房企也在纷纷暴雷,也关注消费降级。大家请注意,当时日本哪些企业逆势起来了呢?消费类有大家比较熟悉的优衣库,还有大家可能没那么熟悉的堂吉诃德——日本版的名创优品。这些公司当时都主打性价比,即不太差的产品和亲民的价格,听起来很“小米”是不是?事实上俊少的确重仓了小米的股票,对于小米的投资逻辑,后续会另开专题跟大家讨论,此不赘述。彼时日本的2B企业里,逆势大涨的企业也不少,比如这家叫做基恩士的传感器研发企业。大家可以看一下红色标志的部分,这家企业只做设计不下场生产,产品也是帮助甲方客户能够更加节省人力,总结来说就是自己降本的同时,为甲方降本。进一步深入分析不难发现,在经济向好的时候,“开源”的效果是优于“节流”的,但在经济往下走,并且预计未来一段时间不会有大反转的情况下,“降本”的优势效应会被乘数放大,所以能够利用好AI,帮助自己降本,并且帮助别人去降本的方向或企业,值得获得更多关注。说回数据安全,把病毒分析转换成类似AI认猫的图像处理问题的金晴云华,把全流量分析的人工成本削减了90%以上,效率则大幅提升;还有之前提过的用AI给AI做语料优化和数据打标的霍因科技,这些企业,都将在未来一段时间内,获得巨大的“降本”红利。而类似的数据安全方向,可以想到的还有很多,例如SIEM(安全信息和事件管理),一定会出现基于大模型的动态日志分析,更新掉雄霸相关领域十几年的Splunk,虽然目前还不知道屠龙少年会是谁,但这件事情本身的确定性极高。
今天的演讲就到这里,时间所限未能展开,大家有任何问题或不同见解,欢迎评论区交流。
Q:后AI时代的数据安全有哪些变化,我们怎么去应对这些变化?A:俊少之前在另一个会上讲过,AI安全分两个层次,安全的AI和AI的安全。关于“安全的AI”,在RSAC那张胶片上讲到的,Reality Defender这家公司在做的,就是在致力于这个方向——用AI生成的各种虚假内容,你要先能够识别它,然后才能够防御它,如果我们无法确保AI产出的内容绝对安全,至少Reality Defender会告诉你哪些不安全,俊少相信,后面国内也会有相应的公司去做类似的事情;至于AI的安全,这更多属于传统安全问题,很多企业已经给出很好的解法,包括AI的数据安全。
还没有评论,来说两句吧...