分享网络安全知识,提升网络安全认知!
让你看到达摩克利斯之剑的另一面!
“ 不是集成个Deepseek就是安全专用大模型或者叫安全产品AI化。”
备注:图片来自网络
大家好,我是Jun哥,一个普通的IT牛马,一直在深深思索身边的人、事和物。
上个月,各网安厂商的半年报都基本披露完了,所有的安全厂商,都在半年报中提到了网络安全产品AI化这主题,所以今天咱们聊一聊这个话题。
目前,注意绝大多数企业的半年报,笔者都已读完发现,截至当前,还没有哪家网安企业敢声称完成了全系列产品的AI化。
有一些的确敢吹牛,全线产品AI化,呵呵,这是个牛皮,不理也罢。
最近,也有幸接触到某些厂商的所谓的AI化后的安全产品。
笔者说句实话,大部分厂商的产品AI化,其实就是在原来产品的基础上,集成了Deepseek,GPT等开源大模型,有的甚至都没有做过对应的数据训练,或者仅是简单的训练了一些数据,其所谓的安全大模型并没有识别出来相关的核心攻击要素数据或者防护的要素数据。
01 AI化下的“皇帝新衣”
安全产品+大模型,说实话,研究方向没错,但是执行的人错了。
不幸的是,很多厂商只是去蹭AI的热点,没有几个研发真正搞清楚为什么要引入大模型,如何利用大模型赋能安全产品,如何把通用大模型变成专用大模型。
国内大多数技术人,基本都奉行拿来主义,并不会去研究背后深层次的东西。因此,大家看到的安全产品AI化,其实就是安全产品集成DeepSeek。
开源版本的大模型,用源代码来调整调整,加入一些未经标注的安全数据(日志或者特征数据)开展训练,就敢出来说自研大模型?
甚至,有些厂商的安全大模型架构图,80%相似。
更可笑的是,训练数据甚至都没有做数据标注?
某些厂商的大模型,看着有告警,有预警信息,可是进一步分析和使用,你会发现,这些所谓的大模型,都经不起仔细的推敲和检验。
有些所谓的大模型,甚至都不能聚焦到具体的攻击信息,比如IP,比如攻击途径。
所谓的预警信息,也仅仅是大模型匹配到部分训练特征数据,仅此而已。
比如,你问它,某系统正在被攻击,请列出访问过系统的IP地址并分析哪些可能是攻击IP,攻击的可能途径等,它可能就会答非所问了。
这其实就是典型的训练数据存在瑕疵,训练数据并没有进行精确的数据标注,大模型根本分不出那些属于访问IP,那些属于攻击IP,那些数据属于攻击途径?
一个合格的安全专用大模型,是需要经过千万级别的,经过标注数据的训练后,才能够成为专用领域大模型,而不是随便集成一下DeepSeek,就是安全大模型。
这是产品AI化下的“皇帝的新衣”。
02 产品AI化的路还很长
由此,可见,安全产品AI化的路还很长,更别说AI Agent(安全智能体)了。
把今年定义为 AI 智能体元年,这是可以的,因为这是开始相关课题研究的一年。
但是把自家的产品+AI 说的多么多么好,多么多么的牛逼,为时尚早。
AI智能化的前提,是需要AI能够识别核心的信息或数据要素,信息或数据要素的识别要通过数据标注。
就跟我们小时候学习什么是桌子,什么是凳子一样。
举个简单的例子:
大模型的训练过程主要分为三个阶段:预训练、有监督微调、奖励模型构建和强化学习。
预训练阶段的任务就是,需要让大模型识别数据,比如大量的文本数据,图片数据等。
拿图片识别为例,比如你得告诉大模型,图片中那些属于车子,无论大小,无论型号,都需要在预训练之前完成数据标注,这样大模型训练后才能识别出那些是车。
对比网络安全也是一样,一条日志信息,你得让大模型识别出来那些是IP信息、 那些IP信息是攻击IP,那些IP信息是属于被攻击IP,那些是信息属于攻击路径,如何通过上下文识别这些关键信息......
这些信息都需要对数据标注后,才能用作训练,而不是直接把几T的日志都丢给大模型,那训练出来的东西啥也不是。
大模型就跟人一样,得有父母告诉它,这个是苹果,那个是梨,而不是这些都是水果,你自己去理解下,看看哪些是香蕉。
如果你们是这样理解大模型的,对不起,那真没鸟用。
监督微调阶段就是纠错。
比如学英语的时候,A 老是读成 阿(汉语拼英),这是不行的,所以这时候就需要微调和纠错,告诉它这是A,就跟人一样,经过长时间的记忆训练和关联训练,它出来的结果才是对的。
这时候,你会发现,模型在遵循指令,完成指令要求的事情或者识别的结果。
模型训练完成的结果是“无用”的,还是“有害”的,这需要给予它反馈和强化学习,从而进一步优化模型。
这与人类的习惯和知识,是对齐的。
这时候,就到了第三阶段,强化学习模型和构建奖励模型
训练结果,无非就是“有用、诚实、无害”等结果”(简称HHH标准),这时候可以利用奖励模型对指令模型进行优化和强化。
指令模型生成答案后,奖励模型会对其打分,这样经过多次迭代,指令模型逐渐学会生成符合HHH标准的回答。
03 如何训练有效的安全大模型
首先,开源大模型厂商提供的模型,是具有通用能力的大模型。
因此,把一个通用大模型变成某个领域的(网络安全领域)专有大模型,至少也需要完成的三项工作。
其一, 要给模型提供领域内的语料库,此类数据一般是私有的数据。
其二,要提供领域内的特殊指令,训练模型完成任务。
大模型第一步要做的是识别上述信息原子,第二步才是训练微调,也就是理解信息原子并能准确识别。
其三,就是强化训练结果并进行训练结果质量管理(也就是强化训练结果,按照奖励模型纠偏)。
这样经过多轮的训练和纠正,通用模型才能成为真正的专用领域大模型(一轮下来至少也几个月吧)。
这里面的难点和核心,其实在于语料库和对语料库的数据标注。
没有数据标注,AI大模型就无法对预训练的语料库进行精准识别、理解、归纳。
数据一旦标注错误,或者没有标注,大模型自然也无法识正确识别出具体信息,更无法依据上下文,开展推理,因此训练再多的日志数据,也是白瞎。
不知道,还有多少厂商的大模型,还处于白瞎阶段......集成个DeepSeek,那不是安全大模型,那只是产品+AI下,新编织的“皇帝新衣"
-End-
免责声明:本文相关素材均来自互联网,仅为传递信息之用。如有侵权,请联系作者删除。
★关注,在看,转发,设为星标★
与你一起分享网络安全职场故事
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...