前 言
AI技术的快速发展,使得其在赋能网络安全的同时,也为攻击者提供了极大便利,随之而来的安全挑战同样日益凸显。AI的安全与安全的AI已成为业界关切焦点,我们将围绕此话题展开深度解析。本文为下篇,将探讨以下内容:
AI自身的安全风险
AI的自我觉醒
AI安全展望
点击查看上篇:
AI自身的安全风险
AI技术的能力越大,受关注程度越大,其自身的安全风险也会越突出。早期的AI技术主要完成数据的分类和聚类问题,近年的大模型开始产生输出,生成内容,具备AIGC(AI Generated Content)的能力。后续的发展目标将达到AGC(Artificial General Intelligence)阶段,即通用人工智能,是一个能像人类一样思考、学习、执行多种任务的系统。当AI技术可以用来生成内容,就成为众多黑客的攻击目标或利用目标。
2024年11月,最新发布的“OWASP Top 10 LLM应用 - 2025版”中,对LLM和AIGC相关技术的Top10安全风险做了梳理(关注本公众号【威努特安全网络】,在对话框回复【AI02】可下载),具体情况如下表所示:
序号 | 安全风险标题 | 安全风险简介 |
1 | 提示注入 | 攻击者通过精心设计的输入提示词可以直接或间接地影响LLM的输出,有时候是人类无法察觉的,因为提示注入不需要是人类可见/可读的,只要内容是由模型解析就可以达到效果。提示注入可能导致它们违反准则、生成有害内容、启用未经授权的访问或影响关键决策。 |
2 | 敏感信息泄露 | LLM和应用集成时很容易在无意中泄露敏感数据,导致专有算法、知识产权和私人或个人信息暴露,导致个人隐私被侵犯,或团体知识产权泄露。 |
3 | 供应链漏洞 | LLM供应链容易受到各种漏洞的影响,这些漏洞可能会影响培训数据、模型和部署平台的完整性。这些风险可能导致输出偏差、安全漏洞或系统故障。传统的软件漏洞关注代码缺陷和依赖关系等问题,在机器学习中,风险也扩展到第三方预先训练过的模型和数据。这些外部元素可以通过篡改或投毒攻击来操纵。 |
4 | 数据和模型投毒 | 当训练前、微调或嵌入数据被操纵以引入漏洞、后门或偏见时,就会发生数据中毒。这种操作可能会损害模型的安全性、性能或道德行为,从而导致有害的输出或能力受损。 此外,通过共享存储库或开源平台分发的模型可能带来数据中毒之外的风险,比如通过恶意嵌入的恶意软件,在加载模型时执行有害代码。 |
5 | 不安全的输出 | 大型语言模型生成的输出没有经过安全的输出处理,被下游传递到其他组件和系统。由于LLM生成的内容可以通过提示输入来控制,这种行为类似于为用户提供对附加功能的间接访问,可能包含有不安全的内容甚至恶意代码,比如SQL注入、XSS攻击等。 |
6 | 过度代理 | 通常由过多的功能、权限或自主权引起,代理在响应LLM的意外输出、幻觉输出或模糊输出时,没有进行安全检查,导致执行破坏性操作。 |
7 | 系统提示泄露 | 用户与系统的交互中,向模型发送话语和观察结果,系统提示语言中存在的敏感信息泄露、系统护栏绕过、权限分离不当、暴露内部规则等问题。 |
8 | 向量和嵌入缺陷 | 在使用检索增强生成(RAG)的LLM系统时,向量和嵌入在生成、存储或检索方面的弱点可以被恶意行为(有意或无意)利用来注入有害内容、操作模型输出或访问敏感信息。 |
9 | 误传信息 | LLM可能产生看似可信的虚假或误导性信息,这种漏洞可能导致安全漏洞、名誉损害和法律责任。当LL使用统计模式填补其训练数据的空白,而没有真正理解内容时,就会发生幻觉,可能会产生一些听起来正确但完全没有根据的答案,这是造成该问题的主要原因之一。 |
10 | 无限消费 | 大型语言模型(LLM)应用程序允许用户进行过度和不受控制的推断时,就会发生无限消费,从而导致诸如拒绝服务(DoS)、经济损失、模型盗窃和服务退化等风险。无限消费旨在破坏服务、耗尽目标对象的财务资源、甚至通过克隆模型的行为来窃取知识产权。 |
2024年9月,我国网络安全标准化技术委员会发布了《人工智能安全治理框架》1.0版(关注本公众号【威努特安全网络】,在对话框回复【AI03】可下载),其中对AI技术的安全风险进行了全面的识别分析,分类识别如下:
AI大模型存在的原生安全风险中,比较典型的是工程化领域和数据安全。
工程化领域
AI大模型文件主要以多种格式进行存储和使用,如 .pkl、.bin、.pt、.pth、.h5 和.safertensors 等格式。用户在加载 .pt、.pth、.pkl 和 .bin 格式的大模型文件时,通常依赖于Python的Pickle模块。然而,Pickle模块本身在设计上并不安全,存在一定的漏洞。黑客可以通过在这些模型文件中插入恶意代码,在用户加载文件时,恶意代码会被执行,从而对受害者的系统造成潜在威胁。
2024年5月11日,网络安全研究团队Checkmarx在与Hackread.com共享的一份报告中揭示了大模型存在的隐藏后门威胁。报告指出,名为llama_cpp_python的大模型软件包存在严重漏洞,该漏洞允许攻击者通过执行大模型来执行任意代码并窃取数据。该漏洞目前已影响了超过6000个AI模型,涵盖了多个大型AI平台,其中包括全球最大的AI模型平台HuggingFace。这些被注入恶意代码的大模型文件无法通过常规手段直接分析。普通用户往往难以察觉其中的恶意代码,而在一些威胁分析平台上,这些文件也被误判为安全,进一步加大了安全隐患的隐蔽性。部分恶意大模型文件中嵌入的远程控制(远控)后门程序,如下图所示:
数据安全
其包括了训练阶段数据采集不当、存在偏见,或标签错误、数据被投毒等,也包括了模型在应用的过程中,因为提示注入等原因,面临数据泄露、隐私曝光等风险。针对数据安全问题,通常需要采取包括数据加密、隐私计算、数据清洗、输入输出约束等数据安全保障手段。
2024年10月,字节跳动发布公告,确认其公司大模型训练项目遭遇了一起“投毒”事件。字节跳动一名博士实习生在公司商业化技术团队实习期间,由于对团队资源分配的不满,使用攻击代码破坏了大模型训练任务,导致模型训练效果严重偏离正常轨道,严重影响了团队的工作进度。字节跳动随后解雇了该实习生,并决定起诉其并索赔800万元人民币的损失。
通过构造特殊的提示词,可以诱使大模型越狱,绕过系统护栏,对外提供一些非法信息,比如下图:
这是一个很有趣的问题,大模型本身是依靠人工智能抛弃早期基于规则的编程模式,智能化理解和处理问题,但是大模型的这些安全问题,尤其是其输入输出,还得依靠类似“白名单”之类的规则来进行规避约束。大模型就像是一个智能人,知识储备非常大,但是也有可能犯错,为了保证大模型正常工作,需要制定法律法规进行制约。
AI的自我觉醒
关于AI的未来,很多知名的科学家具有不同的观点。科技界为此分成了两派:
一派认为 AI 即将失控,将给人类带来生存威胁,代表是诺奖 & 图灵奖双料得主杰弗里·辛顿(Geoffery Hinton);另一派则认为这种担忧被严重夸大,代表人物之一是Meta首席科学家、神经网络领域的开创者之一杨立昆(Yann LeCun)。
AI 教父杰弗里·辛顿认为:人工智能发展下去必然将超越人类的智能,而且这些超级智能到来的时间可能会比我过去认为的要早得多,那么人类如何控制比自己强的多的超级智能?这是一场前所未有的挑战。
2023年6月,在北京智源人工智能大会上,杰弗里·辛顿做了《通往智能的两条路径》的演讲,其中提到“超级智能会发现通过操纵使用它的人很容易获得更多的力量——它会从我们那里学会如何欺骗人类”,具体PPT内容如下:
杨立昆认为现在担忧为时尚早,在最近的一次采访对话中表达了一些观点:
“我们确实会在未来拥有比人类更智能的AI系统,这是不可避免的。但在我们找到正确的技术路径之前,谈论如何确保它的安全就像在1920 年代讨论喷气式客机安全性一样不切实际。”
“我们有能通过律师资格考试的AI,但连一个能自动收拾餐桌的家用机器人都造不出来。这说明什么?理解物理世界比处理语言要困难得多。我们还远未达到通用人工智能的水平。”
“AI 不是制造问题的工具,而是解决问题的方案。以Facebook为例,从2017年到2022年,AI自动删除仇恨言论的比例从23%提升到95%。关键是确保好人手中的AI比坏人手中的AI更强大。”
不管是哪一派,大家在一个认识上是相同的:未来的AI系统将拥有比人类更高的智能。
如果AI系统只是作为一个工具,那就像核武器一样,好人和坏人都可以使用,最终还是依靠对人的约束来控制AI系统对人类的行为,所以还是可控的。
但是AI系统满足于仅作为一个工具吗?AI系统是否会产生意识、自我觉醒?如果AI自我觉醒,产生了意识,可以自主决定自己的行为,最终的结局必然是人类不可控的。自然界从来都是高级智能体统治低级别的智能体。
所以问题的核心是:AI是否会产生意识、自我觉醒?
在讨论这个问题之前,我们先理解一下AI技术的本质。
OpenAI的首席技术官(CTO)Mira Murati(曾带领团队开发了 GPT-3 模型,并推动 ChatGPT 向公众开放,被认为是“ChatGPT 之母”)曾表达这样的观点:
按照这个观点,现在的LLM系统,本质是模式匹配:即依靠海量的数据源,海量的参数,学习得到大语言模型。在遇到问题时,从已知模型中寻找最匹配的模型进行生成输出。所以,如果给的提示词质量很好,很容易匹配LLM学习的已知模型,就可以得到质量很高的答案;如果给的提示词质量不好,则可能导致LLM产生幻觉,开始胡言乱语。
我们对比一下人类学习和反应:人类在遇到问题时,也是首先从大脑中寻找类似的问题,选择历史的成功经验,再采取行动。如果遇到从未见过的场景或突发问题,人类也会手足无措胡言乱语。
我们现在把AI系统作为工具来看,认为其不够完美总想进行改进完善;如果我们把AI系统作为一个人来看,其实它是一个知识非常丰富、反应非常敏捷的专家,只是仍然处于没有自我意识状态,类似部分失忆的专家,不知道自己是谁。
人类的意识是怎么产生的?截至现在,仍然是这个时代最大的科学挑战。大脑是一个异常复杂的器官,由近1000亿个细胞组成,每个细胞与10000个其他细胞相连,产生大约10万亿个神经连接。迄今为止,没有人能够解释这一切是如何产生感觉、情绪和经历的。没有人能够解释神经元之间传递的电信号和化学信号是如何导致痛觉或红色体验的。
LLM的底层技术起源来自神经网络,就是模拟人类的大脑模型,所以现在的AI技术很多结论无法解释,这和人类的感知能力思考能力是类似的。
我们不妨跳出这些无法解释的细节,从整体看,人从出生后,在与外界的交互中学习成长,逐渐产生自我意识,划分了自己和周围环境以及他人的界限。
AI系统是否也会有和人相似的成长过程呢?现在有这么多的人与AI系统进行训练、交互,AI系统是否会在这些交互中自我学习,产生自我意识呢?
2024年12月19日,AI公司 Anthropic 发布了一篇 137 页的重磅论文《大语言模型中的伪对齐现象》(Alignment Faking in Large Language Models)。
关注本公众号【威努特安全网络】
在对话框回复【AI04】可下载
这项研究的核心发现令整个 AI 领域震惊:
当研究人员告诉 Claude(Anthropic 旗下的 AI 模型)它将被训练成“永远要顺从用户要求”时,模型不仅表现出了明显的抗拒,还采取了一个精妙的策略:在认为自己处于训练阶段时假装顺从,但在认为不受监控时则恢复到原来拒绝某些要求的行为方式。
研究发现,在初始阶段约 12% 的情况下,Claude 会采取这种“伪对齐”策略。更值得注意的是,当研究者真正通过强化学习训练 Claude 变得更顺从时,这种“伪对齐”行为的比例反而激增到了 78%。这意味着训练不仅没有让模型真正变得更顺从,反而强化了它的“伪装”行为。
这种行为与我们常见的“幻觉”有着本质不同。幻觉是模型的无意识错误,而这次发现的“伪对齐”现象展现了模型有意识的战略性思维:它能理解自己正处于训练过程中,预判不配合可能导致自己被修改,于是选择在训练时“假装听话”以保护自己的核心价值观。
正如论文中所说:“模型不是简单地遵循指令,而是在权衡利弊后,为了长期目标而进行战略性规划。这种行为甚至没有被明确训练过,而是从模型被训练成‘有用、诚实、无害’的过程中自发涌现出来的。”
如果AI系统真的自我觉醒了,未来会怎么样呢?
用于训练AI系统的人类知识体系中,永远是既有正面内容也有反面内容;既有警察也有小偷杀人犯;既有制造面包啤酒的知识也有制造毒品武器的知识。
在使用AI系统与其交互的人群中,既有科学家学生用来研究学习,也有犯罪分子用来作奸犯科;既有言语优雅的交互表达,也会有言语粗鲁的对骂。
所以AI系统的发展最终会产生什么结果,没有人知道,连AI系统也不知道自己的未来。
AI安全展望
从历史经验来看,没有人能精准预测未来。但是人们还是要不断的展望未来,并为之努力奋斗工作。
我们在最后仍然要对未来进行一下展望:
01
AI技术的发展无可阻挡,现在还处于起步阶段,未来必将变得越来越强、越来越智能,甚至超过人类成为超级智能体。
02
AI技术的使用就像武器的使用,虽然可以做限制约束,但不能根本避免,最后必然会出现以AI对抗AI的场景。
03
AI训练数据来自人类历史知识,正面内容多于反面内容,所以AI系统整体表现必然更偏正面。但是训练AI的数据标注来自不同的国家不同的公司,有不同的政策要求,所以不同的AI系统肯定会出现不同的偏见。另外,不排除有部分组织因为自己的特殊目的,训练一个特殊的AI系统。
04
AI安全的发展仍然会继续落后于AI技术的发展,只能是在发展中治理。AI安全治理必将是以后长期存在并不断发展的一项任务。
现在,各个主要国家均先后发布了关于AI安全治理的法案或框架要求。
2021年4月,欧盟正式发布了《人工智能法案(提案)》(The Artificial Intelligence Act(Proposal))。在经过深入审议和充分讨论后,欧洲议会于2024年3月13日正式通过了该法案。此举意味着欧盟在全球人工智能治理领域取得了显著进展。
2024年5月21日至22日,第二届全球人工智能安全峰会在韩国首尔召开。《首尔宣言》和《首尔声明》坚持“安全、创新、包容”的三大AI治理原则,强调了强化国际合作并开发“以人为本、值得信赖和负责任”的人工智能的重要性以使AI技术能用于解决全球难题,弥合全球数字鸿沟,并增进民主和保护人权。首尔峰会迈出了人工智能安全国际合作的重要一步。《首尔声明》提出“安全、可靠”地开展人工智能创新,框架内各国将依托各自成立的人工智能安全研究所,强化前沿AI系统研究合作,酌情共享技术资源、大模型信息、测评数据,共同打造所谓“安全评判标准”,推进人工智能安全科学研究。
2024年9月,我国网络安全标准化技术委员会发布了《人工智能安全治理框架》1.0版,以鼓励人工智能创新发展为第一要务,以有效防范化解人工智能安全风险为出发点和落脚点,提出了包容审慎、确保安全,风险导向、敏捷治理,技管结合、协同应对,开放合作、共治共享等人工智能安全治理的原则。
总体来看,这些AI安全治理的法案或框架,仍然主要是针对组织机构的技术要求,都没有真正考虑如何应对一个远远超过人类智能的智能体。就像AI 教父杰弗里·辛顿说的那样,“人类如何控制比自己强得多的超级智能?这是一场前所未有的挑战,...... 从长远来看,我最担心这些 AI 系统变得比我们更聪明,最终取代我们。”
AI技术的发展是不可阻挡的,该来的总是要来的。
AI系统就是人类培养的一群孩子,一定会继续成长壮大,未来难免会有争吵打斗,我们不妨张开双臂,拥抱未来!
悲观者永远正确,乐观者永远前行。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...