随着生成式AI技术的爆发式发展,大模型已深度渗透金融、医疗、工业、政务等关键领域,成为驱动产业数字化转型的核心引擎。然而,技术迭代的加速度与安全体系建设的滞后性形成鲜明反差,数据污染、模型投毒、生成内容造假、智能体越权访问等安全风险持续暴露,不仅威胁企业核心资产安全,更引发合规合规性争议与社会信任危机。当前,大模型安全已从技术层面的“附加题”转变为产业落地的“必答题”,如何构建覆盖数据、算法、应用全链路的安全防御体系,破解智能体时代的新型安全挑战,成为全球政企管理者与技术从业者共同面临的紧迫课题。
基于此,本期CSO课程特别邀请百度副总裁冯景辉,其分享了大模型安全的经验与看法,强调了数据清洗重要性及解决方案,同时探讨了智能体安全、深度学习安全应用、智能合规平台等话题,指出智能体时代核心防御在于数据安全(含边界策略、过滤能力、用户识别等)。本文是在冯景辉老师三个小时的授课实录基础上所做的精选摘编,以飨研修班课堂之外更为广泛的读者朋友。
在GPT出现之前,基于自然语言处理的大模型实践应用主要依赖针对特定任务训练的专用模型,包括内容安全等领域也广泛采用此类模型。GPT-3的诞生标志着行业对"智能涌现"的认可,证实了通过大规模数据与算力可实现能力突破,此后模型参数量的增长及混合专家模型(MOE)等技术的演进均延续这一路径。尽管模型结构有单向或双向差异,但以Transformer为核心的GPT系列本质上仍基于语言概率预测任务,即通过上文预测下一个词,这一机制贯穿文本生成、翻译等场景。
大模型训练主要围绕预训练、微调与强化学习三阶段展开。
早期行业重心集中于预训练(如文心一言2.0/3.0),安全领域参与较少,主要介入数据架构构建和训练语料清洗。微调阶段成为安全工作的核心,需构建大量正反向安全问答对以优化模型行为,但DeepSeek等模型的出现降低了套壳式微调的需求。当前大部分内容安全模型的能力仍依赖微调,而强化学习阶段则涉及更大规模的数据工程。
开发模式方面,智能体(Agent)成为今年技术热点。安全风险防控重心转向工具层,需应对多样化工具与输入接口可能产生的安全威胁。
当前大模型技术仍难以从根本上解决安全性问题,其根源可归结为以下三方面:
首先,Transformer架构的核心是基于token的概率预测系统,而非事实系统。模型通过学习上下文关系预测下一个最可能的token,这一机制决定了其输出是基于统计概率的“最可能结果”而非绝对事实,因此幻觉现象本质上无法完全消除。
其次,训练数据的局限性和噪声引入显著偏差。以中文大模型训练为例,电子化语料总量有限:具备ISBN编号的500万种书籍中仅少量完成高质量数字化,早期互联网UGC数据质量参差不齐且已被消耗殆尽。近年来虽通过机器翻译、低质量数据清洗等方式扩充语料,但数据瓶颈依然存在。视觉数据虽规模更大,但标注清洗难度进一步加剧了数据质量的挑战。
最后,模型结构缺乏内在因果逻辑与可解释性。尽管思维链(CoT)技术引入了推理过程,但基础架构仍不具备真正的逻辑推理能力。模型输出具有 intentional 的不稳定性——降低输出熵值会削弱创造性,保持熵值则导致不可预测性。这种不可解释性迫使安全措施多采用“外挂”式补丁,通过可控组件修正模型输出,但本质上仍属事后补救。
综上所述,生成式大模型作为概率性引擎,其架构特性、数据局限与不可解释性共同构成了安全性问题的底层根源,当前安全手段仅能缓解而无法彻底消除这些问题。
另一方面,欧美提出的“负责任的AI”框架是一个融合技术、监管与行业规范的综合性体系,其关注点与中国存在一定差异。该框架主要涵盖几个核心维度:安全性是行业基线,各国对幻觉治理、攻击防护等要求基本一致;公平性与反歧视在欧美语境下要求更具体且社会影响更深;强调关键决策中必须保留人类监督;尤其重视透明性与可审计性,要求企业公开风险评估记录和关键决策逻辑,以应对模型的不可预测性;问责机制则与中国法规方向一致。
欧盟与美国的推进路径存在显著差异。欧盟通过《人工智能法案》建立分层监管体系,将AI系统按风险分级:明确禁止AI参与社会评分、生物识别监控等高风险领域;对高风险AI系统施加严格的法律义务(如透明性要求),并于2024年形成法案框架,2025年下半年逐步落地,预计2026-2027年完善实施逻辑。欧盟特别强调通过结构化的红蓝对抗评估,邀请行业专家进行系统性测试,与中国依赖海量数据“盲打”的模式形成对比。
美国则采取分散式治理,依赖行政令、行业标准与各州法规,更注重红蓝对抗、隐私公平及国家安全,企业在合规操作上灵活性较高。两者共同点在于都将红队评估作为核心安全手段,但执行精度和体系化程度存在差距。
关于文心一言,品牌在发展过程中,其内容安全架构经历了显著的演进。第一代方案试图通过将安全语料直接注入微调过程来实现安全对齐,但受限于长达数月的模型迭代周期,无法应对快速变化的安全威胁,也难以满足监管备案的时效要求。
第二代方案转为采用“模型+前置传统内容审核引擎”的组合模式,以期实现快速响应。然而,该方案未能根本解决大模型特有的新型安全风险,例如多模态内容的相互指代、提示词意图理解等与传统内容安全截然不同的问题。
当前方案演进为“原生的大模型内容安全”架构。其核心是完全摒弃传统内容审核的技术栈,针对大模型的本质特性(如多模态理解、提示词意图解析)构建专属安全能力。通过引入RAG等技术将最新安全知识动态纳入审核流程,并结合模型底层的安全对齐,形成一套原生集成的新型防护体系。
尽管现今的底座模型安全性已远超两年前,但行业实践表明,完全依赖模型内部的安全对齐仍不足够。由于其本质上的不可解释性与不可控性,必须结合一个可快速迭代、可控的外挂安全机制作为必要补充,形成内外结合的双重保障。关于百度大模型安全解决方案,其能覆盖运营阶段的多层防护体系。
百度建立了一套严格的流程以平衡安全性与数据可用性。其难点在于清除有害信息的同时,尽可能保留语料的训练价值。具体步骤包括:先对数据来源进行分级评估(如优先采用有版号的书籍),随后进行合规脱敏(如删除身份证号等个人信息)和内容过滤(依据国家标准删除涉政、涉黄等违规内容)。为确保清洗后数据仍可用于训练,安全团队需与模型团队协同评估,有时需对删除后的语义进行修复与拼接,最终由模型团队验收,符合质量要求的语料方能投入使用。整个流程下来,原始训练数据通常仅有约50%-60%能满足安全与质量双重标准。
百度创新性地提出了“红线大模型”的解决方案。该方案旨在解决基础大模型在事实性问题(尤其是涉及国家主权等敏感话题)上难以直接纠偏的困境。红线大模型是一个参数规模较小(仅数B级别)、功能专一的模型,其设计完全舍弃通用能力(如解数学题),专注于高准确率地回答特定敏感事实问题。当用户提问被识别为涉及“红线”问题时,系统会将其路由至该专属模型进行回答,其余问题则由基础模型处理。这种“曲线救国”的架构,通过在关键节点设置一道安全保险,确保了回答的政治正确性和事实准确性。这一基于中国国情的实践,已成为行业共识,并被多家厂商效仿,构成了与国外解决方案的显著差异。
百度采用了监督增强技术,通过建立“信任域检索”机制来提升回答的准确性与时效性。具体而言,该系统将党媒央媒等权威信息源划定为一个可信知识库。当模型(包括安全模型和底座模型)遇到需要事实依据的安全类问题时,会实时从此信任域中通过RAG技术检索相关信息,并将其作为上下文提供给模型参考,从而确保其输出符合权威表述。
该方法应用范围相对有限,其核心是在识别出用户原始提问存在安全风险后,对特定类型的风险Prompt进行干预,例如为其添加安全前缀或改写其表述意图,从而引导底座大模型生成符合安全要求的内容。由于改写可能引入语义偏差,此方法仅在可控场景下谨慎使用。
百度认为,重点应对多模态模型带来的复杂安全挑战。当前风险已从文本扩展到跨模态领域,例如将攻击信息隐藏于图片中,再与文本组合形成难以察觉的安全威胁,这使得传统单模态防御手段几乎失效。应对此挑战需从三方面入手:首先,模型需具备底层视觉理解能力,能直接识别图像中的危险元素;其次,安全防护体系必须实现“模态对齐”,即让安全模型像基础多模态模型一样,具备将图像特征与文本特征在统一空间进行关联和交叉分析的能力,否则无法防御跨模态攻击;最后,还需增强模型的鲁棒性,以抵御针对图像的各种扰动攻击。然而,这些高级防护措施也伴随着显著升高的计算与实现成本。
安在新媒体面向企业用户,推出“网络安全意识团购服务”,涵盖宣传素材、培训课程、威胁体验、游戏互动等,采用线上线下融合的方式,帮助员工掌握安全要点,并提供定制化安全策略咨询。
部分展示,以作参考
更多服务,详情洽谈
2025超级CSO研修班全貌
过程回顾
导师授课
第五届超级CSO研修班全貌
过程回顾
导师授课
学员论文
第四届超级CSO研修班全貌
过程回顾
导师授课
学员论文
第三届超级CSO研修班全貌
过程回顾
导师授课
学员论文
第二届超级CSO研修班全貌
过程回顾
导师授课
学员论文
首届超级CSO研修班全貌
过程回顾
导师授课
学员论文
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……




还没有评论,来说两句吧...