大模型安全建设的新范式：百度大模型安全防火墙

近日，2025北京网络安全大会（BCS2025）互联网安全论坛在北京国家会议中心隆重召开。会上，百度大模型内容安全平台负责人李志伟就《开源时代下的大模型安全“新范式”》进行主题分析，他表示，在开源大模型普惠发展的趋势下，安全挑战正从传统静态风险向复杂攻击范式跃迁，内容安全合规成为所有大模型产品和服务的“生命线”，如何在守住安全底线、精准拦截风险的同时，又能对用户进行正向引导，避免“一刀切”式拒答，已成为开源时代下安全防线重构的核心议题。

BCS 2025 互联网安全论坛

大模型技术正在从单模态突破向全场景能力跃迁，这种变化不仅推动了AI技术的普及，催生了端侧AI应用的爆发式增长，但也带来了前所未有的安全挑战。《互联网信息服务深度合成管理规定》和《生成式人工智能服务管理暂行办法》等法规明确要求，严禁生成违规内容，而传统的安全防护手段在面对大模型的复杂性时显得力不从心。通用大模型面临的风险已从传统的违法违规内容扩展到偏见歧视、隐私泄露、内容侵权等多个维度。更为严峻的是，OWASP大模型TOP10脆弱性风险揭示了代码攻击、提示词注入、多轮越狱等高级攻击手段的威胁。这些攻击方式利用大模型的语言理解能力，通过精心设计的输入来绕过安全机制，实现恶意目的。

百度大模型内容安全平台负责人李志伟

李志伟补充道，更进一步的挑战来自于模型架构本身。当下的主流模型普遍采用检索增强生成（RAG）技术，通过外挂知识库来提升回答的准确性与时效性。但这同时也开辟了新的攻击向量——“RAG投毒”。攻击者若能污染开放的外部知识库，例如将错误信息、植入其中，大模型便会信以为真，并将其作为事实依据传递给用户，从而在无形中成为虚假信息的“权威”传播者。此外，针对接口的AIGC盗爬、以消耗算力为目的的资源侵占攻击等，也对模型的稳定运营构成了直接且持续的威胁。这标志着，通用大模型的安全防线须从内容过滤，延伸至对模型认知过程的深度防护。也正因如此，大模型在安全上破局的关键，便在于彻底重构安全防线，建立一套能够实现精准拦截与正向引导相统一的“新范式”。

对此，百度安全提出的大模型安全防火墙建设理念，为行业提供了一套系统性的解决方案。这套体系直面的第一个核心议题，便是如何守住内容安全的“生命线”，同时又彻底告别“一刀切”式拒答的僵硬模式：

百度大模型安全防火墙

在内容安全围栏建设方面，通过构建红线知识库和红线大模型，实现了从简单拒答到智能代答的跃升。当用户询问敏感问题时，系统不再一律拒绝回答，而是基于信任域检索增强的知识库提供客观、准确的信息，既保障了内容安全，又提升了用户体验。这种方式特别适用于国内常见的敏感话题处理。

内容安全围栏（文本）

且随着多模态大模型的到来，相应的安全风险维度更呈现出指数级的增长。为此，新一代的安全围栏不再是多个独立算子，而是构建一个统一的“多模态安全审核大模型”。这个模型被专门训练用于理解不同模态间的复杂关联和深层意图，能够在一个统一的框架内，同时处理文本、图像及音视频的输入，从而精准识别上述的“组合风险”与“感知欺骗”攻击，实现真正意义上的多模态内容安全。

内容安全围栏（多模）

针对高级攻击的检测，系统从恶意意图和恶意形式两个维度进行全面防护。无论是系统信息泄露、用户数据窃取，还是对抗编码、反向抑制等复杂攻击手段，都能被及时识别和拦截。同时，通过敏感信息检测和算力消耗监控，确保系统在各种攻击场景下都能保持稳定运行。

高级攻击检测

建立完善的安全评测体系是提升大模型安全性的关键环节。通过构建仿写大模型和毒性增强技术，可以自动生成大量的对抗性测试样本，全面检验模型的安全防护能力。裁判大模型的引入更是实现了评测过程的高度自动化，大幅降低了人工标注成本。

大模型安全评测体系建设

对于端侧大模型的特殊挑战，攻击者可通过逆向工程等手段，直接获取模型参数与架构，且端侧设备天然缺失云数据中心级别的纵深防御体系，安全能力严重依赖操作系统。而百度安全提出了云端协同的安全管控方案，通过云端控制台统一管理词库、知识库和拦截策略，即使在设备离线状态下，终端也能维持安全审核能力。这种设计既满足了合规要求，又保障了用户在各种网络环境下的使用体验。

内容安全围栏（端侧）

这种"用魔法打败魔法"的思路体现了大模型安全建设的新趋势——使用大模型来解决大模型的安全问题。通过不断完善评测数据集和标注系统，形成常态化的安全评估机制，确保大模型在各种场景下都能稳定、安全地运行。从分散治理向All in One模型理解的安全演进，代表了行业发展的必然趋势。并通过构建多模态安全大模型、裁判大模型、仿写大模型等专业化工具，可以实现更加精准、高效的安全防护。李志伟表示，在这个过程中，平衡安全与用户体验将始终是核心挑战；如何在确保内容合规的前提下，提供更加智能、人性化的服务，需要产业各方的共同努力，只有建立起覆盖全生命周期的安全防护体系，开源大模型才能真正实现普惠发展，为社会带来更大价值。