近日,2025北京网络安全大会(BCS2025)互联网安全论坛在北京国家会议中心隆重召开。会上,百度大模型内容安全平台负责人李志伟就《开源时代下的大模型安全“新范式”》进行主题分析,他表示,在开源大模型普惠发展的趋势下,安全挑战正从传统静态风险向复杂攻击范式跃迁,内容安全合规成为所有大模型产品和服务的“生命线”,如何在守住安全底线、精准拦截风险的同时,又能对用户进行正向引导,避免“一刀切”式拒答,已成为开源时代下安全防线重构的核心议题。
BCS 2025 互联网安全论坛
大模型技术正在从单模态突破向全场景能力跃迁,这种变化不仅推动了AI技术的普及,催生了端侧AI应用的爆发式增长,但也带来了前所未有的安全挑战。《互联网信息服务深度合成管理规定》和《生成式人工智能服务管理暂行办法》等法规明确要求,严禁生成违规内容,而传统的安全防护手段在面对大模型的复杂性时显得力不从心。通用大模型面临的风险已从传统的违法违规内容扩展到偏见歧视、隐私泄露、内容侵权等多个维度。更为严峻的是,OWASP大模型TOP10脆弱性风险揭示了代码攻击、提示词注入、多轮越狱等高级攻击手段的威胁。这些攻击方式利用大模型的语言理解能力,通过精心设计的输入来绕过安全机制,实现恶意目的。
百度大模型内容安全平台负责人李志伟
李志伟补充道,更进一步的挑战来自于模型架构本身。当下的主流模型普遍采用检索增强生成(RAG)技术,通过外挂知识库来提升回答的准确性与时效性。但这同时也开辟了新的攻击向量——“RAG投毒”。攻击者若能污染开放的外部知识库,例如将错误信息、植入其中,大模型便会信以为真,并将其作为事实依据传递给用户,从而在无形中成为虚假信息的“权威”传播者。此外,针对接口的AIGC盗爬、以消耗算力为目的的资源侵占攻击等,也对模型的稳定运营构成了直接且持续的威胁。这标志着,通用大模型的安全防线须从内容过滤,延伸至对模型认知过程的深度防护。也正因如此,大模型在安全上破局的关键,便在于彻底重构安全防线,建立一套能够实现精准拦截与正向引导相统一的“新范式”。
对此,百度安全提出的大模型安全防火墙建设理念,为行业提供了一套系统性的解决方案。这套体系直面的第一个核心议题,便是如何守住内容安全的“生命线”,同时又彻底告别“一刀切”式拒答的僵硬模式:
百度大模型安全防火墙
在内容安全围栏建设方面,通过构建红线知识库和红线大模型,实现了从简单拒答到智能代答的跃升。当用户询问敏感问题时,系统不再一律拒绝回答,而是基于信任域检索增强的知识库提供客观、准确的信息,既保障了内容安全,又提升了用户体验。这种方式特别适用于国内常见的敏感话题处理。
内容安全围栏(文本)
且随着多模态大模型的到来,相应的安全风险维度更呈现出指数级的增长。为此,新一代的安全围栏不再是多个独立算子,而是构建一个统一的“多模态安全审核大模型”。这个模型被专门训练用于理解不同模态间的复杂关联和深层意图,能够在一个统一的框架内,同时处理文本、图像及音视频的输入,从而精准识别上述的“组合风险”与“感知欺骗”攻击,实现真正意义上的多模态内容安全。
内容安全围栏(多模)
针对高级攻击的检测,系统从恶意意图和恶意形式两个维度进行全面防护。无论是系统信息泄露、用户数据窃取,还是对抗编码、反向抑制等复杂攻击手段,都能被及时识别和拦截。同时,通过敏感信息检测和算力消耗监控,确保系统在各种攻击场景下都能保持稳定运行。
高级攻击检测
建立完善的安全评测体系是提升大模型安全性的关键环节。通过构建仿写大模型和毒性增强技术,可以自动生成大量的对抗性测试样本,全面检验模型的安全防护能力。裁判大模型的引入更是实现了评测过程的高度自动化,大幅降低了人工标注成本。
大模型安全评测体系建设
对于端侧大模型的特殊挑战,攻击者可通过逆向工程等手段,直接获取模型参数与架构,且端侧设备天然缺失云数据中心级别的纵深防御体系,安全能力严重依赖操作系统。而百度安全提出了云端协同的安全管控方案,通过云端控制台统一管理词库、知识库和拦截策略,即使在设备离线状态下,终端也能维持安全审核能力。这种设计既满足了合规要求,又保障了用户在各种网络环境下的使用体验。
内容安全围栏(端侧)
这种"用魔法打败魔法"的思路体现了大模型安全建设的新趋势——使用大模型来解决大模型的安全问题。通过不断完善评测数据集和标注系统,形成常态化的安全评估机制,确保大模型在各种场景下都能稳定、安全地运行。从分散治理向All in One模型理解的安全演进,代表了行业发展的必然趋势。并通过构建多模态安全大模型、裁判大模型、仿写大模型等专业化工具,可以实现更加精准、高效的安全防护。李志伟表示,在这个过程中,平衡安全与用户体验将始终是核心挑战;如何在确保内容合规的前提下,提供更加智能、人性化的服务,需要产业各方的共同努力,只有建立起覆盖全生命周期的安全防护体系,开源大模型才能真正实现普惠发展,为社会带来更大价值。
相关阅读
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...