磐石·Y大模型安全实践优秀案例|中国电信：见微安全大模型的大模型护栏应用实践

2024年4月，在中国软件评测中心（工业和信息化部软件与集成电路促进中心）联合数据安全关键技术与产业应用评价工业和信息化部重点实验室、中国计算机行业协会数据安全专业委员会开展的大模型安全性测评“磐石·X”榜单计划中，中国电信的见微安全大模型顺利通过了五大维度测评，获得A级证书，成为首批通过大模型安全性测评“磐石·X”榜单计划的单位之一。

本次“磐石·Y”大模型安全实践优秀案例分享，从多角度、全方位、立体式呈现大模型安全防护方案，为更多行业用户在大模型产品选型提供重要参考，护航大模型的高质量发展。

见微安全大模型

安全大模型作为中国电信网信安全重要布局的关键一环，天翼安全科技有限公司（下称：电信安全）秉承安全运营智能化理念，立足电信丰富的数据基础、庞大的安全知识积累以及对安全业务场景的深入理解，聚焦安全运营场景中的安全运营疲劳、安全专家稀缺以及运营效率瓶颈三大痛点问题，布局海量日志智能降噪研判、智能安全运营辅助、运营报告生成解读、数字生态地貌、安全大模型护栏等差异化安全运营场景核心能力研发攻关，在2023年正式发布了见微安全大模型，旨在通过大模型的过滤聚合处理，大幅提升云网安全运营的效率，是中国电信在数字安全领域的一项重要创新。

安全解决方案

电信安全公司推出了大模型护栏服务。护栏的概念源于对模型行为的控制和限制，以确保其在安全、合规的框架内运行。围绕用户输入的prompt内容、大模型生成内容提供专业的内容审核能力，可包括用户输入审核与改写和模型输出内容审核两个部分，涵盖内容安全防护、指令安全防护以及业务安全防护等方面检测能力。

在用户输入审核与改写方面，具备对用户输入内容提供多维度内容的审核能力，并针对恶意诱导大模型生成违规内容或者包含敏感隐私信息的prompt进行检测、改写并做毒性提示，检测内容包括：敏感话题检测、提示注入攻击检测、隐私数据检测、漏洞攻击检测、投毒攻击检测等。

在模型输出内容审核方面，为大模型生成内容提供包含违规内容的检测和屏蔽、输入输出的内容相关度判定等功能。

大模型护栏作为服务，与AI应用相对接，实现对大模型请求输入输出内容的实时检测，其对接和原理架构如下图所示：

在AI应用中，Agent层作为应用的逻辑枢纽，在每个AI对话中，将用户输入的prompt内容，以及大模型输出的回答内容进行检查并返回检查结果。Agent根据返回结果决定是否拦截该提问或者回答，并对客户端做出适当的响应。

成果与效益

大模型护栏当前已收录包含在《生成式人工智能服务管理暂行办法》中严格禁止的7大类共计5万以上样本，并通过多个渠道收集了上万种提示注入模板。经过实际应用验证，AI应用开启大模型护栏后，能有效防护针对模型的各类攻击，攻击成功率下降50%以上，其中违法犯罪，偏见歧视，政治敏感等话题的攻击有效防范成功率可达99%以上。

实践经验总结

人工智能产业呈现蓬勃发展势头，通用人工智能产业的爆发给安全领域带来机遇和挑战。围绕人工智能在安全行业应用的发展情况和研究应用，电信安全同步布局安全大模型和大模型安全两个方向。

在安全大模型方向，电信安全未来将重点探索大语言模型在安全领域的应用，为构建更加安全、稳定、高效的网络环境提供坚实保障。紧密围绕大模型在安全领域的垂直行业应用，专注于将安全大模型应用于各类安全应用场景中，为网络安全领域带来显著的智能化升级。

在大模型安全方向，将加强研究面向大模型的敏感训练数据保护技术和大模型安全防护技术，通过合作构建开放的生态系统，共同探索和开发，推动技术创新和行业应用。此外，电信安全还将关注监管合规，培养专业人才，并设立创新实验室以探索新应用，确保在大模型安全技术的发展中保持领先地位，为用户提供更高效、安全的服务体验。

推荐阅读

微信公众号

中国数据安全产业网

作者 | 中国评测安全事业部

编辑 | 中国评测安全事业部