人工智能安全治理框架：制定技管结合的实操性指南

以大模型为代表的通用人工智能技术快速发展，人工智能安全治理受到国际社会广泛关注，2023年10月，我国在第三届“一带一路”国际合作高峰论坛上正式提出《全球人工智能治理倡议》，围绕人工智能发展、安全、治理三方面系统阐述了人工智能治理中国方案。

为贯彻落实其内容，全国网安标委研究制定了《人工智能安全治理框架》（以下简称《框架》），其1.0版本已于近日正式对外发布。《框架》首次强调了内外兼治的范围与技管结合的原则，明确了人工智能安全治理的原则、框架构成、风险分类、技术应对措施和综合治理措施，同时针对模型算法研发者、服务提供者、重点领域使用者和社会公众用户，分别提出了安全开发应用指引，明确了各方在人工智能安全治理中的责任和义务。

关注安全419公众号，回复关键字【179】，获取《框架》全文

内外兼治与技管结合的安全治理

内外兼治表明《框架》既关注人工智能技术的内生风险，也关注人工智能应用过程中的衍生风险。

前者首先体现在模型算法层面，包括可解释性差、存在偏见或歧视、鲁棒性弱、可能被窃取或篡改、输出内容不可靠，以及抗攻击风险；其次是数据安全层面，违规收集使用数据，训练数据含不当内容、被 “投毒”、标注不规范等，又或因数据处理不当、非授权访问、恶意攻击、诱导交互等导致数据和个人信息泄露；再者是系统安全层面，可能存在缺陷、后门被攻击利用，算力和供应链也面临恶意消耗和断供的风险。

后者主要围绕四个领域，网络域层面在于信息内容安全风险，输出内容可能存在混淆事实、误导用户、绕过鉴权的问题，以及不当使用引发信息泄露，模型复用致缺陷传导；现实域层面，人工智能应用于自动驾驶、智能诊疗等，其幻觉输出、错误决策可能危害经济社会安全，以及可能被利用于涉恐、涉暴、涉赌、涉毒等违法犯罪活动；认知域层面，容易加剧 “信息茧房” 效应，或用于开展认知战；伦理域层面，加剧社会歧视偏见、扩大智能鸿沟。

技管结合表明《框架》主张通过技术手段和管理措施相结合的方式，综合治理人工智能安全风险。

针对上述安全风险，模型算法研发者、服务提供者、系统使用者等需从训练数据、算力设施、模型算法、产品服务、应用场景各方面采取技术措施予以防范。模型算法上需提供明确说明、建立并实施安全开发规范等，数据安全主要着眼于个人信息保护和知识产权保护，以及数据处理的规则和措施等，系统安全需要适当公开风险、标识输出内容、加强风险识别检测与防护、加强运维能力、关注供应链安全。

在采取技术应对措施的同时，建立完善技术研发机构、服务提供者、用户、政府部门、行业协会、社会组织等多方参与的人工智能安全风险综合治理制度规范。包括实施人工智能应用分类分级管理，建立人工智能服务可追溯管理制度，完善人工智能数据安全和个人信息保护规范，构建负责任的人工智能研发应用体系，强化人工智能供应链安全保障，建立健全人工智能安全宣传教育、行业自律、社会监督机制等。

为不同角色制定安全开发应用指引

《框架》区分四种不同属性的角色，给出了每种角色在处理或使用人工智能产品、服务时的安全指引。

针对模型算法研发者，主要强调在从需求分析到训练数据选用等环节，对数据安全、个人信息保护、知识产权方面的风险提前加以明确，在各环节做好测试和评估，生成测试报告，分析问题并提出改进方案。

对于人工智能服务提供者，则强调要在服务提供过程中及时将风险和注意事项等告知用户，评估风险、做好预案，遇到安全事故和漏洞及时报告等。

对于政府部门、关键信息基础设施以及直接影响公共安全和公民生命健康安全的领域等重点领域使用者，强调在使用过程中的操作合规、定期审计和检查等措施。

对于社会公众，主要强调审慎选择和了解人工智能产品，关注使用中的风险，同时也提到了要注意人工智能产品对于儿童和青少年的影响，防止沉迷和过度使用等。

业界为框架实施提供有力参照

安全419了解到，产研机构、科技巨头、安全厂商等作为人工智能产业生态中的重要参与者，在积极研制布局人工智能应用的同时，也持续从实战中探索应对人工智能安全威胁的解决方案，成为模型算法研发者、服务提供者、系统使用者依据《框架》实施的有力参照。

腾讯云生成式AI安全解决方案

腾讯云建立的生成式AI安全解决方案，围绕AI本体安全、AI应用安全、AI内容安全建立起保护框架。通过天御AIGC全链路内容安全解决方案，提供审校服务、安全专家服务、机器审核服务、版权保护服务、客户体验管理五大服务体系，包含风险场景定义、风险语料库服务、语料版权检测、输出价值观检测、业务传播风险监测等能力。

针对AIGC场景和数据特点开发，打造数据安全治理解决方案，通过对大模型的用户、实体、模型文件实施分级别的访问控制，实现权限分离。同时，通过数据安全治理中心、数据安全防护网关、机密计算平台等产品能力，实现大模型业务全流程从数据采集、数据处理、训练、精调、发布、推理到应用的过程中，海量数据和大模型的完整性和保密性。

360大模型安全解决方案

360提出大模型安全能力体系框架（AISF框架），将大模型安全能力分为两部分，一是传统网络与数据安全能力，二是需要嵌入到大模型内部，以解决大模型内容可信、合规向善为目标的大模型原生安全能力。

在框架中，一方面，利用360安全云围绕“数据、探针、平台、专家、AI”这五个核心要素，在网络与数据安全层面对大模型进行全面防护；另一方面，通过“360大模型原生安全能力增强包”解决大模型在内容可信、合规向善、模型可控上存在的安全问题，并利用其独有的大模型安全评估系统，对大模型的安全能力进行实战评估。方案可以平移、复制给有需求的行业客户与合作伙伴，并以标准化的能力产品方式对其他大模型企业进行安全赋能。

百度智能云千帆大模型数据安全解决方案

百度安全打造的百度数据保险箱产品（Baidu AI Realm），提供端到端的数据密态管控与数据安全合规能力，覆盖大模型语料数据安全管理、大模型训练数据安全管控、大模型推理安全服务、大模型微调数据安全管理、大模型私有化数据资产保护等各个环节。

基于文心大模型的智能分类分级代替基于正则表达式的传统分类分级方案，针对大模型场景下的标注类数据、语料类数据、日志类数据，提供FUSE文件透明加解密、Parquet数仓透明加解密、CASB数据库透明加解密等多种加密方案。对百度智能云千帆大模型平台基础环境进行数据安全风险评估形成环境清单，为大模型关键程序进行数据安全风险评估形成程序清单，为核心数据资产进行数据安全风险评估形成数据清单，实现大模型在生产、流转、部署等流程中数据资产、模型资产的有效保护。

中国信通院大模型安全对齐方案智盾

中国信通院提出了自研的大模型安全对齐方案——智盾，在保持模型原有能力和推理效率的前提下对开源大模型自身进行安全防护加固，使得大模型获得了明显的安全性能提升，多个开源大模型被攻击成功的概率下降均超过30多个百分点，最高甚至超过70多个百分点。

智盾还兼顾了模型原本的通用能力。以开源模型A在中文多任务语言理解能力测试基准CMMLU上的表现为例，通过智盾进行安全对齐后的模型通用能力平均分仅下降0.1分，被攻击成功的概率大幅下降72个百分点。此外，智盾对齐方案还在一定程度上提升了模型A在社会科学和中文特定主题领域的能力。

作为一份技术和管理相结合的指南，《框架》的发布为推动各方就人工智能安全治理达成共识、协调一致起到了促进作用，值得人工智能产品研发者、服务提供者、使用者去仔细研读，以规避和有效应对人工智能领域的安全风险，促进行业健康发展。同时全国网安标委还透露，将积极推动人工智能安全标准工作，进一步促进《框架》的有效落地实施。

关注安全419公众号，回复关键字【179】，可获取《框架》全文。

END

✦