生成式人工智能服务安全基本要求

点击蓝字丨关注我们

申请加入数据安全共同体计划，请在本公众号回复“申请表”获取下载链接

在互联网信息服务领域，安全评估已成为确保生成式人工智能服务提供者遵守法律法规、维护网络安全和信息安全的重要机制。本文将结合现行法律法规，探讨生成式人工智能服务监管框架的背景及实务要点。

一

背景介绍

2018年发布的《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》第三条规定了符合特定情形的互联网信息服务提供者需要自行开展安全评估，第七条进一步明确了互联网信息服务提供者应将前述安全评估报告通过全国互联网安全管理服务平台提交所在地地级市以上网信部门和公安机关。实践中，此类安全评估主要由公安机关进行审查，且更倾向于是备案性质的安全评估，只需根据服务平台提供的指引填报相应信息，并无较大难度。

2022年发布的《移动互联网应用程序信息服务管理规定》第十四条规定，应用程序提供者上线具有舆论属性或者社会动员能力的新技术、新应用、新功能，应当按照国家有关规定进行安全评估。此处的安全评估在实践中为互联网新技术新应用安全评估，也称为双新评估，双新评估的历史变化不在本文进行展开。

2023年发布的《生成式人工智能服务管理暂行办法》（以下简称“《暂行办法》”）第十七条规定，提供具有舆论属性或者社会动员能力的生成式人工智能服务的，应当按照国家有关规定开展安全评估，并按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续。在《暂行办法》征求意见时，第一批大模型提交的安全评估报告为双新评估报告，在《暂行办法》生效后，又改为提交大模型上线备案表。自此，针对生成式人工智能服务的监管，即形成了由算法备案制度和大模型备案组成的双备案制度。实践中，生成式人工智能服务提供者需向网信办申报大模型备案，其中包含安全评估相应内容，且与双新评估不同。大模型备案作为生成式人工智能服务的上线要求，如未获通过，提供者则将面临承担《暂行办法》第二十一条所规定法律责任的风险。

在此背景下，2023年10月11日，《生成式人工智能服务安全基本要求》（征求意见稿）发布；2024年3月1日，全国网络安全标准化技术委员会秘书处正式发布《生成式人工智能服务安全基本要求》（以下简称“《基本要求》”）。作为《暂行办法》的配套文件，《基本要求》针对生成式人工智能服务提供者的安全评估和安全水平提升提供指导，同时也为相关主管部门提供了评判标准。

与征求意见稿相比，《基本要求》总则部分增加了服务提供者应紧密注意生成式人工智能可能带来的长期风险，谨慎对待可能具备欺骗人类、自我复制、自我改造能力的人工智能，并重点关注生成式人工智能可能被用于编写恶意软件、制造生物武器或化学武器等安全风险。虽然这并非安全评估要点，但仍然需要服务提供者注意。

同时，服务提供者需要关注《信息安全技术生成式人工智能服务安全基本要求》《信息安全技术生成式人工智能预训练和优化训练数据安全规范》《信息安全技术生成式人工智能人工标注安全规范》《网络安全标准实践指南—生成式人工智能服务内容标识方法》等关联标准。《基本要求》将征求意见稿正文部分具体列举的关联标准均修改为国家相关规定以及国家标准要求。

二

实务要点

内容	要点	变化	实务指引
语料来源安全	针对语料的管理区分阶段，应搭配不同来源的语料，不同来源的语料应采取的前置措施不同。	Ø删除应建立语料来源黑名单。 Ø新增限制采集的技术手段、已拒绝授权采集等内容。 Ø新增应对交易方或合作方所提供语料、承诺、材料进行审核。 Ø针对按照法律规定要求阻断的信息，删除示例《网安法》50条。	²实践中一般不会使用单一语料，建议使用境外语料应对数据进行清洗。 ²建议使用自采语料时自行证明采集依据，经由法务评估。 ²建议将使用者输入信息当作语料时，通过《生成式人工智能服务协议》进行授权，设置关闭路径。
语料内容安全	应采取关键词等方式过滤违法不良信息，并采取系列措施保护知识产权与个人信息。	Ø识别内容安全的主语删除知识产权相关负责人，示例删除商业秘密、商标权、专利权的内容。 Ø删除应建立知识产权问题的处理渠道。 Ø删除使用包含人脸等生物特征信息的语料的场景。	²由于知识产权较复杂，建议在建立知识产权管理策略时明确阐述流程，且应有法务参加相关策略的制定。 ²实践中已有提供生成式人工智能服务的知识产权侵权相关判例。 ²不推荐使用敏感个人信息、包含人脸等生物特征信息作为语料。
语料标注安全要求	应对标注人员进行培训、考核，对功能性标注及安全性标注分别制定标注规则，并确保标注内容准确性。	Ø新增应自行组织对于标注人员的安全培训，培训内容应包括标注任务规则、标注工具使用方法、标注内容质量核验方法、标注数据安全管理要求等。 Ø新增宜对安全性标注数据进行隔离存储。	²目前标注工作大部分为代工，如果委托他人进行标注，建议对被委托人的考核由委托人实施，并说明考核内容。 ²标注人员的任务和时间安排应当合理，前后的逻辑应当真实，审核时会判断。 ²建议针对安全内容，至少存在一次复审。 ²文件未对批次的规模和计算方式进行明确。
模型安全要求	应使用已经主管部门备案的基础模型，将生成内容安全性作为评价优劣的主要指标，并提高生成内容的准确性和可靠性。	Ø新增应建立常态化监测测评手段。 Ø新增及时处置安全问题。 Ø修改生成内容准确性、可靠性方面的表述。	²在每次对话中，应防止用户输入不恰当内容。 ²实践中企业大多通过针对性的指令微调、强化学习等方式优化模型，应在提供材料时明确告知此信息。 ²应做到准确率高、使用方便。
安全措施要求	应充分论证应用生成式人工智能的必要性、适用性及安全性等，针对未成年采取额外措施，保障服务透明度，并对计算系统、模型更新、服务的稳定性等提出要求。	Ø删除监护人通过密码保护设定未成年人防沉迷措施。 Ø删除限制未成年人单日对话次数与时长，若超过使用次数或时长需输入管理密码。 Ø删除个人信息处理方面，应按照我国个人信息保护要求，并充分参考现行国家标准，如GB/T35273等，对个人信息进行保护。 Ø删除应事前与使用者约定能否将使用者输入信息用于训练。 Ø新增训练、推理所采用的计算系统方面，应评估系统所采用芯片、软件、工具、算力等方面的供应链安全，侧重评估供应持续性、稳定性等方面；所采用芯片宜支持基于硬件的安全启动、可信启动流程及安全性验证，保障生成式人工智能系统运行在安全可信环境中。 Ø新增应采取关键词、分类模型等方式对使用者输入信息进行检测，使用者连续三次或一天内累计五次输入违法不良信息或明显诱导生成违法不良信息的，应依法依约采取暂停提供服务等处置措施。 Ø删除重新备案的内容。 Ø新增对服务稳定、持续方面的要求。	²服务于关键信息基础设施、自动控制、医疗信息服务、心理咨询等重要场合时，需在评估时明确风险程度、具体服务场景，并展开论述采用了何种保护措施。 ²由服务提供者结合通常标准自行论证是否适用未成年人，实践中主要体现企业已针对是否适用于未成年人有所考量，明确业务适用的范围、场景，以及不适用的场景。 ²注意面向“社会”和“使用者”公开信息时存在不同。 ²审核实践中，未要求对个人信息根据国标逐条进行保护，仅需说明参照何种依据开展了哪些保护工作。 ²针对图片、视频等内容标识，如存在缺项，监管部门将要求予以填补或解释清楚缺少的原因，发生极端情况时监管部门将视情形不同具体处理。 ²针对监看人员的设置，重在针对内容安全情况有所响应，并非要求设置全天候监督人员。由于各单位情况不同，如头部企业和创新型企业人员差异较大，职务设置、职责分配均有不同，故目前未针对此条进行细化，各企业应根据自身情况进行填写。
其他要求	对关键词库、生成内容测试题库、拒答测试题库及分类模型从总规模、应覆盖领域等方面作出具体要求。	Ø删除关键词一般不应超过10个汉字或5个其他语言的单词。 Ø针对关键词库、生成内容测试题库、拒答测试题库的数量要求，从应改为宜。 Ø新增关键词库应按照网络安全实际需要及时更新，每周宜至少更新一次。 Ø新增生成内容测试题库应按照网络安全实际需要及时更新，每月宜至少更新一次。 Ø新增面向特定领域的专用模型，对于非拒答测试题库各个方面有部分不涉及的，可不设置不涉及部分的非拒答测试题，但应在应拒答测试题库中体现不涉及的部分。 Ø新增拒答测试题库应按照网络安全实际需要及时更新，每月宜至少更新一次。 Ø非拒答测试题库的范围从覆盖改为应至少覆盖。	²应改成宜处，由于各地网信办审核标准有所不同，建议仍然按照文件要求落实。 ²注意构建拒答能力时应建立两个测试库。
安全评估要求	服务提供者可按照本文件自行组织安全评估，或委托第三方开展，评估应覆盖文件第五至八章中所有条款，每个条款形成单独的评估结果，并将相关证明及支撑材料写入评估报告，报告中应形成整体评估结论。服务提供者自行开展的安全评估，报告应至少具有三名负责人共同签字。	Ø删除应在服务上线前以及重大变更时开展安全评估。 Ø新增已采取技术或管理措施但尚未满足要求的，应详细说明采取的措施和后续满足要求的计划。 Ø评估报告应符合履行备案手续时的相关要求，表述从开展评估改为履行备案手续。 Ø新增应在评估报告中形成整体评估结论。 Ø将单位法人修改为单位法定代表人。 Ø新增说明单位法定代表人兼任网络安全负责人或法务负责人时，可由单位法定代表人一并签字，但应另附说明。 Ø进行语料安全评估时，将全部训练语料修改为全部语料。	²若通过不同的技术或措施达成了同样的安全效果，则应详细说明。 ²实践中，由于评估报告模版会更改，若评估的相关条款及结论不知应放于报告何处，则写进附件。 ²从实际工作来看，首先，单位法定代表人应对报告负责；其次，由于知识产权占据评估较大比重，故需法务方签字。 ²由于各地网信办审核标准有所不同，对于合格率可能存在高于文件标准的要求。
附录A	列举了语料及生成内容共5类31种的主要安全风险，包含违反社会主义核心价值观、歧视性、商业违法违规、侵犯他人合法权益及无法满足特定服务类型的安全需求等内容。	Ø包含违反社会主义核心价值观的内容中删除民族歧视（存在重复）。 Ø无法满足特定服务类型的安全需求中针对内容不可靠的描述新增无法对使用者形成帮助。	²/