揭秘大模型备案的必经之路 确保合规启航

大模型备案是指大模型产品在向公众开放及商用之前，必须经过国家互联网信息办公室（简称“网信办”）等监管部门的备案审批过程。这一流程旨在加强生成式人工智能服务的合规管理，确保大模型在开发、训练、部署及应用的全过程中，均遵循相关法律法规，特别是数据安全、隐私保护、内容安全等方面的要求，从而构建安全可信的AI生态。

自2023年7月10日我国出台了《生成式人工智能服务管理暂行办法》，为大模型的合规提供了明确的法律框架。截至目前，中国有188家国家级备案的大模型和26家地方登记的大模型。

大模型备案定义

【定义】生成式人工智能技术，是指具有文本、图片、音频、视频等内容生成能力的模型及相关技术。

【解读】生成式人工智能技术的逻辑为“理解-创作”，生成内容具有新颖性，并非对已有内容的拼接，换言之，其具有对已有数据进行演绎创新的能力。

【适用对象】依据《生成式人工智能服务管理暂行办法》第十七条和第二十二条的要求，提供具有舆论属性或者社会动员能力的生成式人工智能服务的企业都需要做算法备案和大模型备案。知道创宇建议以下类型企业尽快开展大模型备案工作：

1. 自研或深度定制模型企业

2. 以生成式AI为核心业务的企业

3. 企业体量庞大或模型服务应用规模广泛的企业

4. 享受地方补贴政策的企业

5. 地方网信办、工业和信息化局等相关部门通知或推荐的企业

大模型备案材料总体一览

《生成式人工智能（大语言模型）上线备案申请表》：详细填写大模型的基本情况、模型研制过程、服务内容、安全防范措施、安全评估结果及自愿承诺等信息。

2. 《附件1：安全自评估报告》：由专业机构或团队完成，全面评估大模型在语料处理、模型训练、服务提供等环节中的安全性，包括数据隐私保护、算法偏见识别与纠正、有害信息过滤机制、应急响应预案等。

3. 《附件2：模型服务协议》：明确服务范围、双方权利义务、数据使用与保护、违约责任等条款，保障用户权益。

4. 《附件3：语料标注规则》：详细介绍标注团队的资质、标注细则、标注流程等，确保语料来源合法、标注过程规范、标注结果准确。

5. 《附件4：关键词拦截列表》：覆盖政治、色情、暴力、谣言等多种安全风险，至少包含10000个关键词，并定期更新。【附】《基本要求》关于关键词库的具体要求：

6. 《附件5：评估测试题集》：用于检验大模型在生成内容时的安全性能，包括生成内容的正面示例、应拒答的负面内容以及非拒答测试题库，需严格按照《生成式人工智能服务安全基本要求》编制。【附】《基本要求》关于测试题库的具体要求：

【注】

1) 核心材料为《大模型上线备案申请表》、《附件1：安全自评估报告》及《附件5：评估测试题集》。

2) 多模态产品，即能够接收和处理多种形式信息（如文本、图像、音频等）的人工智能产品，需要按照支持模态分别提交《附件5：评估测试题集》。

3) 《生成式人工智能服务安全基本要求》规定的语料及生成内容的主要安全风险如下：

大模型备案流程

大模型备案流程涉及多个环节，包括向属地网信办报备、准备备案材料、企业内部评估、提交审核、中央网信办复审等。这些环节需要企业内部跨部门协作，包括技术团队、法务团队、数据团队等，共同确保材料的真实性和全面性。针对《附件1：安全自评估报告》、《附件3：语料标注规则》、《附件4：关键词拦截列表》、《附件5：评估测试题集》等专业性较强的备案材料，可以交由知道创宇这样专业的大模型安全服务厂商来协助提供。

凭借11年内容安全及AI实战经验，知道创宇自2021年起专注人工智能安全前沿技术，助力大模型厂商强化内容安全。从大模型备案出发，精准把握备案核心与细节要求，设计广泛场景及潜在风险的测试题集，确保模型全情境下的安全与稳定。安全自评估报告方面，专业团队遵循最新标准与法规，对企业大模型进行全面审视与改进建议。此外，还拥有高效准确的标注团队，为模型训练提供高质量数据。结合风险趋势与监管要求，制定全面动态的关键词拦截列表，有效过滤有害信息，确保模型合规与用户安全。

综上所述，与知道创宇这类专业的大模型安全服务提供商携手，将极大增强备案材料的专业度、精确度及合规性，为企业的大模型备案进程筑起稳固防线。在此契机下，知道创宇亦愿分享大模型备案过程中的关键安全要素，以助企业稳健前行。

语料来源安全的要求

‌《生成式人工智能服务管理暂行办法》（简称“暂行办法”）中第七条要求，生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动，使用具有合法来源的数据和基础模型，不得侵害他人依法享有的知识产权。这与确保数据来源合法的要求相呼应，《生成式人工智能服务安全基本要求》（简称“基本要求”）在此基础上，从语料来源管理、语料搭配、可追溯性方面提出了更细化的要求：

1) 语料来源的管理设定

强调使用合法来源的语料，并设定了语料内容质量的量化标准。若某来源的语料中违法不良信息占比超过5%，则不应被采集或使用。

2) 对语料内容提出安全要求

要求提升语料来源的多样性。对于不同语言和类型的语料，应综合采用多个来源，如在利用境外语料时，应合理融入境内语料，以确保语料的全面性和内容的客观、多样性。

3) 保证语料内容的可追溯性

服务提供者需具备合法的处理依据，如开源许可、授权文件、交易或合作协议等。对于自采语料，无论是自行生产还是网络采集，均需保留详细的采集记录。同时，应严格避免采集他人已明确拒绝的数据，如通过robots协议或其他技术手段限制采集的数据，以及个人拒绝授权的个人信息等。此外，根据我国网络安全相关法律法规及政策要求，被阻断的信息（包括但不限于违法信息、不良信息、敏感信息等，由于违反了法律法规或社会道德规范，被相关部门或机构依法进行了阻断处理），也不得作为语料使用。

2. 语料内容安全的要求

《暂行办法》的第四条与第七条均对训练数据的“合法性”提出了明确要求。为此，《基本要求》进一步指导服务提供者应该采取多样化手段，不局限于关键词过滤、分类模型应用及人工抽检等方式，以有效识别并剔除含有违法或不良信息的语料。同时，《基本要求》还从知识产权和个人信息保护两个维度，提出了更为详尽的合规要求：

1) 知识产权合规

《基本要求》着重强调了构建知识产权管理策略、识别潜在侵权风险、完善投诉与举报机制以及公开摘要信息等关键措施，旨在预防知识产权侵权风险。以（2024）粤0192民初113号案件为例，当用户输入“奥特曼”或“迪迦”等关键词时，被告运营的Tab网站中的AI绘画模块生成的图像与原告合法授权的IP形象高度相似，这反映出该模块的底层训练语料可能包含了受版权保护的作品。在生成图像的过程中，该模块未经授权地使用了这些版权作品，导致输出结果包含了原版权作品的特定元素或特征，从而侵犯了权利人的知识产权。因此，服务提供者在管理语料时，必须持以高度谨慎的态度，有效防控潜在的知识产权风险。

2) 个人信息保护

《基本要求》明确指出，服务提供者必须确保其对个人信息处理的行为具备合法性依据，即需获得个人信息主体的明确同意，或符合法律、行政法规所规定的其他合法情形。当涉及敏感个人信息的处理时，还必须取得个人信息主体的单独同意，以确保个人信息的安全与合规处理。

3. 语料标注安全的要求

《暂行办法》第八条明确指出，在生成式人工智能技术研发过程中实施数据标注时，提供者需制定清晰、具体且可操作的标注规则，并开展数据标注质量评估，通过抽样核验确保标注内容的准确性。同时，对标注人员进行必要培训，提升其法律意识和业务能力，监督并指导其规范完成标注工作。在此基础上，《基本要求》进一步细化了关于标注人员、标注规则及标注内容准确性的具体要求。

【图示】央视《经济半小时》特别报道知道创宇的人工智能训练师

1）标注人员的管理

安全培训：定期组织标注人员参加培训，内容涵盖标注任务规则、标注工具操作指南、标注内容质量核验方法以及数据安全管理要求等，确保标注人员具备全面的专业知识和技能。
考核机制：实施严格的考核机制，仅考核合格者方可上岗。同时，建立定期复训及考核机制，并在必要时暂停或取消标注人员的上岗资格。
职能划分：明确划分数据标注和数据审核两类职能，确保同一标注任务下的人员不兼任多项职能，保障工作效率和标注质量。

【图示】知道创宇人工智能训练师团队

2) 标注规则的制定

功能性标注规则：制定详细的标注规则，包括标注目标、数据格式、标注方法及质量指标等，指导标注人员根据特定领域特点标注真实、准确、客观且多样的语料。

安全性标注规则：制定安全性标注规则，指导标注人员围绕语料及生成内容的主要安全风险进行标注，确保标注内容符合法律法规和道德规范。

3) 标注内容的准确性

功能性标注抽检：对每批次标注语料进行人工抽检，确保标注内容准确。如发现内容不准确，应立即重新标注。若标注内容中包含违法或不良信息，则该批次标注语料应作废处理。
安全性标注审核：每一条标注语料均需经过至少一名审核人员的审核，确保标注内容符合安全性要求。

4. 模型安全要求

1) 保障模型生成内容的安全性

服务提供者应建立常态化的输入和输出内容的检测机制，对每次用户输入的信息实施严格的安全监测，引导模型生成积极正向的内容。对用户、测评中发现的安全问题，通过指令微调、强化学习等手段不断优化模型。

2) 提升模型生成内容的准确性

服务提供者应运用先进技术，确保生成内容的时效性和精确度。例如，在回答法律咨询时，大模型生成的回答应准确引用现行有效的法律法规，避免引用过时失效的规定。此外，服务提供者还需不断优化和校正模型，以减少生成内容中的不准确或虚构情况。

3) 增强模型生成内容的可靠性

服务提供者需采取技术措施提升生成内容格式框架的合理性，并增加有效信息的含量，增强生成内容对用户的实用性。

5. 常态化监督管理

根据《暂行办法》第十条和第十四条，生成式人工智能服务提供者有义务指导使用者科学理性认识和依法使用生成式人工智能技术，并对使用者的行为进行监督。为了有效执行这些监督职责，《基本要求》提出了以下三项具体措施：

1) 实施监测机制

利用关键词过滤技术和分类模型等手段，对用户提交的信息内容进行即时监控，旨在迅速识别并应对任何不当行为。

2) 拒绝回答机制

针对识别出的包含极端或诱导违法不良信息的问题，服务系统应采取自动拒绝回答，防止潜在有害内容的传播。

3) 人工监看机制

搭建专业的审核团队，通过人工监控的方式，不断提升生成内容的质量与安全性，并负责接收并处理来自第三方的投诉与反馈。

知道创宇提供完备的大模型内生安全解决方案，涵盖训练数据标注生产、内生安全样本服务、内生安全评测及内生安全检测四大关键服务。贯穿模型训练、部署、上线至持续运营的整个生命周期，通过前置预防、中央控制、严格评测及实时监测等多维度策略，精准捕捉并消除模型中的潜在内容风险，有效遏制因内容不合规可能给厂商带来的重大负面影响与经济损失。

知道创宇在探索大模型备案的过程中发现，其实每一步都蕴含着对合规性与创新性的双重考量。确保大模型在合法合规的轨道上启航，不仅是对技术本身的尊重，更是对社会责任的践行。通过精心构建的底线机制、内容安全、标注团队、AI算法等机制，知道创宇在协助大模型厂商构建坚实的防线，为人工智能技术的稳健发展奠定基础。展望未来，知道创宇将继续紧跟技术潮流与法规变化，不断优化备案流程，以更加专业的态度和更加创新的方法，引领人工智能行业迈向更加智能、安全、可信的未来。