算法基本概念
Q24. AIGC中的“算法”是什么?“生成式算法”“深度合成技术”等概念应如何理解和区分?算法合规应当参照哪些文件?
算法在技术上是指一系列解决问题的指令,代表着用系统的方法描述解决问题的策略机制。作为AI训练的“指挥棒”,算法在研发中有着与数据同等重要的地位,因此辨明其概念非常重要。《生成式人工智能服务管理暂行办法》、《互联网信息服务深度合成管理规定》和《互联网信息服务算法推荐管理规定》等法规均提到了算法的概念,并涉及“生成算法”“合成算法”等衍生概念,据此我们尝试对这些法规进行辨析,希望借此进一步明确算法及其衍生概念的明确涵义。
《生成式人工智能服务管理暂行办法》第22条将生成式人工智能定义为“具有文本、图片、音频、视频等内容生成能力的模型及相关技术”,除此之外本规定其他地方均未对技术相关概念做出更多界定,提到算法的条目也均是对算法设计或算法备案等作出的具体要求。可见,本规定将AIGC的核心定位在模型上,因此在本规定中,算法应当归属于“相关技术”,是为了得到具备良好效果的模型所采取的一种训练AI的策略和思路,需要与AIGC模型强相关。
《互联网信息服务深度合成管理规定》第23条将“深度合成技术”定义为“利用深度学习、虚拟现实等生成合成类算法制作文本、图像、音频、视频、虚拟场景等网络信息的技术”,其中提到了“生成合成类算法”这一概念。考虑到AI主要依照的即是深度学习技术,结合该条第(一)款至第(六)款的详细叙述,我们认为,除文本生成/编辑、问答对话、音视频生成/编辑、人脸生成/编辑等归属于AI的技术外,本规定管理的范围还包含虚拟现实等技术。因此,“生成合成类算法”中“算法”的含义相比《生成式人工智能服务管理暂行办法》更广,除包含AI训练算法外,还应包括任何能够自动制作内容、且不一定与AI有关的技术思路。此外,“生成合成类算法”中的“生成”与AIGC中的“生成”亦不能等同。具体而言,AIGC中的“生成”是从AI功能表现的描述,表达AI能够像自然生成一样自动创作出内容;而“生成合成类算法”中的“生成”或“合成”则是对具体技术细节的描述,表达AI是采用从数据中学习规律产生新数据还是直接用现有数据合成新数据。
《互联网信息服务算法推荐管理规定》第2条将“应用算法推荐技术”定义为“利用生成合成类、个性化推送类、排序精选类、检索过滤类、调度决策类等算法技术向用户提供信息”。考虑到本规定针对所有涉及信息服务的算法,因此这里的“算法”定义应当较前两个规定更广,只要能够向用户提供信息即可归属于本规定所管辖算法之范畴。而有关这里提到的“生成合成类”概念的理解,亦应参照《互联网信息服务深度合成管理规定》。
综上所述,不同规定对于“算法”这一概念的定义不同。我们认为,对AIGC中所称“算法”之理解应当参照《生成式人工智能服务管理暂行办法》,主要指AI训练算法,表现为一份或数份训练代码,能够指导AI应当如何对数据进行学习并建立自身参数结构。但我们也提示,《互联网信息服务深度合成管理规定》和《互联网信息服务算法推荐管理规定》对算法的定义更加广泛,《生成式人工智能服务管理暂行办法》本身也引用到了这两个规定,故AIGC的算法合规应当将以上所有规定考虑在内。
Q25. 算法具体是怎样指导AI模型进行训练的?常见主流算法有哪些?算法指导模型进行训练,实质上是通过为模型设置一定的基础神经网络结构,并指导其根据所输入数据的情况不同对该结构中的各个参数做出不同的更新调整。即,算法一般至少需要包括神经网络结构和参数更新方法两个部分。算法既可用于指导空白模型训练,亦可用于指导已经经过“预训练”(Pre-Trained)的模型继续训练,在大模型研发中后者往往更加常见。所谓“预训练”,即是预先训练一个具备广泛场景通用能力、可以以一定的效果完成多种任务的通用模型,再根据所需完成的特化任务,使用少量特化数据和算法对其进行微调,从而得到能够适用于特定场景的AI。目前业界存在着多种AIGC常用算法,大部分均可适用于多种任务,例如可用于图像生成和语音合成的变分自编码器(Variational Auto Encoder,VAE)、可用于文本和图像生成的生成对抗网络(Generative Adversarial Networks,GAN)、可用于从文本生成图像的扩散模型(Diffusion Model,该算法就是著名的开源模型Stable Diffusion的基础)(注:有必要指出,由于日常用语中“模型”和“结构”含义较为相近,故技术人员往往会将神经网络结构称为“某某模型”,但这与本白皮书所界定的AIGC中的“模型”是不同的,前者只是对后者内部结构的抽象和表征,因此读者应当意识到“扩散模型”指的是一种算法)等等。著名的ChatGPT则是基于Google的Transformer开发的。Q26. 算法涉及哪些安全风险?如何确保算法的技术安全性和内容安全性?技术安全风险是指算法自身可能存在的漏洞及因此产生的脆弱性。在AIGC中本部分可能包括:(1)保密性风险,即算法运行中涉及到的数据和参数可能被泄漏,造成模型核心机密泄露;(2)完整性风险,即算法本身的运行逻辑可能会被破坏或恶意篡改,使得模型无法正常训练;(3)稳健性风险,即算法指导下的模型面对攻击性输入或预料外的数据输入,可能会无法正常运转;(4)隐私性风险,即算法运行中使用到的敏感个人信息可能会被泄漏。内容安全风险则是指算法在指导模型生成的内容上可能出现的安全问题。在AIGC中本部分主要涉及:(1)违规风险,即生成的内容可能含违法违规、政治敏感、虚假、色情、暴力信息等;(2)伦理风险,即模型可能会生成存在偏见、歧视等违反公平原则甚至有悖伦理的内容,造成“算法歧视”“算法霸凌”;(3)知识产权风险,即模型生成内容可能包含涉及到他人合法知识产权的部分从而引起纠纷。提请注意,在确保算法安全性上,企业不仅应重视算法自身的技术风险,还应着眼于算法指导下模型生成内容的风险,后者相比于前者更加难以量化和确定,可能需要从更多角度进行测试。企业有必要建立与算法安全及其合规相配合的管理组织体系,将安全要求贯彻到市场调研、需求提出、开发、测试、上线运营和后续维护等每一个环节、落实到每一个人,从而保证算法真正公正透明,符合法律法规和伦理要求。Q27. 有哪些AIGC产品或服务需要进行算法备案?可能并非所有的AIGC服务都需要服务提供商进行备案登记。根据《互联网信息服务算法推荐管理规定》、《互联网信息服务深度合成管理规定》和《生成式人工智能服务管理暂行办法》,需要备案的AIGC产品应当满足以下两个条件之一:(1)面向我国境内公众提供服务;(2)具有舆论属性或社会动员能力。换而言之,如果AIGC产品面向境内非公众或境外公众,且不具备舆论属性、不具备社会动员能力,则可能不用进行算法备案。提请注意,上述标准中第(1)条较为明确,至于第(2)条的判断,可参考《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》第2条:“具有舆论属性或社会动员能力的互联网信息服务,包括下列情形:(一)开办论坛、博客、微博客、聊天室、通讯群组、公众账号、短视频、网络直播、信息分享、小程序等信息服务或者附设相应功能;(二)开办提供公众舆论表达渠道或者具有发动社会公众从事特定活动能力的其他互联网信息服务”。《互联网信息服务算法推荐管理规定》中要求的备案主体是具有舆论属性或者社会动员能力的算法推荐服务提供者。本规定中未直接定义“算法推荐服务提供者”,但结合本规定第2条算法推荐服务的定义,算法推荐服务提供者可以理解为利用算法推荐服务的算法技术向用户提供信息且具有舆论属性或社会动员能力的主体。《互联网信息服务深度合成管理规定》中要求的备案主体是具有舆论属性或者社会动员能力的深度合成服务提供者和深度合成服务技术支持者。其中,深度合成服务提供者,是指提供深度合成服务的组织、个人。深度合成服务技术支持者,是指为深度合成服务提供技术支持的组织、个人。《生成式人工智能服务管理暂行办法》中要求提供具有舆论属性或者社会动员能力的生成式人工智能服务的相关主体有备案义务。提请注意,对于同一产品或服务,如果同一家公司既是技术支持者,又是服务提供者,则需要分别备案。Q29. 算法备案的流程具体应当怎样进行?(网站、指引、大致的期限)备案主体可在“互联网信息服务算法备案系统”(https://beian.cac.gov.cn)中进行备案。根据《互联网信息服务算法推荐管理规定》第二十四条规定,算法备案过程中需要说明服务提供者的名称、服务形式、应用领域、算法类型、算法自评估报告、拟公示内容等信息。申请时限:备案手续需在提供服务之日起十个工作日内履行,具体备案步骤可参考《互联网信息服务算法备案系统使用手册》和《互联网信息服务深度合成管理规定》备案填报指南;变更备案信息,应当在变更之日起十个工作日内办理变更手续;终止服务的,应当在终止服务之日起二十个工作日内办理注销备案手续。深度合成算法备案填报包括三个板块:分别是填报主体信息、算法信息、关联产品及功能信息或填报技术服务方式。备案主体的区别是:“深度合成服务提供者”角色的填报人员需关联产品及功能信息;“深度合成服务技术支持者”角色的填报人员需填报技术服务方式。审查时限:若备案材料齐全,网信部门在收到材料后三十个工作日内予以备案,发放备案编号并进行公示;否则不予备案,并在三十个工作日内通知备案人。通过备案后,网信办将审核通过的备案信息发布在备案公示栏上。备案主体需要将其指定的算法备案号按要求放在APP、小程序、网站底部的醒目位置,并做好链接到备案中心查询系统。算法备案需要准备的主要材料主要有:公司基本信息相关材料、《算法备案承诺书》、《落实算法安全主体责任基本情况》、《算法安全自评估报告》和《拟公示内容》。具体来说,算法备案需要填报以下三个板块的内容:(1)主体信息填报。需要准备公司的基本信息和相关材料,并安排算法安全责任人,以及制定一套与算法安全相关的制度和组织,即《落实算法安全主体责任基本情况》(有模版),这是主体信息填报的重要材料。同时填写《算法备案承诺书》。《算法备案承诺书》和《落实算法安全主体责任基本情况》附件需打印并加盖公章后扫描上传。(2)产品及功能信息填报。主体信息填写完提交审核之后,才能进入这一板块,此处需完成三个步骤:一是添加产品信息,二是添加产品功能访问路径,三是添加路径下的功能信息。(3)算法信息填报。需要准备一份充分的算法描述。这包括算法的工作原理、应用场景、数据处理过程等。算法描述应详细清晰,能够让审核人员对算法信息有全面了解。算法信息填报分为四个步骤:一是填写算法基础属性信息,此处需填写备案算法的算法类型、应用领域。并按模板内容填写并上传《算法安全自评估报告》和《拟公示内容》;二是填写算法详细属性信息,此处需根据实际情况详细准确地填写算法简介、算法数据、算法模型、算法策略、算法风险与防范机制等信息。其中算法简介内容包括使用了哪些数据、算法作用对象、算法目的意图、算法结果的展示形式、算法应用的主要互联网产品,限制200字内;三是填写产品及功能信息,此步骤是将算法与产品信息、功能访问路径或特定功能进行关联,建立以功能为维度的最小备案单位;四是确认提交,算法备案填报人员在确认填报信息无误后,勾选“我承诺上述填报信息真实有效”并提交,完成算法备案申报。Q31. 算法备案需要几方人配合?法律人员能参与什么环节?算法备案所需准备的材料,对申请人的制度建设、服务介绍、算法描述、算法安全、风险防范方面提出了明确的要求,通常需要业务、技术、法务人员共同配合。具体而言,第三方机构可以协助算法备案中《落实算法安全主体责任基本情况》等材料的准备以及备案流程梳理,部分企业未建立算法发安全管理机构和制度,也没有算法评估的支撑团队,可以寻求法律和技术的第三方专业机构的协助开展工作。律师可以协助企业了解相关政策法规,确保对备案流程、所需资料和备案要求等方面有全面的准备。Q32. 怎么撰写《落实算法安全主体责任基本情况》?《落实算法安全主体责任基本情况》是检测企业对《互联网信息服务算法推荐管理规定》第7条之落实。该条规定算法推荐服务提供者应当落实算法安全主体责任,建立健全算法机制机理审核、科技伦理审查、用户注册、信息发布审核、数据安全和个人信息保护、反电信网络诈骗、安全评估监测、安全事件应急处置等管理制度和技术措施,制定并公开算法推荐服务相关规则,配备与算法推荐服务规模相适应的专业人员和技术支撑。“互联网信息服务算法备案系统”中有关《基本情况》的模版包括了算法安全的专职结构和管理制度建设,并对算法安全专职机构做出要求:应明确算法安全专职机构设置、职责分工、部门责任范围等。明确算法安全专职机构名称及其组织架构、算法安全专职机构负责人基本信息和主要工作职责、算法安全工作人员的任职要求、算法安全工作人员配备的规模、算法安全技术保障措施等。算法安全管理制度:这里共包括5个方面制度,包括算法安全自评估制度建设、算法安全检测制度建设(信息安全检测、数据安全检测、用户个人信息安全检测、算法安全检测)、算法安全事件应急处理制度建设、算法违法违规处置制度建设和科技伦理审查制度建设。算法安全自评报告是算法信息填报板块中需要重点准备的部分。里面需要描述算法的基本信息,包括算法介绍、算法模型、服务范围等等,还要评估算法带来的风险,包括算法滥用风险、漏洞风险、数据泄露风险、恶意利用风险等。在“互联网信息服务算法备案系统”中,提供了《互联网信息服务算法安全自评估报告(生成合成类)》的模板,可提供参考。根据该模板,算法评估的框架包括:对算法本身的情况进行描述:包括算法流程、算法数据、算法模型、干预策略、结果标识等;除了算法描述外,提供清晰的文档和示例也有助于备案审核通过。文档应该包括算法的使用说明和实际示例来展示算法的应用场景和效果,以便审核人员更好地理解。评估的重点是风险研判,风险主要包括:算法滥用、算法被恶意利用、算法漏洞、数据和用户信息泄漏等;风险防控情况:主要包括风险防范机制建设、用户权益保护、内容生态治理、模型安全保障、数据安全防护内容;需要确保用户信息安全,合规收集、使用、存储和传输用户数据。需要在备案前要对公司的数据安全和隐私政策进行自查,确保符合相关规定。基于以上信息,根据安全策略和安全风险的匹配程度,确定安全评估结论。往期内容:
1.
2.
还没有评论,来说两句吧...