原文作者:
Phillip Lee, AIGP, CIPP/E, CIPM, FIPUzma Chaudhry,AI Governance Center FellowAI Governance Center Fellow @IAPP引言
区分人工智能模型和人工智能系统
通用AI模型的定义
《人工智能法案》下通用AI模型的类型
识别存在系统性风险的通用AI模型
所有通用AI模型提供者的义务
存在系统性风险的通用AI模型提供者的义务
通用人工智能的实用合规步骤
附表
回顾2021年4月欧洲委员会发布的欧盟《人工智能法案》草案,我们会发现其中并未提及通用人工智能(General-purpose AI,简称GPAI)。这一点现在看来似乎有些意外。然而,在人工智能专家圈子以外,当时很少有人听说过通用GPAI。
时间快进到一年多一点之后,OpenAI于2022年11月向毫无预期的公众发布了ChatGPT,它以类似人类(尽管有时不可靠)的方式回应提示词而迅速走红。据报道,在短短两个月内就达到了1亿用户,成为有史以来用户数增长最快的面向C端的应用程序。由此,大语言模型(LLM)、生成式人工智能(Gen-AI)和通用人工智能(GPAI)等的术语开始进入,如果不能完全说是公众视野的话,欧洲立法者的视野。显然,《人工智能法案》需要规范GPAI,但如何开展呢?这不是一个容易回答的问题。该提案通过将AI系统分为被禁止、高风险和低风险的类别来决定适用哪些规则。然而,由于GPAI的本质,它可以被应用于广泛的、甚至难以预见的场景和用例,覆盖了整个风险谱系。任何特定场景中出现的风险必然取决于其应用的情境,而这使得将GPAI归入单一风险类别的进路变得不可能。因此,欧洲的立法者最终提出了《人工智能法案》的一个全新章节,既第五章,专门用于规范通用人工智能模型(以下简称通用AI模型)。正如本系列文章的所指出的,AI模型和AI系统之间的区别至关重要。这是因为,第五章针对通用AI模型使用的规则做出了规定。即便《人工智能法案》也使用“基于通用AI模型的系统”为通用人工智能系统作出了定义。这个术语只是涵盖更为广泛的人工智能系统概念的一个子集,第五章的规则不适用于通用AI系统。此外,通过为通用人工智能模型设定规则,第五章采取了与《人工智能法案》通篇采取的监管方法不同的进路,后者规范的是人工智能系统,而通用人工智能系统只是其中的一种类型。适用于AI系统的规则,包括任何通用AI系统,都将取决于它们算被禁止的、高风险还是低风险类型。这种区分并非偶然。根据法案序言第97条,“通用AI模型的概念应该被明确定义,并与AI系统的概念区分开来,以实现法律的确定性。”《人工智能法案》第3条第(63)款将通用AI模型定义为“一种人工智能模型,包括使用大量数据,以大规模自监督学习方式训练的人工智能模型,其显示出显著的通用性;而不管该模型以何种方式投放市场,都能够胜任广泛而不同的任务,并且可以被集成到各种下游系统或应用程序中。”因此,要充分理解这个定义,首先需要理解什么是AI模型,以及它与AI系统有何不同。《人工智能法案》没有定义AI模型的概念。但我们可以求助于产业界——IBM给出的解释是:“AI模型是一种基于一组数据训练过的程序,用于识别某些模式或做出某些决策,而无需进一步的人为干预。”《人工智能法案》序言第97条指出:“AI模型是AI系统的基本组成部分”,但“它们本身并不构成AI系统。”这是因为“AI模型需要添加其他组件,例如用户界面,才能成为AI系统。AI模型通常被集成到AI系统中,并形成AI系统的一部分。”因此,可以将AI模型视为驱动AI系统智能的程序,但它不能被独立使用。相应地,AI模型必须首先与其他软件和/或硬件组件集成,以便用户有办法通过用户界面,例如使用对话框提交提示词(prompts),访问和与AI模型交互。集成在一起的,并使用户能够与一个或多个AI模型交互的硬件和软件组件的集合构成了AI系统。举一个高度抽象的例子——自动驾驶汽车可以被视为一个集成了多个AI模型,能够实现操纵车辆、管理燃料消耗、自主刹车等等功能的AI系统。总的来说,《人工智能法案》适用于AI系统,而非AI模型。而如上所述,通用AI模型:是一个AI模型,而不是AI系统,尽管它可以集成到AI系统中。
使用大量数据进行自监督训练。例如,据报道,ChatGPT 3经过了至少570GB的数据,或大约3000亿个单词的训练。
显示出显著的通用性,并能够胜任执行广泛的不同任务。
然而,《人工智能法案》只规范投放在欧盟市场的AI模型。“在投放市场之前用于研究、开发或原型活动的人工智能模型”被排除在第3条第(63)款规定的通用AI模型定义之外,也被排除在第2条第(8)款规定的法案范围之外。第五章区对通用AI模型,根据有无系统性风险作出了区分。这体现了具有系统性风险的通用AI,因其导致重大伤害影响的可能性,需要受到严格监管。为此,根据《人工智能法案》第3条第(65)款,将系统性风险定义为“特定于通用AI模型的高影响力能力,由于其(广泛深入的使用)范围对欧盟市场产生重大影响,或者由于其对公共健康、安全、公共安全、基本权利或整个社会产生实际或合理可预见的负面影响,并且可以在整个价值链中大规模传播的风险。”乍一看,这个定义似乎是循环的——有系统性风险的通用AI模型是呈现风险的模型,这些风险将产生显著影响,并且“特定于通用AI模型的高影响能力。”然而,定义暗示了《人工智能法案》的立法者们对通用人工智能GPAI可能导致的忧虑的分类,即“对公共健康、安全、公共安全、基本权利,或影响整个社会,及可以大规模传播。”至于这些“负面效果……大规模传播”可能包括的内容,序言第110条列出了“重大事故、关键部门的中断和对公共健康和安全的严重影响;对民主程序、公共安全和经济安全的任何实际或合理可预见的负面影响;以及,非法的、虚假的或歧视性内容的传播。”序言文本继续阐明,这些负面影响可能导致“化学、生物、放射性和核风险……网络攻击能力……控制物理(世界中的)系统和干扰关键基础设施的能力;模型复制自身、或‘自我复制’,或训练其他模型的风险……有害的偏见和歧视……助长虚假信息或损害隐私,威胁民主价值观和人权。”就《人工智能法案》的立法目的而言,有两种方式认定通用AI模型存在系统性风险。首先,根据第51条第1款和第二款,通用AI模型必须通过“适当的技术工具和方法,包括指标和基准”进行评估后,具有“高影响能力”。为此,如果用于训练的计算总量超过10的25次方浮点运算,则假定通用AI模型具有高影响能力。以人类来做比较,根据一些估计,人脑的计算能力大约在每秒10的16次方到10的17次方浮点运算之间。然而,由于各种各样的原因,这只是一个粗略和不精确的比较。特别是,尽管大脑比计算机慢得多,但它能够在低得多的能量消耗水平下进行更多的并行处理。尽管如此,它确实为不是工程师的普通人提供了一种简单的方法来形象地想象《人工智能法案》所关注的算力类型。其次,欧盟委员会可以判定通用AI模型具有高影响力的能力。European Commission可以自身作出结论,也可以根据法案第51条第(1)款第(b)项、第68条和第90条创建的独立科学专家小组发出的适格警报作出结论。在作出这种决定时,委员会必须考虑到附录XIII所列的某些准则。委员会必须根据第52条第(6)款的要求,公布具有系统风险的通用AI模型清单,并可以通过受权立法来修改和补充第51条第3款所规定的,确定高影响能力的阈值、基准和指标,以跟上不断演进的技术发展。无论是否存在系统性风险,通用AI模型提供者都必须遵守《人工智能法案》第53条和第54条规定的义务。这主要涉及技术文件要求、向集成通用AI模型的AI系统提供者提供保障的信息、遵守欧盟版权规则,以及非欧盟模型提供商指定欧盟代表的要求。无系统性风险的通用AI模型提供者的义务比存在系统性风险的提供者少。因此,无系统性风险的通用AI模型提供商只需要遵守第53条和第54条,而系统性风险的模型提供者根据第55条有额外的合规责任。无论是否存在系统性风险,适用于所有通用AI模型提供商的义务包括:准备并维护通用AI模型的技术文档,涵盖模型的训练、测试过程和评估结果,并包含附件XI所列的强制性信息。见下文附表。欧盟委员会AI办公室和成员国监管机关可以要求通用AI模型提供商根据要求提供此文件。另见第91条第1款。
向集成通用AI模型的AI系统提供商提供某些信息和文档,以便他们能够很好地了解模型的功能和局限性,并能够遵守《人工智能法案》为他们所规定的义务。这必须包括附录XII所列明的强制性信息,如文末表中所示。
制定符合欧盟版权和相关权利规则的政策。这应包括通过使用当前最好技术确定和遵守权利所有人所表达的任何权利保留。
使用AI办公室提供的模板,准备并公开通用AI模型训练内容的详细摘要,(该模板在本文发布之日尚未提供)。这一项要求引起了通用AI模型提供商的不满,他们担心这可能会迫使他们披露有关其用于训练的内容的商业机密。
除非开源AI模型存在系统性风险,上面提到的前两点不适用于其提供者。开源AI模型可以被无限制地使用和改装,只要关于模型的参数——包括权重、模型架构和模型调用的信息是公开可查的。此外,与欧盟《通用数据保护条例》GDPR类似,非欧盟通用AI模型提供者必须根据第54条第1款在欧盟另外指定一名受权代表。该任命必须通过书面形式作出,并要求受权代表:核实通用AI模型提供者已准备好所需的技术文档,并履行了如上文所述的第53条规定的义务,以及如果它提供了具有系统性风险的通用AI模型,那么参见下文,第55条下的义务。
在模型投放市场后的10年内,保留对通用AI模型提供者要求的技术文档的副本,以便除联系方式外,还可向欧盟委员会AI办公室和成员国主管部门提供。
应要求向AI办公室提供必要的合规信息和文档,以证明通用AI模型提供者的合规性。
应要求与配合AI办公室和主管机关开展的与通用AI模型相关的任何行动,这也包括当通用AI模型被集成到投放欧盟的AI系统中的情形。
同样的,这个要求通常不适用于开源通用模型的提供者,除非这些模型具有系统性风险。如前所述,存在系统性风险的通用AI模型提供者须根据《人工智能法案》第55条承担额外义务。除了上述规则外,还必须遵守以下要求:根据反映当前最好技术的标准化规程和工具进行模型评估,包括进行并记录对模型开展的对抗性测试,以识别和减轻上述的系统性风险。
在欧盟层面评估和减轻可能的系统性风险,包括其来源,这些风险可能源于具有系统性风险的通用AI模型的开发、销售或使用。
跟踪、记录和报告严重事件的相关信息,包括可能的纠正措施,并及时向欧盟AI办公室和在适用时,向成员国主管机关报告。
确保具有系统性风险的通用AI模型和模型的物理基础设施具备足够的网络安全保护水平。
关于报告严重事件的文件和相关资料的要求,一个关键问题是如何在实践中得以实施,进一步的指引将受到相关方的期待。然而,很明显的是,这一要求与第26条第5款和第73条规定的高风险人工智能系统提供者和部署者报告严重事件的要求不同。为了证明其合规性,在欧盟采用通用AI的协调标准之前,根据第40条,通用AI模型的提供者,无论是否存在系统性风险,都可以遵守人工智能行为准则,这些准则将在《人工智能法案》生效后9个月内由欧盟人工智能办公室起草并最终确定。制定的过程也包括人工智能办公室根据法案第56条向AI委员会和成员国监管机关以及产业界、学界和民间社会利益相关方征求意见。《人工智能法案》针对通用AI模型提供者的规则根据第111条3款和第113条分两个阶段生效。在2025年8月2日之前投放欧盟市场的旧GPAI模型的提供者,从该法案生效之日起,有最长三年的时间来遵守要求,即截止到2027年8月2日。然而,新通用模型的提供者,即所有其他通用AI模型提供者,在法案最长有12个月的时间来遵守法案,即截至2025年8月2日。任何使用通用人工智能(GPAI)的组织都应自问以下的问题,并据此采取相应的合规措施:
所涉及的GPAI是适用第五章的通用AI模型,还是须被分类为法案禁止的、高风险或低风险的通用AI系统,以确定法案的哪些规则是适用的。
组织是否是通用AI模型的提供者?法案第五章仅适用于通用AI模型的提供者。
通用AI模型是否存在系统性风险?如果没有,它将只受第53条和第54条规定的约束。如果存在,将受第55条补充规则的约束。
AI办公室是否已经根据第56条制定了任何适用的行为准则? 如果是,应作为证明遵守《人工智能法案》的一种手段考虑遵照实施。
通用AI模型提供者是否设立在欧盟以外? 如果是,它必须根据第54条在欧盟任命一名受权代表。
按照第111条第3款和第113条划定的时间线,组织是在提供老的还是新的通用AI模型? 这将决定《人工智能法案》的规则何时适用,以及在哪个时间节点前需要合规。
点击链接访问官网页面,可用于申报CPE。
https://iapp.org/resources/article/top-impacts-eu-ai-act-obligations-general-purpose-ai-models/
还没有评论,来说两句吧...