导读:
EDPS是负责确保欧盟机构隐私保护良好实践的独立监管机构。之前就有过:。
因此看到发布机构也就明白了,这个文件是管欧盟政府机构合规使用生成式AI的,他们在使用生成式AI时的相关数据处理活动需要满足EUDPR的各项要求(EUDPR姑且理解为政府版GDPR)。
以下内容为kimi翻译,我只顺手调整了一些比较别扭的地方,不求准确,但可以看个囫囵。
新闻稿:
EDPS今天发布了关于生成式AI和个人数据保护的指南,供欧盟机构、机构、办公室和机构(EUIs)使用。该指南旨在帮助EUIs在使用或开发生成式AI工具时遵守EUDPR规定的数据保护义务。
EDPS的Wojciech Wiewiórowski表示:“我今天发布的关于生成式AI的指南是朝着更广泛的建议迈出的第一步,以应对不断演变的生成式AI工具格局,我和我的团队将继续密切监控和分析这些工具。我们今天发布的建议旨在涵盖尽可能多的使用生成式AI的场景,为EUIs提供持久的建议,以便他们能够保护个人的个人信息和隐私。”
为确保EUIs的实际应用,该指南强调了数据保护的核心原则,并结合具体示例,作为预测生成式AI系统和工具的风险、挑战和机遇的辅助。
因此,指南重点关注了一系列重要主题,包括如何建议EUIs区分使用这些工具是否涉及处理个人数据;何时进行数据保护影响评估;以及其他基本建议。
EDPS作为EUIs的独立数据保护机构发布这些指南,以便它们遵守适用于它们的欧盟数据保护法律,特别是EUDPR。EDPS发布这些指南并不是作为欧盟机构根据欧盟人工智能法案的AI监管机构的角色,后者正在单独准备一项战略。
封面:
生成式AI和EUDPR。EDPS关于使用生成式AI系统时确保数据保护合规性的首次指导方针。
2024年6月3日
这些关于生成式人工智能(生成式AI)和个人数据保护的EDPS指导方针旨在为EUIs在使用生成式AI系统处理个人数据时提供实用的建议和指导,以促进它们遵守特别是EUDPR规定的数据保护义务。
这些指导方针已经起草,以涵盖尽可能多的情景和应用,并且不规定具体的技术措施。相反,它们强调了应帮助EUIs遵守EUDPR规定的数据保护要求的一般数据保护原则。
这些指导方针是向更详细指导迈出的第一步,将考虑生成式AI系统和技术的演变、EUIs的使用情况,以及EDPS的监控和监督活动的结果。
EDPS以数据保护监督机构的身份发布这些指导方针,而不是根据AI法案作为AI监督机构的新角色。
这些指导方针不影响AI法案适用。
00
简介及适用范围
2. EDPS以数据保护监督机构的身份发布这些指导方针,而不是根据AI法案作为AI监督机构的新角色。
3. 这些指导方针并不旨在详尽无遗地涵盖与使用生成式AI系统处理个人数据相关的所有相关问题,这些问题还需数据保护当局分析。其中一些问题仍未解决,随着这些系统的使用增加和技术以更好地理解生成式AI的工作原理的方式发展,可能会出现额外的问题。
4. 由于AI技术发展迅速,提供这些类型服务使用的具体工具和手段是多样化的,它们可能会非常快速地发生变化。因此,这些指导方针已经起草,以涵盖尽可能多的情景和应用。
5. 这些指导方针的结构如下:关键问题,随后是初步回应以及一些初步结论,以及进一步的澄清或示例。
6. 这些初步指导方针是朝着制定更全面指导方针迈出的初步步骤。随着时间的推移,这些指导方针将被更新、完善和扩展,以解决支持EUIs在这些系统的开发和实施中需要的进一步要素。此类更新应在本文件发布后的十二个月内进行。
01
什么是生成式AI?
基础模型作为核心架构或基础,其他更专业的模型将在此基础上构建。这些模型是基于多样化和广泛的数据集进行训练的,包括包含公开可用信息的数据集。它们可以表示复杂的结构,如图像、音频、视频或语言,并且可以针对特定任务或应用进行微调。
大型语言模型是一种特定类型的基础模型,它们在大量文本数据(从数百万到数十亿个单词)上进行训练,能够根据单词和短语之间的模式和关系,对广泛的输入生成自然语言响应。用于训练模型的大量文本可能来自互联网、书籍和其他可用来源。一些已经在使用的应用包括代码生成系统、虚拟助手、内容创作工具、语言翻译引擎、自动语音识别、医疗诊断系统、科学研究工具等。
这些概念之间的关系是层次性的。生成式AI是包含设计用于创建内容的模型的广泛类别。基础模型,如大型语言模型,作为构建更专业模型的基础架构。在基础模型之上构建的专门模型,针对特定任务或应用,使用基础架构的知识和能力。
生成式AI模型的生命周期涵盖了不同的阶段,从定义模型的使用案例和范围开始。在某些情况下,可能可以确定一个合适的基础模型作为起点,在其他情况下可能需要从头开始构建一个新模型。下一个阶段涉及使用相关数据集对模型进行训练,以实现未来系统的目的,包括使用特定、定制的数据集对系统进行微调,以满足模型的使用案例。为了完成训练,使用需要人类代理的特定技术来确保更准确的信息和控制行为。接下来的阶段旨在评估模型并建立指标,定期评估诸如准确性以及模型与使用案例的一致性等因素。最后,模型被部署和实施,包括持续监控和使用前一阶段建立的指标进行定期评估。
生成式AI中的相关用例是一般面向消费者的应用(如ChatGPT和类似的系统,这些系统已经可以在不同版本和大小中找到,包括可以在移动电话上执行的那些[1])。还有特定领域的商业应用,预训练模型,基于预训练模型的应用,这些模型被调整用于特定领域的特定用途,最后,模型的全部开发,包括训练过程,由负责实体执行。
02
EUIs是否可以使用生成式AI?
无论如何,如果使用生成式AI系统涉及处理个人数据,那么该条例将完全适用。该条例在技术上是中立的,适用于所有个人数据处理活动,无论使用的技术如何,且不影响其他法律框架,特别是人工智能法案。问责原则要求在参与生成式AI模型供应链的各种参与者之间明确并尊重责任。
EUIs可以开发和部署自己的生成式AI解决方案,或者也可以选择部署市场上现有的解决方案供自己使用。在这两种情况下,EUIs可能会使用提供商来获取生成式AI系统的所有或某些要素。在这种情况下,EUIs必须明确确定特定处理操作的角色——控制者、处理者、联合控制——及其在条例下的义务和责任的含义。
随着人工智能技术的快速发展,EUIs必须仔细考虑何时以及如何负责任和有益地使用生成式AI,以造福公共利益。生成式AI解决方案的生命周期的所有阶段都应按照适用的法律框架运作,包括当系统涉及处理个人数据时的条例。
→ 可信赖或负责任的AI这些术语指的是需要确保AI系统以伦理和合法的方式被开发。它涉及考虑使用AI技术可能带来的意外后果,以及需要遵循一个基于风险的方法,覆盖系统的整个生命周期的所有阶段。它还意味着要透明地使用训练数据及其来源,算法的设计和实施方式,系统中可能存在哪些偏见,以及如何处理对个人基本权利和自由的可能影响。在这种情况下,生成式AI系统必须是透明的、可解释的、一致的、可审计的和可访问的,以确保个人数据的公平处理。
03
如何确定使用生成式AI
涉及个人数据处理?
在生成式AI系统的生命周期的各个阶段和层面上,个人数据处理可能会发生,而且一开始并不总是显而易见的。这包括在创建训练数据集时、在训练阶段本身、在模型创建并使用后推断新的或额外的信息时,或者简单地通过系统运行时的输入和输出。
当一个生成式AI系统的开发者或提供者声称他们的系统不处理个人数据时(例如,声称在设计、开发和测试期间使用了匿名数据集或合成数据),关键是要询问已经实施了哪些具体控制措施来保证这一点。从根本上说,欧盟机构可能想要知道提供者使用哪些步骤或程序来确保模型没有处理个人数据。
EDPS已经警告过使用网络抓取技术收集个人数据的做法,通过这种方式,当个人数据在个人不知情、违背期望的情况下被收集,并且用于与原始收集目的不同的目的时,个人可能会失去对其个人信息的控制。EDPS还强调,公开可用的个人数据的处理仍然受欧盟数据保护法规的约束。在这方面,使用网络抓取技术从网站收集数据及其用于训练目的可能不符合相关的数据保护原则,包括数据最小化和准确性原则,因为并没有对来源的可靠性进行评估。
→ 欧盟机构X(EUI-X),一个虚构的欧盟机构,正在考虑采购一个自动语音识别和转录的产品。在研究了可用选项后,它专注于使用生成式AI系统来促进这一功能的可能性。在这个特定案例中,它是一个提供预先训练好的语音识别和翻译模型的系统。由于这个模型将被用于使用录制的语音文件进行会议转录,已经确定使用这个模型需要处理个人数据,因此它必须确保符合条例的规定。
04
DPO在开发、部署生成式
AI时扮演何种角色?
EUDPR第45条确立了DPO的任务。DPO负责提供有关数据保护义务的信息和建议,协助控制者监控内部合规性,在要求时就DPIA提供建议,并作为数据主体和EDPS的联系点。
EUIs实施处理个人数据的生成式AI系统的背景下,重要的是要确保DPO在他们的角色内,独立地就条例的应用提供建议和协助,对EUI考虑采购、设计或实施的生成式AI系统的生命周期及其工作原理有适当的理解。这意味着,获取关于这些系统何时以及如何处理个人数据的信息,以及输入和输出机制的运作方式,以及通过模型实施的决策过程。正如条例所指出的,重要的是在进行数据保护影响评估时向控制者提供建议。控制者必须确保所有流程都得到适当的记录,并保证透明度,包括更新处理记录,并作为最佳实践,对生成式AI驱动的系统和应用程序进行特定清单的编制。最后,DPO应参与审查与模型提供商签署的数据共享协议的合规性问题。
从组织角度来看,符合条例的生成式AI系统的实施不应是一个人的努力。应该在产品生命周期中涉及的所有利益相关者之间进行持续的对话。因此,控制者应与组织内所有相关职能部门联络,特别是DPO、法务服务、IT服务和本地信息安全官(LISO),以确保EUI在值得信赖的生成式AI、良好的数据治理和符合条例的参数内运作。创建一个包括DPO在内的AI特别工作组,并制定一个行动计划,包括在组织的所有层级进行意识提升行动和准备内部指导,可能有助于实现这些目标。
→ 作为合同条款的一个例子,欧盟委员会通过“采购AI社区”倡议,汇集了采购AI解决方案的相关利益相关者,为公共组织采购人工智能开发广泛的模型合同条款。同样,考虑到控制者和处理者之间根据EUDPR 39(2)的标准合同条款也很重要。
05
EUI想要开发或使用
生成式AI系统,何时
应进行DPIA?
条例要求在任何可能涉及对个人基本权利和自由构成高风险的处理操作之前进行DPIA。条例强调了进行此类评估的重要性,尤其是在使用新技术或对新技术进行处理,例如生成式AI系统,之前尚未由控制者进行过评估的情况下[2]。
在进行DPIA时,控制者有义务征求DPO的意见。由于评估,必须采取适当的技术和组织措施来缓解已识别的风险,考虑到责任、背景和可用的最新技术措施。
在生成式AI的使用背景下,可能适当征求受系统影响者的意见,无论是数据主体本人还是数据处理领域的代表。除了评估DPIA是否正确实施的审查外,还需要定期进行风险评估的监控和审查,因为模型的运作可能加剧已识别的风险或产生新的风险。这些风险与个人数据处理保护有关,但也与其他基本权利和自由有关。
所有参与DPIA的行为者必须确保所有决策和行动都得到适当记录,涵盖整个生成式AI系统的生命周期,包括采取的管理风险的行动和随后要进行的审查。
→ EDPS已经建立了一个模板,允许控制者评估是否需要进行DPIA[责任工具包第一部分附录六]。此外,EDPS已经建立了一个需要进行DPIA的处理操作的开放列表。如有必要,控制者应进行审查,以评估数据处理是否按照数据保护影响评估进行,至少在处理操作所代表的风险发生变化时。如果在进行DPIA后,控制者不确定风险是否得到适当缓解,他们应与EDPS进行事先咨询。
06
在设计、开发和验证
生成式AI系统期间,
个人数据处理何时合法?
EUIs处理任何个人数据都是合法的,如果至少适用条例中列出的一个合法性基础。此外,要使特殊类别的个人数据处理合法,必须适用条例中列出的一个例外。当处理是为了执行公共利益的任务或遵守控制者受到的法律义务所必需时,处理的法律基础必须在欧盟法律中明确规定。此外,所指的欧盟法律应该是清晰和精确的,其应用应该是可预见的,以符合欧盟基本权利宪章和欧洲人权和基本自由保护公约的要求。
如果法律基础引起对数据保护和隐私权基本权利的严重干扰,则需要更清晰和精确的规则来管理措施的范围和应用,以及相应的保障措施。因此,干扰越大,规则和保障措施就应该越健壮和详细。当依赖内部规则时,这些内部规则应精确定义对个人数据保护权的干扰范围,通过识别处理的目的、数据主体的类别、将被处理的个人数据类别、控制者和处理者以及存储期限,并附上对个人权利保护的具体最小保障措施和措施的描述。
在某些情况下,同意可以作为使用生成式AI系统的合法基础。根据条例获得同意,并且为了使该同意有效,需要满足所有法律要求,包括需要个人明确的肯定行动,自由给予、具体、知情和明确。鉴于生成式AI系统的培训方式和培训数据的来源,包括公开可用的信息,必须仔细考虑同意的使用,也在EUIs等公共机构的使用背景下。此外,如果撤回同意,则所有基于该同意并在撤回前根据条例进行的数据处理操作仍然合法。然而,在这种情况下,控制者必须停止有关处理操作。如果没有其他合法基础证明数据处理的合法性,则控制者必须删除相关数据。
生成式AI模型的服务提供商可能使用欧盟通用数据保护条例下的合法利益作为数据处理的合法基础,特别是关于用于开发系统的数据处理,包括培训和验证过程。欧洲联盟法院已经认定,使用合法利益规定了三个累积条件,以便该法律基础上涵盖的个人数据处理是合法的。首先,数据控制者或第三方追求合法利益;其次,需要处理个人数据以实现追求的合法利益;第三,与数据保护有关的人的利益或基本自由和权利不会优先于控制者或第三方的合法利益。在生成式AI系统进行数据处理的情况下,许多情况可以影响固有条款中的平衡过程,导致数据主体的不可预测性以及控制者的法律不确定性。在这方面,EUIs有特定责任验证生成式AI系统的提供商是否符合这一法律基础的适用条件,考虑到这些系统进行的处理的具体条件。
作为个人数据控制者的EUIs,负责他们启动的个人数据传输,以及代表他们在欧洲经济区内外进行的传输。这些传输只有在有关EUI指示或允许的情况下才能发生,或者根据欧盟法律或成员国法律的要求。传输可以在生成式AI系统的开发或使用的背景下的不同级别进行,包括当EUIs使用基于云服务的系统时,或者在某些情况下,当他们必须提供个人数据用于培训、测试或验证模型时。在任何情况下,这些数据传输必须遵守条例第五章的规定,同时也要遵守条例的其他规定,并与数据处理的原始目的一致。
在生成式AI系统的背景下进行个人数据处理需要符合条例的法律基础。如果数据处理基于法律义务或行使公共权力,那么法律基础必须在欧盟法律中明确和精确地规定。将同意作为合法基础需要仔细考虑,以确保它满足条例的要求,才能有效。
→例如,关于生成式人工智能系统的决议指出,在相关立法要求下,生成式AI系统的开发者、提供商和部署者必须从一开始就确定处理与以下方面相关的个人数据的法律基础:a) 用于开发生成式AI系统的数据处理;b) 用于开发或改进生成式AI系统的培训、验证和测试数据集;c) 个人与生成式AI系统的交互;d) 生成式AI系统生成的内容。
07
使用生成式AI时,
如何确保数据最小化原则?
使用大量数据来训练生成式AI系统并不一定意味着更大的有效性或更好的结果。精心设计结构良好的数据集,用于优先考虑质量而非数量的系统,遵循适当的监督培训过程,并接受定期监控,对于实现预期结果至关重要,不仅在数据最小化方面,而且在输出质量和数据安全方面也是如此。
→ 欧盟机构X打算培训一个AI系统,以协助与软件开发和编程相关的任务。为此,他们希望使用一个内容生成工具,该工具将通过各个IT员工的账户提供。在培训算法之前,欧盟机构X需要深思熟虑,确保他们不会处理对预期目的无用的个人数据。例如,他们可能会进行统计分析,以证明实现结果所需的最小数据量。此外,他们还需要检查并证明他们是否会处理特殊类别的个人数据。此外,他们还需要检查数据的类型(即合成、匿名或伪名化)。最后,他们需要验证所使用的数据来源的所有相关技术和法律要素,包括其合法性、透明度和准确性。
08
生成式AI系统是否遵守
数据准确性原则?
生成式AI系统在其生命周期的所有阶段,尤其是在训练阶段,可能会使用大量的信息,包括个人数据。
数据准确性原则要求数据必须是准确和最新的,而数据控制者必须更新或删除不准确的数据。数据控制者必须确保在生成式AI系统的开发和使用的所有阶段中数据的准确性。实际上,他们必须实施必要的措施,以整合从设计上就考虑数据保护的措施,这将有助于在所有阶段提高数据的准确性。
这意味着要验证用于训练模型的数据集的结构和内容,包括那些来自第三方的数据集。同样重要的是要控制输出数据,包括模型所做的推断,这需要定期监控这些信息,包括人类的监督。开发者在训练期间应该使用验证集,并为最终评估使用独立的测试集,以获得系统性能的估计。尽管通常不是面向数据保护的,但统计准确性的度量(模型基于它们所训练的数据产生正确输出或预测的能力)在可用时,可以为模型使用的数据的准确性以及预期的性能提供指标。
当欧盟机构使用第三方提供的生成式AI系统或训练、测试或验证数据集时,必须获得有关程序的合同保证和文档,以确保用于系统开发的数据的准确性。这包括数据收集程序、准备程序,如注释、标记、清洗、丰富和聚合,以及识别可能影响准确性的潜在差距和问题。
系统的技术和用户文档,包括模型卡,应该使系统的控制者能够定期进行适当的检查和行动,以确保准确性原则。这一点尤其重要,因为即使模型是用代表性的高质量数据训练的,也可能生成包含不准确或虚假信息的输出,包括个人数据,即所谓的“幻觉”。
尽管努力确保数据准确性,生成式AI系统仍然容易出现不准确的结果,这可能会影响个人的基本权利和自由。
虽然提供商正在实施先进的训练系统,以确保模型使用和生成准确的数据,但欧盟机构应该仔细评估整个生成式AI系统生命周期中的数据准确性,并考虑如果无法维持准确性,则不使用这些系统。
→ 欧盟机构X遵循DPO的建议,决定当自动语音识别(ASR)模型用于官方会议和听证的转录时,其结果将由欧盟机构的合格员工进行验证。在模型用于其他不太敏感的会议的情况下,转录将始终伴有明确指示,表明这是由AI系统生成的文件。欧盟机构X已经在最高管理层准备了并批准了使用模型的政策以及符合条例的数据保护通知,要求个人同意在会议期间录制他们的声音及其由转录系统处理。在欧盟机构部署AI系统之前,还进行了DPIA。
09
在EUIs使用生成式AI时,
如何告知相关数据处理?
适当的信息和透明度政策可以帮助减少对个人的风险,并确保符合条例的要求,特别是通过提供详细的信息,说明EUIs如何在生成式AI系统中处理个人数据,以及何时和为什么处理这些数据。这意味着必须拥有全面的信息——这些信息必须由开发人员或供应商根据情况提供——关于在不同开发阶段进行的处理活动,包括数据集的来源、整理/标记程序以及任何相关的处理。特别是,EUIs应确保他们获得有关其供应商或供应商使用的数据集的充分和相关信息,并且这些信息是可靠的且定期更新的。某些系统(例如聊天机器人)可能需要特定的透明度要求,包括告知个人他们正在与没有人工干预的AI系统交互。
由于信息权包括在分析和自动化决策的情况下向个人提供关于这些决策逻辑、意义以及可能对个人产生的后果的有意义的信息的义务,因此对EUI来说,维持有关使用的算法以及处理数据集的最新信息非常重要。这一义务通常应扩展到即使决策程序并非完全自动化,但它包括基于自动化处理的准备行为的情况。
EUIs在使用处理个人数据的生成式AI系统时,必须向个人提供条例要求的所有信息。向个人提供的信息必须在必要时更新,以确保他们得到适当的信息并能够控制自己的数据。
→ 欧盟机构X正在准备一个聊天机器人,以帮助个人在其网站的某些区域获取信息。受影响的控制者在DPO的建议下,已经准备了一份数据保护通知,该通知在欧盟机构X的网站上提供。该通知包括有关处理目的、法律依据、控制者的身份以及DPO的联系方式、数据的接收者、收集的个人数据类别、数据的保留以及如何行使个人权利的信息。该通知还包括有关系统工作原理以及可能使用用户输入改进聊天功能的信息。欧盟机构X使用同意作为法律依据,但用户可以随时撤回他们的同意。该通知还明确指出,未成年人不得使用聊天机器人。在开始使用欧盟机构的聊天机器人之前,个人可以在阅读数据保护通知后提供同意。
10
EUDPR第24条规定的
自动化决策如何落实?
在管理AI决策工具时,EUIs必须仔细考虑如何确保正确实施获得人为干预的权利。这在EUIs部署能够无需人工干预或指导即可执行任务和做出决策的自主AI代理时尤为重要。
EUIs必须非常关注系统提供的信息在决策程序的最后步骤中的权重,以及它是否对控制方所做出的最终决定有决定性影响。认识到生成式AI系统在自动化决策背景下所构成的独特风险和潜在伤害非常重要,特别是对弱势群体和儿童。
当计划使用生成式AI系统支持决策程序时,EUIs必须仔细考虑是否启动它们的运行,如果它们的使用引发了关于其合法性或其可能不公平、不道德或有歧视性的决定的问题。
→ 欧盟机构X正在考虑使用AI系统进行工作申请的初步筛选和过滤。服务提供商C提供了一个生成式AI系统,该系统对正式要求进行分析并对申请进行自动评估,提供分数并建议下一阶段要面试的候选人。在查阅了有关模型的文档,包括统计准确性的可用措施(模型的精确度和敏感度的措施),并考虑到模型中可能存在的偏见,欧盟机构X决定至少在有明确迹象表明偏见风险已被消除并且精确度措施得到改善之前,不使用该系统。
无论如何,如果这样的系统被认为是“适合目的的”(即候选人筛选)并且符合适用于EUI的所有规定,EUI应该能够证明它可以有效地依赖于条例第24(2)条下的例外之一;EUI已经实施了适当的措施来保障个人权利,包括有权获得EUI的人为干预,表达她或他的观点,并质疑决定(例如,不符合资格)。
如果数据是从个人那里收集的,EUI必须根据条例第15(2)(f)条提供信息,关于AI系统的逻辑以及此类处理对个人的预期后果。在EUI部署AI系统之前,还必须进行数据保护影响评估(DPIA)。
欧盟机构X可能会决定使用一个“更简单”的在线自动化工具来筛选工作申请(例如,一个IT工具自动检查专业经验或教育年限)。
11
在使用生成式AI时,如何
确保公正并避免偏见?
偏见的主要来源可能包括:训练数据中的现有模式、对受影响人群的信息缺乏(完全或部分)、不应包含或应包含在数据集中的变量和数据的包含或遗漏、方法错误,甚至是通过监控引入的偏见。
至关重要的是,用于创建和训练模型的数据集要确保对现实世界有充分和公正的代表性——没有偏见,这种偏见可能会增加在训练数据集中未得到充分代表的个人或集体的潜在伤害——同时还要实施问责和监督机制,允许持续监控,以防止对个人产生影响的偏见的发生,并纠正这些行为。这包括确保处理活动是可追溯和可审计[4]的,并且EUIs保留支持性文件。在这方面,重要的是EUIs采纳并实施技术文档模型,当模型使用多个数据集和/或结合不同的数据源时,这一点尤为重要。
生成式AI系统提供商尝试在其系统中检测和减轻偏见。然而,EUIs最了解他们的业务案例,应使用针对其业务需求量身定制的输入数据来测试和定期监控系统输出是否有偏见。
作为公共机构,EUIs应设置保障措施,避免过度依赖系统提供的结果,这可能导致自动化和确认偏见。
在生成式AI系统的生命周期的所有阶段,应用偏见最小化和缓解的程序和最佳实践应该是优先事项,以确保公平处理并避免歧视性做法。为此,需要对算法的工作原理和用于训练模型的数据进行监督和理解。
→ 欧盟机构X正在评估自动语音识别系统中是否存在抽样偏见。翻译服务报告称,某些说话人的单词错误率显著高于其他人。看来,该系统在处理某些英语口音时存在困难。与开发商协商后,得出的结论是,对于某些口音的训练数据存在缺陷,特别是当说话者不是母语者时。由于这是系统性的,欧盟机构X正在考虑使用自己生成的数据集来改进模型。
12
如何保障数据主体权利行使?
保持个人数据处理的可追溯记录,以及以允许追踪其使用方式管理数据集,可能支持行使个人权利。数据最小化技术也可以帮助减轻与无法确保根据条例适当行使个人权利相关的风险。
作为数据控制者的欧盟机构负责并应对实施适当的技术、组织和程序措施,以确保有效行使个人权利。这些措施应该从系统的生命周期早期阶段开始设计和实施,允许详细记录和追踪处理活动。
→ 欧盟机构X在聊天机器人的数据保护通知中包含了行使个人权利的参考,包括根据EUDPR访问、更正、擦除、反对和限制处理。该通知包括控制者的联系信息和欧盟机构X的数据保护官(DPO),以及向EDPS提出投诉的可能性。在个人提出关于与聊天机器人对话内容的访问请求后,欧盟机构X在进行相关检查后回复说,除了已确定的保留期限30天之外,没有保存上述对话的任何内容。正如向个人所指明的,对话内容没有被用来训练聊天机器人模型。
13
数据安全怎么办?
使用生成式AI系统可能会放大现有的安全风险或创造新的风险,包括在广泛使用的模型中带来系统性风险的新来源和传播渠道。与传统系统相比,生成式AI特有的安全风险可能源于不可靠的训练数据、系统的复杂性、不透明性、进行适当测试的问题、系统安全防护的漏洞等。在提供公共服务的关键领域,如健康领域,模型供应有限,可能会放大这些系统的漏洞影响。条例要求EUIs采取适当的技术和组织措施,确保与自然人的权利和自由风险相称的安全水平。
控制者除了传统的IT系统安全控制外,还应整合特定于这些系统已知漏洞的控制措施——模型反转攻击[5]、提示注入[6]、越狱[7]——以便于持续监控和评估其有效性。建议控制者只使用可信来源提供的数据集,并定期进行验证和验证程序,包括对内部数据集的验证。EUIs应对员工进行培训,教会他们如何识别和处理与使用生成式AI系统相关的安全风险。由于风险演变迅速,需要定期监控和更新风险评估。同样,由于攻击方式可能变化,必须确保能够获得先进的知识和专业技能。处理未知风险的一种可能方法是使用“红队技术”[8]尝试发现和暴露漏洞。
注5:模型反转攻击发生在攻击者通过逆向工程从中提取信息时。
注6:恶意行为者使用提示注入攻击来引入恶意指令,就好像它们是无害的。
注7:恶意行为者使用越狱技术来无视模型的安全防护。
注8:红队使用攻击技术旨在发现系统中的漏洞。
在使用检索增强生成(Retrieval Augmented Generation, RAG)与生成式AI系统[9]时,有必要测试生成式AI系统是否泄露了系统知识库中可能存在的个人数据。
注9:在人工智能系统中,大型语言模型基于生成式AI系统所有者(例如,一个欧盟机构)用内部资源准备的知识库来回答,而不是基于LLM本身存储的知识。
由于缺乏与使用生成式AI系统相关的安全风险及其演变方式的信息,要求EUIs行使极度谨慎,并详细规划与IT安全相关的所有方面,包括持续监控和专业技术支援。EUIs必须意识到恶意第三方攻击带来的风险以及减轻这些风险的可用工具。
→ 欧盟机构X在进行安全评估后,决定在本地部署自动语音识别(ASR)系统,而不是使用模型开发商提供的API服务。欧盟机构X将与其供应商紧密合作,培训其IT员工使用和进一步开发该系统。这可能包括如何改进模型的培训。此外,欧盟机构X将聘请外部审计员来验证系统的正确实施,包括安全方面。
14
想了解更多?
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...