生成式人工智能(Generative AI,下称“生成式AI”)训练阶段的面临诸多法律风险,其中,在训练阶段的数据收集和处理过程中引发的个人信息保护问题尤为值得关注。模型训练阶段的个人信息保护问题集中涉及来源的合法性、深度处理引发的敏感信息识别与保护、数据泄露以及在个人信息跨境流动场景下的合规问题。由此衍生出了诸多治理路径来对上述问题进行规制,如进行数据分类分级,聚焦训练数据透明度、引入“监管沙箱”制度等。本文详细梳理前述问题和治理路径,以期为合理构建生成式AI训练数据的个人信息保护体系提供可行性思路。一、问题的提出
如今,以ChatGPT为代表的生成式AI的快速发展,已为全球经济的高质量发展注入新动能,正逐步改变着人们的生活和生产方式。但在新技术带来生产力提升的同时,还要考虑到数据在流通过程中的保护、安全与合规发展,以及AI开发和使用过程中的风险规制。生成式AI模型训练通常需要巨量且高质量的数据,这些数据往往包含大量个人信息,这便引起社会公众及政策制定者对生成式AI在收集和使用数据过程中对个人信息保护的担忧。甚至在实践中引发大量相关诉讼。仅2023年一年,美国就发生了十多起AI大模型训练司法诉讼案件,例如,在一起集体诉讼案件中,原告在起诉状中明确指控OpenAI的网络抓取工具侵犯了个人信息,并通过盗用个人信息并纳入OpenAI产品的方式侵犯了个人的财产权和隐私权。
随着生成式AI在日常生活中扮演愈发重要的角色,有效解决AI模型训练带来的个人信息保护风险至关重要。然而,在理论研究中,现有成果却较少涉及模型训练过程的个人信息保护问题,这与训练数据在生成式AI中的重要地位不相适应。在实践中,各国政策制定者和AI开发者对模型训练的规制既要重视个体权益的保护,又不能抑制新兴技术的发展与应用,充满复杂性和挑战性。
二、生成式AI模型训练阶段的个人信息保护问题
生成式AI生成较为准确且完成度较高的结论依赖在模型训练过程中对数据进行加工,这就意味着海量的高质量数据是生成式AI得以高质量有效运行的必备养料。在这种处理模式下的个人信息如同“砧板上的肥肉”一样为无数AI系统所觊觎,但缺乏科学合理且行之有效的法律保护措施,从而导致个人信息被违规利用。
2.1 来源合法性
海量的高质量数据是生成式AI模型训练的必备能源和养料。一个高质量的数据集需满足四个基本标准:数据集必须足够庞大以涵盖问题的多次迭代、数据必须有明确的标签和注释、数据必须具有代表性和公正性、数据必须符合隐私法规。因此,数据来源的合法性是模型训练的合规基石。《生成式人工智能服务管理暂行办法》第7条规定,生成式AI训练数据应当使用具有合法来源的数据。从行业实践的情况看,生成式AI训练数据的来源渠道多样,不但有自有数据,还包含了抓取的公开数据、购买的第三方数据集以及合成数据等。然而,这些方式获取的数据集充斥着不当许可的数据,极易引发正当使用的争议。例如OpenAI就利用Reedit链接等爬虫技术抓取维基百科等网页的公开数据为ChatGPT进行训练。这一方式极易逾越数据安全保护的红线,造成个人信息保护问题。一方面,在利用爬虫技术收集数据的过程中很难符合“知情同意原则”、“最小化原则”等规定。如:我国《个人信息保护法》(以下简称“《个保法》”)第6条规定了个人信息处理活动应当遵循的最小化原则;第13条规定处理个人信息的7种情形,除去个人信息主体明确同意的前置性条件之外其余均为严格的法定豁免情形。《生成式人工智能服务安全基本要求》第5条也规定了模型训练在个人信息方面规定:在使用包含个人信息的语料前,应取得对应个人同意;在使用包含敏感个人信息的语料前,应取得对应个人单独同意。欧盟的《通用数据保护条例》(下称“GDPR”)第5条和第6条也规定了个人数据的使用必须遵循合法性和最小化原则。根据OpenAI官网的表述,若用户不同意输入其个人信息作为训练数据库,可以根据《使用条款》的相关规定,通过邮件发送的方式进行拒绝授权。从表述上来看OpenAI似乎在个人信息的使用中采取了一种选择退出的机制,但是实际上若输入信息中包含个人信息,默认的选择退出机制并不符合个人信息保护相关法规中的知情同意要求。另一方面,如果在爬取数据的过程中故意通过技术手段绕过或者突破技术保护措施,就会侵犯用户个人信息安全。2023年6月,美国公益律师事务所(Clarkson Law Firm)代表匿名客户在加州联邦法院对Open AI公司提起了一起集体诉讼,指控内容便是Open AI在未经用户同意的情况下非法收集和使用大量个人信息。此阶段对个人信息的收集几乎完全脱离了《个保法》基本的“告知同意”原则,导致法律规定在此阶段几乎失去了约束力。ChatGPT对个人信息的利用所依赖的神经卷积模型相较于传统算法模型而言更加复杂,对于各种要素的分析也更加深入,深度神经网络会发掘出个人信息中潜藏的信息。因此,生成式AI在模型训练过程中会将收集到的个人信息进行汇聚或融合,以提高其生成内容的质量和准确性。但个人信息汇聚或融合后的整体属性存在潜在的敏感性风险,即使单独来看某些个人信息并不敏感。例如,AI开发者收集了用户的购物历史记录,这些数据单独来看并不敏感,因为它仅显示了用户购买的商品记录。然而,当这些购买记录与其他数据(如购买频率、特定种类商品的偏好)结合时,可能透露出用户的敏感信息,如健康状况。如果用户购买了多次医疗设备或药品(如血压计、降血糖药等),结合购买日期和频率,就可能推断出用户存在高血压、糖尿病等健康问题。全国网络安全标准化技术委员会于2024年9月18日发布的《网络安全标准实践指南——敏感个人信息识别指南》规定了敏感个人信息的识别规则,既要考虑单项敏感个人信息的识别,也要考虑多项一般个人信息汇聚或融合后的整体属性。《个保法》第28条规定了敏感个人信息的范围以及只有在具有特定的目的和充分的必要性,并采取严格保护措施的情形下,个人信息处理者方可处理敏感个人信息;第29条规定了处理敏感个人信息应当取得个人的单独同意,但实践中,模型训练却难以满足这些要求。此外,由于生成式AI的强大分析能力,即使是碎片化不完整的信息,也有可能被ChatGPT进行标签化重组与其他类似数据一起进行深度挖掘,进而推断出敏感信息。生成式AI采用自然语言处理技术对获取的数据进行模型训练,运用超高强度的算力挖掘数据中存在的统计规律以实现深度学习。这种技术的运用使AI模型可以利用互联网上几乎所有的无人工标注数据进行训练,实现无监督学习,极大地降低了训练成本,提高了计算机自然语言学习的成效。但这种自然语言统计规律却保存在数以千亿计的模型参数中,并非如硬盘中存储的数据被人所确知。这就导致了不但普罗大众无法知悉人工智能运行的内在逻辑和过程,甚至连开发者也无法详细了解模型到底掌握了何种自然语言统计规律。这一不公开、不透明的算法运行过程便是“算法黑箱”。生成式AI模型训练过程中对个人信息的处理也同样被置于“算法黑箱”之中,难以窥探其中“奥妙”。各国数据保护法律几乎都规定了数据处理的透明度要求,如《个保法》第7、24条规定了个人信息处理应当遵循公开透明原则。但这种“算法黑箱”却导致个人信息处理显著缺乏透明度,难以辨析模型训练时使用的个人信息的权利状态与隐私风险。这就导致个人信息处理的公开透明原则无法严格贯彻,严重侵害用户的知情权。此外,既然连开发者也无法了解“算法黑箱”中个人信息是如何被处理的,那么就更无法向用户进行详细告知,也难以遵守个人信息处理的知情同意规则。并且生成式AI大模型具备“涌现”特性,即系统中的定量变化导致行为质变。涌现的一个重要特征是“不可解释性”,即无法通过任何构成或共存规律从更简单的情形中推导出来,数据处理的中间业态也就几乎无法进行回溯。因此,模型训练有可能进一步降低问责制,难以对个人信息主体权益进行有效保护。由于生成式AI模型训练过程中需要不断收集训练数据,因而会自动将爬取的数据和用户信息存储起来,这就存在多方面的数据泄露风险。第一,开发者并未向用户提供检查训练数据及其个人信息存储库的方式,也未对用户个人信息的存储期限以及具体保护措施进行详细的说明。虽然各国法律对开发者收集和存储数据提出了限制性要求,如《个保法》第17条规定个人信息并非可以无限期地保留,其存储时间应当受到限制。但在实践中,开发者这种对信息存储期限的做法十分模糊,显然不利于用户的个人信息权益的保护。第二,开发者或掌握数据访问权限的人员可能在威逼利诱下将存储的个人信息非法转让给第三方,增加了个人信息泄露的风险。第三,前文阐述到,在模型训练过程中,生成式AI通过深度学习对个人信息过度挖掘,使得去标识化的个人信息甚至匿名化信息被重新识别,也可能造成个人信息的泄露。最后,黑客攻击也会导致极为惨重的数据集泄露。黑客通过植入污染数据来操纵训练数据集,或通过模型反转获取和重新识别训练数据的方式反向攻击(AI Inversion Attck)模型,侵犯用户的合法权益。此外,生成式AI展现出来的强大能力会使得用户将越来越多地与它们建立关系,并逐渐信任它们。用户在与其互动的过程中可能会被诱导收集个人信息或其他资料,存在泄露个人信息的风险。生成式AI模型训练一方面需要多样化和大规模的数据,另一方面需要强大的算力作为支撑,从而提升模型生成内容的质量和多样性。两种要求衍生出不同的数据出境场景,从而产生不同的个人信息保护风险。生成式AI模型通常需要从多元化的语言、文化和行为模式中汲取数据,以便模型在生成内容时能够具备更广泛的适应性和实用性。这些数据往往跨越多个国家和地区,因此需要通过数据跨境传输来汇集全球化的数据资源。然而,这种跨国数据收集和使用行为会触发多国数据保护法的适用,引发合规风险。如,根据GDPR的规定,个人信息的跨境传输只能在确保接收国具备足够的数据保护水平或签订了标准合同条款的前提下进行。我国《个保法》也对个人信息的出境设定了严格的条件,包括申请个人信息保护认证或签订个人信息出境标准合同并完成备案等。这些法律差异可能导致跨境传输过程中的不一致性,增加了法律风险。生成式AI模型训练需要强大的算力作为支撑。但是,许多国家生成式AI产业链的基础设施层仍待完善,境内开发者可能存在算力不足以及AI算法和模型落后的问题。在该种情况下,不少开发者在探讨跨境调用境外算力或算法模型的可能性。如跨境调用境外算力,则其收集的训练数据将会被传输至境外进行训练,相关训练数据和搭建后的模型亦可能被存储至境外数据中心,从而引发数据跨境相关风险。三、治理路径探析
欧盟《人工智能法案》依据风险等级对AI系统进行分类分级监管。该法案将AI应用划分为最小风险、有限风险、高风险和不可接受的风险四个等级,并制定了对应的监管要求。根据法案第三章第10条的规定,对于风险较高的生成式AI应用,不仅需要满足更为严格的数据保护要求,包括满足有关透明度、数据质量、记录保存、人工监督和稳健性的具体要求。还要求这类应用进行定期的风险评估。如要求高风险AI系统的开发者记录数据处理使用的全流程,审查数据来源。GDPR也实施了严格的个人数据分类分级保护。根据GDPR,个人数据被分为一般数据和特殊类别数据,后者包括种族、宗教、健康、性取向等敏感信息。在生成式AI模型训练过程中,处理这些特殊类别数据时,开发者需获得用户的明确同意,并提供额外的保护措施,如数据最小化、匿名化等。尽管美国缺乏统一的联邦数据保护法,但不少州通过州一级的立法形成了对不同类别数据分别进行规制的制度框架,体现了分类分级保护的理念。如加利福尼亚州,通过《加利福尼亚消费者隐私法案》规定了个人数据的分类分级和保护。该法案要求企业对收集到的用户数据进行分类,特别是对敏感个人信息进行严格保护。生成式AI在处理数据时,必须告知用户其信息的用途,并为用户提供删除或限制数据使用的权利。在生成式AI模型的训练阶段,虽然企业采用数据分类分级来保护个人信息是一种有效的策略,但在实际应用中面临着一些问题和阻碍。如不同的领域和行业对数据分类分级的标准各不相同,增加了统一分类和分级标准的难度;自动化工具的局限性使得数据分类分级过程中存在误分类的风险;对数据过度去标识化可能会削弱模型的训练效果等。这些问题亟需在实践中进一步研究与解决。“监管沙箱”制度是指一个“安全空间”,企业可以在其中测试创新性的产品、服务、商业模式和交付机制,不会因从事相关活动而立即受到通常的监管后果。该制度于2015年由英国金融行为监管局提出,最早应用在金融科技领域,是监管机构支持金融创新的一种重要制度尝试。随后,新加坡、澳大利亚、美国等国陆续在金融科技监管领域开展类似试点。将该制度应用在AI领域是一项创新之举,具体是指AI开发者在产品投放市场之前,在一个可控、安全的环境中使用真实的或模拟的数据集来实验新技术或解决方案。对于监管机构、生成式AI开发者及使用者而言,通过构建“监管沙箱”可以更好地观察和应对生成式AI所带来的风险。欧盟《人工智能法案》将AI监管沙箱设定为各成员国强制义务,以减轻企业监管负担。建立沙箱数据集的统一标准,建设沙箱传输、整合、共享数据的平台,实现数据互联与共享,强化信息披露等。通过完善的技术安全保障措施降低数据安全隐患,确保数据存储、加工和交付的安全。因此,“监管沙箱”便成为数字化转型中的主要规制工具。欧盟《人工智能法案》便将“监管沙箱”作为规制学习和创建“灵活、有利于创新、面向未来、以证据为基础、有弹性的规制框架”的工具,以应对AI的颠覆性挑战。英国信息专员办公室(Information Commissioner's Office,下称“ICO”)在《关于数据保护法应如何适用于生成式人工智能模型的开发和使用的征求意见中》也明确AI开发者可以通过“监管沙箱”获得ICO的建议和支持。伴随着各国对“监管沙箱”的理解不断深入,AI领域“监管沙箱”制度的实践探索也逐步丰富,许多国家正在带头开发试点。相关实践内容参见下表:表:主要国家AI“监管沙箱”试点概况
国家 | 开始时间 | 内容 |
挪威 | 2020年 | 挪威数据保护局在个人信息保护中推出了一个监管沙箱,旨在促进AI领域创新的同时保护用户隐私 |
法国 | 2020年 | 由教育行业的5家企业参与测试AI系统,法国数据保护当局在监测、评估风险的同时,为参与企业提供技术和人力支持 |
韩国 | 2019年 | 韩国科技部、贸易、工业和能源部以及中小企业和初创企业部建立监管沙箱,为AI企业提供有时间限制的监管豁免,以测试创新产品、服务和商业模式。沙盒还根据实际数据为政府法规提供信息 |
德国 | 2015年 | 德国的AI战略计划建立AI生活实验室和试验平台,如 A9 高速公路生活实验室,创建新的实验条款作为监管沙箱的法律基础,并创建监管沙箱网络以及提供监管沙箱手册。促进企业在自动驾驶领域的创新,并让政府确定所需的监管改革 |
瑞士 | 2022年 | 由无人驾驶农机、无人机、机器翻译、作业纠错和停车调度等领域的5家企业参与测试研发AI系统 |
西班牙 | 2023年 | 测试在生物识别、关键基础设施和教育培训等8个领域中的高风险AI系统 |
虽然引入“监管沙箱”制度对AI的创新和发展有着诸多好处,如平衡创新与安全、创设灵活监管、减轻监管负担等,但仍存在一定局限性,如沙箱侵权责任减免事由缺失、相关激励措施有待规范,以及对数据利用的相关规定不完善等。这些问题的解决丞需政府、学术界和产业界的共同努力。针对生成式AI训练阶段的个人信息保护问题,许多国家和地区聚焦训练数据透明度的提升。数据的透明度通常指指的是指开发者在收集、使用和处理数据时,向用户清晰、公开地说明其数据处理的目的、方式、范围和用户权利,从而增强用户对数据处理过程的信任,并确保他们能够更好地掌握自己的个人信息。新加坡《生成式人工智能治理模型框架》明确生成式AI训练内容来源的透明度可为最终用户提供有用的信号,从而确保用户能够了解数据的来源和使用方式。实践中,新加坡在“国家AI战略”中推出AI治理测试框架和软件工具包——AI Verify,其中,向个人披露AI在技术系统中的使用情况便是AI Verify测试框架下的支柱之一,通过文件证据(例如公司政策和沟通材料)的流程检查进行评估,为可能受AI系统影响的个人提供适当的信息。AI Verify提供的透明性报告能够帮助开发者和监管者深入了解数据的处理方式,并确保生成式AI模型在使用数据时是透明的。欧盟委员会《人工智能和数据保护指南》认为,尽管模型训练阶段必然需要大型数据集,但应采用一种设计范式,严格评估所使用数据的性质和数量,减少冗余或边缘数据,逐渐增加训练集的规模。英国也建议提升训练数据方面的信息透明度,例如:在《创新友好的人工智能监管(2023)》中建议提升训练数据方面的信息透明度,在合理透明度和可解释性原则方面,希望监管者对AI生命周期中的相关主体设置期待—积极提供其使用的数据以及训练数据方面的信息。在产业层面,生成式AI开发者在实践中也极为关注训练数据透明度的提升。Google AI定期发布隐私和安全透明度报告,向公众展示其数据保护的措施和技术,包括生成式AI训练中如何应用隐私保护技术。Apple不仅通过隐私透明度报告展示其数据保护措施,还为用户提供了细粒度的隐私控制选项。用户可以选择是否参与模型训练和数据收集,并能查看和删除相关数据。这些产业实践不仅增强了用户对生成式AI的信任,也为未来的技术可持续发展提供了稳固的基础。3.4 采用严格的测试和评估措施
为了确保生成式AI在模型训练过程中对个人信息的保护符合法律要求,多个国家采取了严格的测试和评估措施,确保生成式AI的开发者和使用者能够有效保护个人信息,并符合数据保护法律的要求。当前,不少国家和地区已经采用或正在推动红队测试(Red Teaming)作为生成式AI模型训练过程中的个人信息保护的手段。红队测试是网络安全领域的一种常见测试方法,旨在模拟恶意攻击者对系统、网络或应用进行攻击,识别潜在的漏洞和安全风险在生成式AI领域,红队测试通常由一个专门的“红队”负责,测试模型的边界以及在各种领域生成不良输出的潜力。通过模拟攻击行为,红队测试能够有效评估AI系统在处理和保护个人数据方面的能力,并帮助提高模型的整体安全性。美国总统拜登于2023年10月30日签署颁布的《关于安全、可靠、可信地开发和使用人工智能的行政命令》(Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence)强调了AI红队测试的必要性。该命令将“AI红队测试”定义为一种“结构化的测试活动,旨在发现AI系统中的缺陷和漏洞”,通常由专门的“红队”通过对抗性方法进行。欧盟也将红队测试作为其AI监管方法的核心。欧盟于2024年初通过的《人工智能法》要求“具有系统性风险的通用AI模型”在其生命周期内进行严格的红队测试或“对抗性测试”。新加坡推出的AI Verify治理测试框架规定了通过第三方测试提供外部验证和增加信任。韩国个人信息保护委员会(PIPC)发布的《关于处理公开数据以开发和服务AI的指南》在管理和组织防护措施中考虑运行AI隐私红队。英国ICO在“生成式人工智能和数据保护”咨询中提出了合法利益评估标准,为生成式AI抓取个人数据进行模型训练提供了合法依据。明确AI开发者应进行三步测试: 一是目的性测试,即处理目的是否合法。二是必要性测试,即个人信息处理活动对于目的而言是必需的。三是平衡测试,AI开发者所追求的利益没有被用户的优先性权利或基本权利与自由推翻。综上所述,多个国家和地区通过测试确保生成式AI模型训练过程中的个人信息保护。这些机制不仅帮助生成式AI开发者确保其技术合规,还加强了个人信息在模型训练过程中的安全性,提升数据保护能力。四、思考与展望
当前,生成式AI通过将海量数据与先进的智能算法注入各行各业,不仅极大地提高了生产效率,还将催生AI for Science,AI for Education,AI for Manufacturing,AI for Finance等一系列创新模式和产业机会,为经济社会的高质量发展注入新动能。然而,生成式AI技术的迅猛发展也对现有的法律、伦理和社会机制提出了前所未有的挑战。特别是在科研领域,AI技术的前沿性与复杂性需要更深入的理论探索和技术攻关。科研在推动生成式AI的同时,也为如何有效应对模型训练过程中涉及的个人信息保护问题提供了重要启示。
随着AI技术不断革新,科学研究不仅可以在理论上深化对数据治理的理解,还为产业提供了切实可行的技术解决方案。一些科技巨头也积极投身于这一领域,通过学术研究和产业实践结合,探索更好的个人信息保护措施。谷歌通过提供开放数据集和开发工具,与学术界分享其AI研究成果。其中,谷歌的AI平台TensorFlow不仅为研究人员提供了一个开放、易用的开发工具,还通过开源平台与全球的学术和产业界共享技术经验,推动AI技术和隐私保护研究的同步发展。此外,微软通过其“AI for Good”计划,与全球学术界和非营利组织合作,推动AI技术应用于社会公益领域,同时确保数据的安全和隐私保护。该计划为高校和研究机构提供资金支持,共同研究AI技术如何能够在数据合规和隐私保护方面发挥更大作用。这些科技公司与学术界的紧密合作,为未来的AI治理提供了宝贵的经验。因此,生成式AI领域的个人信息保护问题涉及技术、法律、伦理和社会等多个层面,不仅需要产业界的自律,需要产业与学术的深度合作,更需要跨学科、跨部门乃至跨国界的合作。特别是,校企之间可依托科研人才资源、数据技术创新、国际化开放合作等方面的积累,加强沟通交流,充分发挥各自优势,合作互补,深化拓展数据及人工智能领域的发展机遇,服务于国际人工智能创新平台的建设。聚焦重点技术和科研攻关,围绕“如何通过技术高效、合规地整合并利用日益庞大的数据资源”,“如何构建有效的人工智能治理机制”等问题,开展面向AI的数据治理以及隐私保护技术研究和创新。在促进生成式AI发展的同时兼顾数据合规和安全保护,为生成式AI模型训练阶段存在的个人信息保护问题提供有益的方案和可行的治理路径。1.刘艳红:《生成式人工智能的三大安全风险及法律规制——以 ChatGPT 为例》,载《东方法学》2023年第4期。
2.张平:《生成式人工智能实现突破创新需良法善治——以数据训练合法性为例》,载《新经济导刊》2023年第8期。
3.张宇轩:《人机对话中个人信息的“设计保护”——以ChatGPT模型为切入点》,载《图书馆论坛》2023年第8期。
4.孙蒙鸽、韩涛、王燕鹏、黄雨馨、刘细文:《GPT 技术变革对基础科学研究的影响分析》,载《中国科学院院刊》2023年第8期。
5.董春雨:《从机器认识的不透明性看人工智能的本质及其限度》,载《中国社会科学》2023年第5期。6.谭九生、范晓韵:《算法“黑箱”的成因、风险及其治理》,载《湖南科技大学学报(社会科学版)》2020年第6期。7.袁曾:《生成式人工智能的责任能力研究》,载《东方法学》2023年第3期。8.胡滨:《金融科技、监管沙盒与体制创新:不完全契约视角》,载《经济研究》,2022年第6期。9.戚聿东,刘欢欢:《数字经济背景下金融科技的创新发展与监管转型——基于监管沙盒视角》,载《经济与管理研究》2022年第4期。10.张涛:《生成式人工智能中个人信息保护风险的类型化与合作规制》,载《行政法学研究》2024年第8期11.丁道勤:《生成式人工智能训练阶段的数据法律问题及其立法建议》,载《行政法学研究》2024年第8期。12.何渊:《生成式AI监管的新兴趋势:红队测试如何塑造行业格局》,https://mp.weixin.qq.com/s/6ZHPEfkWo9Gs8J4xJ0VY4w,访问日期:2024年9月28日。13.邵仁荣、刘宇昂、张伟等:《深度学习中知识蒸馏研究综述》,载《计算机学报》2022年第8期。英文文献:
1.Susanne Werry, Generative KI-Modelle im Visier der Datenschutzbehörden, 2023.
2.Jonathan Gillham, OpenAI and ChatGPT Lawsuit List.
3.OpenAI:Introducing ChatGPT,2023 enterprise. https://openai.com/blog/introducing-chatgpt-enterprise.
4.MAURAN, OpenAI is being sued for training ChatGPT with 'stolen' personal data, 2023.
5.ANDERSON PW. More is different: broken symmetry and the nature of the hierarchical structure of science,1972.6.WEIJ, TAYY, BOMMASANIR, et al. Emergent abilities of large language models, 2023.7.CARLININ, HAYESJ, NASRM, et al. Extracting training data from diffusion models, 2023.8.Financial Conduct Authority. Regulatory sandbox. 2015.9.OECD DIGITAL ECONOMY PAPERS:Regulatory sandboxes in artificial intelligence,2023.
2024年10月29日-30日,首届“2024 GDTC 全球数据技术大会”将在北京举行。此次大会由下一代互联网国家工程中心主办,汇聚国内外数据领域的顶尖专家学者、行业精英和企业代表,围绕数据前沿热门技术进行分享与探讨,旨在推动数据技术的创新与应用,构建全球互联互通的数据基础设施,加强数据技术领域的国际合作、产业协同,为数据要素产业的快速发展提供强有力的支撑,以技术应对数字经济带来的机遇与挑战。
图:“2024 GDTC 全球数据技术大会”会议架构
即刻报名“GDTC 2024 全球数据技术大会 ”
“数据信任与治理”由下一代互联网国家工程中心运营。放眼全球数据治理前沿理论与实践进展,探索可信数据治理的中国模式,促进数据要素有序流通,释放数字经济红利。
TDG focuses on the cutting-edge theory and practice of global data governance, explores the Chinese model of trusted data governance, promotes global data flow, and fulfills the potential of the digital economy.
还没有评论,来说两句吧...