CAIL报名
点击
个保审计试点
咨询微信:heguilvshi
Europrivacy认证
编辑注:这是两部分系列的第一部分,探讨知识产权法、它们的问题以及它们是如何受到生成式人工智能系统的发展和应用的影响。
美国宪法中的知识产权条款授权美国国会通过保护作者的著作和发明家的发现来促进创新。新兴的生成式人工智能能力对这一长期存在的法律框架提出了独特的挑战。
技术在扩大科学进步的同时,对作者和艺术家产生了影响,因为它可能成为一个潜在的竞争性、非人类的原始内容提供者,引发了关于创造力本质和人类在艺术中角色的全球辩论,以及保护他们的法律。
国际知识产权法保护人类心智的创造,例如“发明;文学和艺术作品;设计;以及在商业中使用的象征、名称和图像。”版权、专利、商标和商业秘密类别代表了长期存在并在全球受到尊重的知识产权权利,其他也被认可。
知识产权作为无形资产,可以增加商业价值,并可以战略性地用于商业的竞争优势。知识产权保护商业资产,但也为与商业企业无关的个人创作者提供保护。
人工智能系统是特定类型的计算机程序,通常与需要人类智能完成的任务相关联。它们已经发展了七十多年,但在ChatGPT和其他生成性人工智能工具公开发布后,才真正进入主流。
生成性人工智能是人工智能和机器学习技术的一个新颖而革命性的子集,它生成原始输出,但也引发了各种广泛的法律、伦理和隐私问题。除其他外,它在法律和商业对知识产权及其相关创作者权利的理解上造成了混乱。
版权基础
版权保护“以任何有形表达媒介固定的原创作品”,包括文学、戏剧、音乐和艺术作品。它不保护事实、思想、系统或操作方法,但可能保护它们表达的形式。
版权不是单一的权利,而是一系列授予作者控制其作品复制、改编、分发、表演和展示的独家、有时间限制的权利。未经许可或在有限的法律背景下执行这些行为可能构成版权侵权,除非适用例外。
版权保护那些不是专业或甚至有意的创作者的人的作品。除了传统媒体,这种保护长期以来也已确立,包括博客文章、日记条目和照片图像等数字内容。
固定作品意味着使其在可以感知的有形媒介中可用。在纸巾上写字、打印或发布照片、写博客、报道新闻以及所有其他传统媒体的数字化可访问版本都包括在版权法之下。值得注意的是,声音、现场表演和特定声音特征不能被版权保护,尽管特定演讲或表演的特定录音是受版权保护的,因为它已经在录音中“固定”。
由于原始数字内容受版权保护,让我们考虑一下使用这种受保护的内容来训练人工智能是否合法,或者是否侵犯了版权保护——以及基于什么。
作为训练数据使用的内容的知识产权
训练数据是任何人工智能模型性能、准确性和可靠性的基础。
这些系统的开发者公开披露他们使用的数据来源的广泛类别,包括大量的公共数据集以及通过有针对性的网络抓取收集的数据——这是一种快速准确地从网站提取相关数据并可以以结构化格式导出的工具。
虽然要求开发者明确识别这些来源似乎很简单,但由于模型开发者自己的知识产权,特别是围绕其数据集的商业秘密保护,训练数据的详细披露可能至少部分受到限制。
尽管如此,版权主张和待定立法可能要求开发者进行进一步披露。例如,欧盟人工智能法案将要求受监管的人工智能提供者记录其训练数据中任何受版权保护信息的摘要。
没有这样的进一步透明度披露,艺术家们很难知道他们的作品何时何地被收集。像haveibeentrained.com这样的资源帮助艺术家搜索数据库,确定他们的作品是否被使用,并使他们能够标记他们的作品以供删除。
这个网站上的证据在Silverman等人诉Open AI等案件中被接受,这是几位作者因间接版权侵权而提起的诉讼。法院裁定ChatGPT产生的摘要不被视为版权侵权,因为输出与原告的材料没有实质性相似。输出是“来自许多来源的表达材料的混合”,使其在版权法下受到保护。
网络抓取用于数据训练
从版权捆绑中,复制权是围绕在人工智能模型中使用受保护材料进行训练数据的问题。围绕复制的保护是控制原始作品副本的制作,包括复印、扫描以及上传或下载内容。
直观上,通过网络抓取收集数据似乎假定了一些形式的复制已经发生。然而,训练数据和大型语言模型的技术专家对这一假设提出了挑战,因为虽然人类在受版权保护的作品中看到了原始表达,但人工智能和机器学习系统将它们作为计算的原材料处理,包括向量、标记和数据点,而不是体现为文本或图像的独特表达。
人工智能系统使用从受版权保护的作品中提取的数据以机器可读格式,并且这是否构成原始副本的问题仍有待解决。
此外,人工智能模型按设计不会以传统意义上保留训练数据。信息不会被传输或复制到模型中。然而,研究表明大型语言模型可能在对某些查询的有用输出的背景下有效地记住大量的训练数据。不幸的是,除非通过响应实验发现,否则没有办法确定这是否发生了。
像日本和欧盟这样的司法管辖区已经提供版权例外,允许为文本和数据挖掘,或网络抓取目的复制和提取作品。
在欧盟,某些组织可以对他们可以合法访问的作品进行文本和数据挖掘,用于科学研究。对于非科学研究目的,除非权利持有人明确保留他们的权利,否则允许文本和数据挖掘。这要求尊重权利持有人的退出选择,鉴于训练数据的透明度不足,这可能是一个挑战。
在美国,2006年地方法院认为,谷歌通过网络爬虫索引和缓存原告的在线故事并没有侵犯原告的版权,但这种做法是否会适用于生成性人工智能所需的更广泛用例还有待观察。
版权保护的潜在例外:合理使用辩护
如果通过网络抓取或其他方式获取训练数据被确定为原始内容的副本,那么对原始作品的版权保护可能仍然有限制。
版权法已经发展到承认社会利益,例如促进言论、教育、新作品的创作和文化表达。因此,它为图书馆的使用以及美国的合理使用辩护等例外情况创造了例外。
在美国,合理使用辩护为版权侵权索赔提供了保护,当被告的使用满足某些特定标准时,可以免受未经授权使用受版权保护的作品的保护。事先不能假定对受保护内容的合理使用许可。法院综合评估四个因素,并逐案授予合理使用例外。
因素1:使用的目的和性质。
法院考虑特定的使用是否具有变革性、非商业性、教育性或对批评/评论的必要性。变革性使用赋予原始作品新的表现或意义。非营利和教育性使用通常被看好,而商业使用通常需要版权所有者的许可,但并不自动侵权。对于生成性AI,为专有模型进行训练并提供许可服务是商业使用。一个不收费的开源模型也可能被视为商业用途,考虑到由此产生的经济利益。
因素2:版权作品的性质。
这个因素区分了事实作品和高度创造性或富有想象力的作品。事实作品比高度创造性或未发表的作品更有可能允许合理使用例外。因此,将艺术和文学等创意作品包含在训练数据集中,可能不如抓取公司数据那样有利于合理使用。事实不受版权保护,可以被复制。然而,将事实汇编成数据库在美国版权法下作为“汇编”受到保护,如果选择和汇编信息的过程涉及足够的创造力或原创性。数据库在欧洲版权法和世界知识产权组织版权条约下享有更强大的保护。
因素3:使用部分的数量和重要性。
这个因素评估了与使用目的相比,原始作品中使用了多大一部分。使用原始的相对较小部分,或仅使用实现变革目的所必需的部分,倾向于支持合理使用的解释。如果使用了作品的大部分,或者使用的部分被认为是原始作品的核心,这将不利于合理使用。大型语言模型训练在海量数据上,因此任何单一训练数据元素对于整体来说都是相对不重要的。但这个因素也考虑了包含的原始内容的量,所以如果训练数据中包含了原始作品的全部,那么即使在整体数据集中只是一小部分,在个别层面上,它将是一个大的或核心的百分比。除非受保护的数据作为输出被揭示,否则个人创作者很难确定他们的工作在训练中被使用了多少,或者他们自己的工作对训练数据集的重要性。
因素4:对市场潜力的影响。
最后一个因素评估新内容对原始作品市场的影响。如果新用途似乎直接与原始作品市场竞争或减少其市场,那么它不太可能符合合理使用的例外。对于生成性AI,艺术家和作者可以合理地争辩说,使用他们的作品来训练系统影响了他们原创作品的市场,但可能存在限制,因为这些系统更有可能在一般市场层面上具有竞争力,而不是针对具体作品的竞争。
结论
参与开发和训练生成性AI技术的公司面临越来越多的知识产权挑战,包括潜在的版权侵权问题。
然而,版权保护将如何在这一新背景下被权衡和应用的具体细节仍然不确定。技术方面,如AI模型访问、解释和保留受保护数据的方式,以及新用途在现有版权例外和测试下的排名,都需要仔细的法律和政策评估。
法律版权保护的存在是为了支持人类创作者为我们的艺术和知识库增加的总体社会价值。这些法律框架是否是保护这种价值免受新技术影响的最佳方式,还有待确定。
牵头发起个保合规审计先行计划,并已完成即刻APP等数家公司的试点工作; 参与个保合规审计标准编制工作,并形成一套完善的审计方法; 完成首款个保合规审计自动化软件,并获得软件著作权; 率先发起个保合规审计认证培训,已在北京、上海举办两期。 申请请备注:姓名+单位+职务
不备注不通过
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...