擅用画师作品训练大模型算合理使用吗？

作者：杨柳

将受版权保护的作品“投喂”给AI大模型训练，是否构成侵权？这是摆在国内外司法裁判者面前的棘手难题。

6月20日，备受关注的“Trik AI”绘画大模型被诉侵权使用训练语料案，在北京互联网法院开庭审理。作为原告的四位插画师指控，涉案大模型的运营方未经授权，将原告美术作品用于训练AI模型并应用于商业用途，已经远超合理使用范畴，侵害了画师的权益。

而运营“Trik AI”的被告公司辩称，被告的大模型训练行为即使使用原告作品，也应属于合理使用，不构成侵权。

目前，该案正在进一步审理中。

管辖权争夺

四位画师为小红书注册用户，长期在该平台上发布创作的绘画作品。南都获取的一份起诉状显示，画师之一的“雪鱼”介绍，2023年8月，他发现有用户在小红书平台发布了带有明显模仿其作品痕迹的图片，这些用户均表示图片通过“Trik AI”生成。

“Trik AI”小红书账号。

遭遇相似情况的四位画师后来联手，将“Trik AI”的运营公司诉至法院。涉案的三家被告公司为伊普西龙信息科技（北京）有限公司、伊普西龙信息科技（上海）有限公司，以及小红书App的运营方行吟信息科技（上海）有限公司（下称“行吟科技公司”）。原告方根据涉案“Trik AI”软件用户协议、宣传推广资料等，认定该款软件由三被告共同开发运营。

2023年10月20日，“Trik AI”案正式立案，此后经历过一轮管辖权的程序争议。去年11月17日，北京互联网法院驳回了行吟科技公司提起的管辖权异议。

据南都获取的裁定书，行吟科技公司主张生成式AI大模型训练的行为分为两步：第一步，通过购买数据库、公开爬取等方式获得海量内容数据，进行一定形式的转换之后，存储在相关服务器之中；第二步，对内容数据进行分析处理，以发现一定的模式、趋势以及相关性并转变为大模型参数，供后续内容生成时调取使用。即训练数据的存储及分析处理，均发生在本地服务器中，并非发生在互联网上。因此涉案纠纷不属于在互联网上发生的侵权纠纷，按规定不应由北京互联网法院管辖。

但法院认为，被诉侵权行为不可避免地发生在互联网上。无论购买第三方数据库或是公开爬取数据，均需通过互联网渠道先行获取涉案美术作品。具体到本案，原告主张权利的绘画作品也是通过互联网渠道发布。同时，涉案“Trik AI”生成的被诉侵权内容发布于小红书平台，该行为亦在互联网上。

法院据此表示，涉案侵权行为属于发生在互联网上的侵权行为，而作为被告之一的伊普西龙信息科技（北京）有限公司住所地在北京，因此按现行规定，北京互联网法院拥有管辖权。

涉嫌何种侵权？

据南都获取的原告3月提交的补充起诉状，原告将被诉侵权行为进行了拆分，包括采集以及存储原告作品、将原告作品作为训练AI模型的语料、提供能够生成侵权图片的AI模型服务三种行为。

从上述三种行为出发，原告提出三项侵权指控：

首先，被告未经原告授权，采集原告作品并存储，侵犯了原告享有的复制权，因为存储则意味着涉及对原告作品的复制；

其次，被告将原告作品作为训练语料输入AI模型的行为，侵犯了原告所享有的将作品用于AI模型训练并获取报酬的权利。该项权利应属于著作权法规定的“应当由著作权人享有的其他权利”；

再次，被诉AI模型能够在任何用户非针对性、非恶意的使用下，生成与原告作品实质性相似或者与原告作品视觉效果等雷同的图片，挤压了原告依托其作品获得收益的空间。当生成图片与原告作品构成实质性相似时，被告侵犯了原告的复制权、信息网络传播权；当生成图片在保留原告作品元素之外形成了新的表达时，则侵犯了原告的改编权；除此之外，在上述过程中被告亦没有标明原告作者信息，侵犯了原告的署名权。

原告据此主张，被告应当从被诉AI模型中剔除原告作品，或者采取其他同等效果的技术手段。理由在于，被告停止侵权在技术上具有可行性，不需要重新训练模型，停止侵权行为不至于对被告形成过重负担。原告还要求被告赔偿损失，并赔礼道歉。

据北京互联网法院公众号的庭审介绍信息，两家伊普西龙公司辩称，原告诉讼请求不明确；原告主张权利的作品与涉案AI生成图片不存在实质性相似；被告大模型训练行为即使使用原告作品，亦应构成合理使用；被告尽到了提示义务。因此，被告行为不构成侵权。

另一被告行吟科技公司，则强调没有向两家伊普西龙公司提供涉案的美术作品进行训练，也没有实施涉案争议行为，不应承担任何法律责任。据南都记者了解，3月21日的庭前会议中，三家被告公司曾表示“相互之间没有签署合作合同”。

原告之一的画师“青团子”告诉南都记者，据代理律师庭审后给予的情况反馈，小红书方面的答辩理由是没有参与涉案大模型的研发，两家伊普西龙公司则当庭承认使用了其中两位画师的作品进行训练。

庭审上，南加州大学计算机学在读博士研究生梁楚盟作为技术辅助人员出庭，就AI大模型训练过程向法官予以说明。

梁楚盟向南都记者介绍，AI大模型数据训练分为三个阶段：第一步是训练数据的收集和获取，并存储到特定数据库；第二步则对获取的数据进行预处理，使其符合训练模型的需要；第三步再将预处理后的图片压缩成数学表示，之后对数学表示进行部分遮掩，进而要求模型基于被遮掩的数学表示去预测完整的内容，使得大模型习得生成数学表示的能力。由于数学表示和图片之间存在一一对应关系，模型也就获得生成图片的能力。

合理使用存疑

2023年12月底，美国《纽约时报》提起诉讼，控告微软和OpenAI未经许可使用训练语料。而微软和OpenAI反驳称，使用公开可用的互联网材料训练AI模型属于合理使用。类似的大模型版权侵权诉讼在海外已上演多起，但迄今没有明确的裁判规则。

是否构成《著作权法》上的合理使用，同样成为“Trik AI”案认定侵权与否的前提判断之一。《著作权法》上规定了多种合理使用作品的情形，不过并未规定将作品用于大模型语料训练是否能落入合理使用范畴，法学界和产业界为此争议不断。

本案被告方在答辩意见中主张构成合理使用，但南都记者未能联系上两家伊普西龙公司详细了解其论证思路。

原告则提出，“合理使用”应当仅仅限制在不会对原作品市场和价值形成实质性损害的范围内。被诉侵权行为不仅削弱了原告已有作品的市场价值，严重挤占原告作品的潜在市场，甚至将直接导致原告从已有和未来作品中获取收益的能力大大降低。“这种对于原告这样以艺术创作为生的作者而言是致命打击的行为，完全不构成合理使用的情形。”

原告表示，即便是在法律边界可能尚不清晰、相关具体规则有待厘清的情况下，仅基于现有的法律体系，像被告这样的新技术开发者、使用者，就已经能够预判和评估其行为可能对他人合法权益造成的影响。被告在享受技术红利的同时，也应遵循法律规定，主动、审慎地在推动技术创新和保护他人权利之间寻求平衡。

南都记者注意到，中国的法学学者正利用《人工智能法》的制定契机，给出学界对数据合理使用规则的设计。

3月中旬，由中国政法大学数据法治研究院教授张凌寒领衔草拟的《人工智能法（学者建议稿）》提到，人工智能开发者使用他人享有著作权的数据进行模型训练时，如果该使用行为与数据原本的使用目的或功能不同，并且不影响该数据的正常使用，也没有不合理地损害数据权利人的合法权益，则该使用行为属于数据合理使用。人工智能开发者可以不经数据权利人许可，不向其支付报酬，但是应当以显著的方式标注数据来源。

“青团子”此前在微博上表示，在决定维权时，几位画师就约定好了不接受任何调解，一定要让案件结果白纸黑字留在判决书上。“如果赢了，以后行业也有个维权案例，对所有原创作者都有利；如果输了，我们起码知道了国内对AI的态度和标准。”

文｜杨柳