如果说 2022 年是生成式人工智能的颠覆性潜力首次引起公众广泛关注的时刻,那么 2024 年则是其基础数据合法性问题成为渴望利用其力量的企业关注焦点的一年。
美国的合理使用原则以及长期以来允许学术和商业研究部门探索生成式人工智能的隐性学术许可,随着越来越多的剽窃证据浮出水面,变得越来越站不住脚。
因此,美国暂时不允许对人工智能生成的内容进行版权保护。
这些问题远未解决,也远未立即得到解决;2023 年,部分由于媒体和公众对人工智能生成输出的法律地位日益担忧,美国版权局对生成人工智能的这一方面展开了长达数年的调查,并于 2024 年 7 月发布了第一部分(有关数字复制品)。
https://copyright.gov/ai/Copyright-and-Artificial-Intelligence-Part-1-Digital-Replicas-Report.pdf
与此同时,商业利益集团仍然感到沮丧,因为他们希望利用的昂贵模型可能会在最终出台明确的立法和定义时使他们面临法律后果。
昂贵的短期解决方案是通过对公司有权利用的数据进行训练来使生成模型合法化。Adobe 的文本转图像(现在是文本转视频)Firefly 架构主要由其在 2014 年购买的 Fotolia 图片库提供支持,并辅以使用版权已过期的公共领域数据*。
与此同时,Getty 和 Shutterstock 等现任库存照片供应商已经利用其授权数据的新价值,通过越来越多的交易来授权内容或开发自己的符合 IP 标准的 GenAI 系统。
合成解决方案
由于从经过训练的人工智能模型的潜在空间中删除受版权保护的数据充满了问题,因此对于尝试使用机器学习的消费者和商业解决方案的公司来说,该领域的错误可能会付出高昂的代价。
对于计算机视觉系统(以及大型语言模型,或LLM )来说,一种替代的、更便宜的解决方案是使用合成数据,其中数据集由目标域的随机生成的示例组成(例如面部、猫、教堂,甚至更通用的数据集)。
诸如 thispersondoesnotexist.com 之类的网站很久以前就推广了这样一种观点,即可以合成看起来真实的“非真实”人物的照片(在这种特定情况下,通过生成对抗网络(GAN)),而不与现实世界中实际存在的人有任何关系。
因此,如果在这些抽象的非真实示例上训练面部识别系统或生成系统,理论上就可以获得 AI 模型的照片级逼真的生产力标准,而无需考虑数据是否合法使用。
平衡法案
问题在于,生成合成数据的系统本身就是用真实数据进行训练的。
如果这些数据的痕迹渗透到合成数据中,则可能证明限制性或未经授权的材料已被利用来牟利。
为了避免这种情况,并为了产生真正“随机”的图像,此类模型需要确保它们具有良好的泛化能力。
泛化能力是衡量经过训练的人工智能模型在不复制实际训练数据的情况下,从本质上理解高级概念(如“脸”、“男人”或“女人”)的能力的标准。
不幸的是,除非对数据集进行大量训练,否则经过训练的系统很难生成(或识别)细节。这使系统面临记忆风险:在一定程度上倾向于重现实际训练数据的示例。
可以通过设置更宽松的学习率来缓解这种情况,或者在核心概念仍然具有延展性且与任何特定数据点(例如,在面部数据集的情况下,某人的特定图像)不相关的阶段结束训练。
然而,这两种补救措施都可能导致模型细节不够精细,因为系统没有机会超越目标领域的“基础”并深入到细节。
因此,在科学文献中,通常采用非常高的学习率和全面的训练计划。
虽然研究人员通常会尝试在最终模型的广泛适用性和粒度之间做出妥协,但即使是稍微“记忆”的系统也常常会误认为它们具有良好的通用性——即使在初始测试中也是如此。
面容揭晓
这给我们带来了一篇来自瑞士的有趣的新论文,该论文声称首次证明可以从理论上完全随机的生成图像中恢复用于合成数据的原始真实图像:
从训练数据中泄露的示例人脸图像。在上面一行中,我们看到了原始(真实)图像;在下面一行中,我们看到了随机生成的图像,这些图像与真实图像明显一致。
作者认为,结果表明“合成”生成器确实记住了大量训练数据点,以寻求更大的粒度。他们还指出,依赖合成数据来保护人工智能生产者免受法律后果的系统在这方面可能非常不可靠。
研究人员对六个最先进的合成数据集进行了广泛的研究,证明在所有情况下都可以恢复原始(可能受版权保护或受保护)数据。
他们评论道:
我们的实验表明,最先进的合成人脸识别数据集包含的样本与其生成器模型的训练数据中的样本非常接近。在某些情况下,合成样本对原始图像进行了微小的更改,但是,我们也可以观察到在某些情况下生成的样本包含更多变化(例如,不同的姿势、光线条件等),同时保留了身份。
这表明生成器模型正在从训练数据中学习和记忆与身份相关的信息,并可能生成类似的身份。这引发了人们对合成数据在隐私敏感任务(如生物识别和人脸识别)中的应用的严重担忧。
这篇论文题为《揭示合成面孔:合成数据集如何揭露真实身份》
https://arxiv.org/pdf/2410.24015
由马蒂尼 Idiap 研究所、洛桑联邦理工学院 (EPFL) 和洛桑大学 (UNIL) 的两名研究人员撰写。
方法、数据和结果
研究中记忆的面孔是通过成员推理攻击揭示的。虽然这个概念听起来很复杂,但它相当不言自明:在这种情况下,推断成员是指质疑系统的过程,直到它揭示出与你正在寻找的数据相匹配或与之非常相似的数据。
来自研究的推断数据源的更多示例。在本例中,源合成图像来自 DCFace 数据集。
研究人员研究了六个合成数据集,这些数据集的(真实)来源是已知的。由于所涉及的真实数据集和虚假数据集都包含大量图像,因此这实际上就像大海捞针。
因此,作者使用了现成的面部识别模型†,该模型以ResNet100为主干,并在AdaFace 损失函数(在WebFace12M数据集上)上进行训练。
使用的六个合成数据集分别是:DCFace(潜在扩散模型);IDiff-Face(Uniform——基于 FFHQ 的扩散模型);IDiff-Face(Two-stage——使用不同采样方法的变体);GANDiffFace(基于生成对抗网络和扩散模型,使用StyleGAN3生成初始身份,然后使用DreamBooth创建各种示例);IDNet(一种 GAN 方法,基于StyleGAN-ADA);和SFace(身份保护框架)。
由于 GANDiffFace 同时使用了 GAN 和扩散方法,因此将其与 StyleGAN 的训练数据集进行了比较——该网络提供的最接近“真实面部”来源。
作者排除了使用 CGI 而非 AI 方法的合成数据集,并且在评估结果时由于儿童的分布异常而降低了匹配率,以及非面部图像(这在面部数据集中经常发生,其中网络抓取系统会对具有类似面部特征的物体或人工制品产生假阳性)。
计算所有检索到的对的余弦相似度,并将其连接成直方图,如下所示:
直方图表示在不同数据集中计算的余弦相似度分数,以及前 k 对的相似度相关值(虚线垂直线)。
相似度的数量用上图中的尖峰表示。本文还提供了六个数据集的样本比较,以及原始(真实)数据集中相应的估计图像,其中一些选择如下:
从源论文中重现的众多实例中抽取的样本,可供读者进行更全面的选择。
论文评论道:
生成的合成数据集包含与其生成器模型的训练集非常相似的图像,这引发了人们对此类身份生成的担忧。
作者指出,对于这种特定方法,扩展到更大容量的数据集可能效率不高,因为必要的计算将非常繁重。
他们进一步观察到,视觉比较对于推断匹配是必要的,而单靠自动面部识别可能不足以完成更大的任务。
关于该研究的意义以及未来的发展方向,该研究指出:
我们想强调的是,生成合成数据集的主要动机是为了解决使用大规模网络爬取人脸数据集时的隐私问题。
因此,合成数据集中任何敏感信息(例如训练数据中真实图像的身份)的泄露都会引起人们对将合成数据应用于隐私敏感任务(例如生物识别)的严重担忧。
我们的研究揭示了合成人脸识别数据集生成过程中的隐私陷阱,并为未来生成负责任的合成人脸数据集的研究铺平了道路。”
尽管作者承诺在项目页面上发布该工作的代码,但目前没有存储库链接。
https://www.idiap.ch/paper/unveiling_synthetic_faces/
最近,媒体的注意力集中于利用人工智能生成的数据训练人工智能模型所获得的收益递减。
然而,瑞士的这项新研究聚焦于一个问题,对于越来越多希望利用生成式人工智能并从中获利的公司来说,这个问题可能更为紧迫——受知识产权保护或未经授权的数据模式仍然存在,即使在旨在打击这种做法的数据集中也是如此。
如果我们必须给它一个定义,在这种情况下,它可能被称为“洗脸”。
*然而,Adobe 决定允许用户将 AI 生成的图像上传到 Adobe Stock,这实际上破坏了这些数据的法律“纯度”。彭博社在 2024 年 4 月声称,MidJourney 生成 AI 系统的用户提供的图像已被纳入 Firefly 的功能。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...