视觉末日或许即将来临,但或许“眼见未必为实”。
2022 年春季,OpenAI 推出的 DALL-E 2 标志着人工智能领域的一个转折点,当时文本到图像的生成突然对一部分用户开放,创建了一个由数字探索者组成的社区,他们在体验这项技术自动化视觉创作的同时,也经历了惊奇与争议。
但与许多早期的 AI 系统一样,DALL-E 2 在一致的文本渲染方面存在困难,经常在图像中生成乱码的单词和短语。它在遵循包含多个元素的复杂提示时也存在局限性,有时会遗漏关键细节或曲解指令。这些不足为 OpenAI 在后续迭代中进行改进留下了空间,例如在 2023 年推出的 DALL-E 3。
周二,OpenAI 宣布了直接集成到其 GPT-4o AI 语言模型中的全新多模态图像生成功能,使其成为 ChatGPT 界面中的默认图像生成器。这种名为“4o 图像生成”(以下简称“4o IG”)的集成使模型能够更准确地遵循提示(文本渲染效果优于 DALL-E 3),并根据聊天上下文响应图像修改指令。
由 OpenAI 的 4o 图像生成模型创建的一只在车内喝啤酒的 AI 生成猫咪图像。
由 OpenAI 的 4o 图像生成模型创建的亚伯拉罕·林肯举着 “Ars Technica” 标志的 AI 生成照片。
由 OpenAI 的 4o 图像生成模型创建的“一个带武器的肌肉野蛮人站在 CRT 电视机旁,电影级,8K,工作室照明”的 AI 生成图像。
由 OpenAI 的 4o 图像生成模型创建的“宇宙女王”AI 生成图像。
由 OpenAI 的 4o 图像生成模型创建的一盘泡菜的 AI 生成图像。
在 ChatGPT 中使用 OpenAI 的 4o 图像生成模型生成的一台拥有 1000 个 RGB 灯的游戏电脑。
这项新的图像生成功能已于周二开始向 ChatGPT 免费版、Plus 版、Pro 版和团队用户推出,企业版和教育版将在稍后推出。该功能也可在 OpenAI 的 Sora 视频生成工具中使用。OpenAI 告诉 Ars,当在 ChatGPT 界面中选择 GPT-4.5 时,图像生成调用的是与选择 GPT-4o 相同的基于 4o 的图像生成模型。
像之前的 DALL-E 2 一样,4o IG 必将引发争论,因为它将曾经属于科幻小说和熟练人类创作者的复杂媒体操纵能力转变为一个人们可以通过简单文本提示使用的便捷 AI 工具。它也可能引发新一轮关于艺术风格和版权的争议——但更多相关内容将在下文讨论。
4o IG 可以改变我们对媒体现实的感知。给定这张狗的真实照片……
……AI 模型可以以逼真的方式改变狗的行为,例如与插入场景中的虚拟小狗玩耍。
一些社交媒体用户最初报告了困惑,因为没有用户界面指示哪个图像生成器处于活动状态,但如果生成速度非常慢并且从上到下进行,您就会知道它是新模型。之前的 DALL-E 模型仍然可以通过专用的“DALL-E GPT”界面使用,而 GPT-4o 图像生成的 API 访问预计将在几周内推出。
真正的多模态输出
4o IG 代表着向“原生多模态图像生成”的转变,其中大型语言模型直接将图像数据作为标记进行处理和输出。这是一件大事,因为这意味着图像标记和文本标记共享同一个神经网络。它为图像创建和修改带来了新的灵活性。
尽管在 2024 年 5 月 GPT-4o 推出时就内置了多模态图像生成功能——当时 GPT-4o 中的“o”被吹捧为代表“omni”(全能),以突出其理解和生成文本、图像和音频的能力——但 OpenAI 花了 10 多个月的时间才向用户提供该功能,尽管 OpenAI 总裁 Greg Brock 去年在 X 上预告了该功能。
OpenAI 很可能是受到谷歌上周发布的基于多模态 LLM 的图像生成器“Gemini 2.0 Flash (Image Generation) Experimental”的刺激。科技巨头们继续进行他们的人工智能军备竞赛,彼此试图超越对方。
也许我们知道 OpenAI 等待的原因:在合理的分辨率和细节水平下,新的 4o IG 过程非常慢,每张图像需要 30 秒到 1 分钟(或更长时间)。
在 ChatGPT 中使用 OpenAI 的 4o 图像生成模型生成的四格漫画。
在 ChatGPT 中使用 OpenAI 的 4o 图像生成模型为四格漫画中的男子添加胡须。
即使它很慢(目前),使用纯自回归方法生成图像的能力对于 OpenAI 来说也可以说是向前迈出了一大步,因为它具有灵活性。但它也非常消耗计算资源,因为模型逐个标记地生成图像,依次构建它。这与基于扩散的方法(如 DALL-E 3)形成对比,后者从随机噪声开始,并在多次迭代步骤中逐渐细化整个图像。
对话式图像编辑
在一篇博文中,OpenAI 将 4o 图像生成定位为超越了早期 AI 图像生成器所见的“超现实、令人惊叹的场景”的生成,而是转向创建用于交流的“实用图像”,如徽标和图表。
该公司特别提到了图像中改进的文本渲染,这是以前的文本到图像模型经常出现严重失败的功能,经常将“生日快乐”变成类似外星象形文字的东西。
OpenAI 声称有几个关键改进:用户可以通过对话改进图像,同时保持视觉一致性;系统可以分析上传的图像并将它们的细节合并到新的生成中;它提供了更强的照片级真实感——尽管什么是照片级真实感(例如,HDR 相机功能的模仿、细节级别和图像对比度)可能是主观的。
OpenAI 的 4o 图像生成模型在 ChatGPT 中的屏幕截图。我们看到现有的野蛮人与电视机的 AI 生成图像,然后是点燃电视机的请求。
在其博文中,OpenAI 提供了图像生成器的预期用途示例,包括创建图表、信息图表、使用特定颜色代码的社交媒体图形、徽标、指导海报、名片、具有透明背景的自定义库存照片、编辑用户照片或可视化聊天对话中先前讨论的概念。
值得注意的是,没有任何提及可能会受到这项技术影响的艺术家和平面设计师。正如我们在 2022 年和 2023 年所报道的那样,工作影响仍然是 AI 生成图形批评者最关心的问题。
流畅的媒体操纵
在 OpenAI 推出 4o 图像生成后不久,X 上的 AI 社区就对该功能进行了测试,发现它能够将某人的面部插入现有图像、创建虚假屏幕截图并将模因照片转换为吉卜力工作室、南方公园、毛绒玩具、瑞克与莫蒂、恶搞之家等风格。
看起来,我们正在进入一个完全流畅的媒体“现实”,得益于一个可以轻松将视觉媒体在不同风格之间转换的工具。这些风格也可能侵犯受保护的知识产权。鉴于吉卜力工作室联合创始人宫崎骏之前对 AI 生成艺术作品的看法(“我强烈感觉这对生命本身是一种侮辱”),看来他目前不太可能欣赏 X 上流行的 AI 生成吉卜力风潮。
X 上的人们将互联网模因转换为“吉卜力工作室”风格的艺术。
为了了解 4o IG 的功能,我们进行了些非正式测试,包括一些常见的 CRT 野蛮人、宇宙女王和喝啤酒的猫,您已经在上面看到了(当然,还有那盘泡菜)。
带有新 4o 图像模型的 ChatGPT 界面是对话式的(就像之前的 DALL-E 3 一样),但您可以随着时间的推移建议更改。例如,我们使用了作者的 EGA 像素头像(就像我们上周对谷歌的模型所做的那样),并试图给它一个完整的身体。可以说,谷歌功能更有限的图像模型比 4o IG 做得更好。
在 ChatGPT 中使用 OpenAI 的 4o 图像生成模型为作者的像素头像添加身体。
尽管我的像素头像是由非常人性化(且有才华)的 Julia Minamata 在 2020 年委托制作的,但我也尝试将我头像的灵感图像(其中包括我和传奇游戏工程师 Ed Smith)转换为 EGA 像素风格,看看会发生什么。在我看来,结果证明了人类艺术性和对细节的关注的持续优越性。
使用 OpenAI 的 4o 图像生成模型在 ChatGPT 中将 Benj Edwards 和传奇游戏工程师 Ed Smith 的照片转换为 “EGA 像素艺术”。
我们还尝试看看 4o 图像生成器能在一张图像中塞入多少物体,这一灵感来自 Nathan Shipley 在 DALL-E 3 发布后不久的 2023 年推文。我们没有计算每一个物体,但看起来大多数都在。
使用 OpenAI 的 4o 图像生成模型在 ChatGPT 中生成一张冲浪者手持大量物品的图像,灵感来自 Nathan Shipley 在 2023 年的 Twitter 帖子。
在社交媒体上,其他人已经使用 4o IG 操纵图像(如 Simon Willison 的熊自拍),所以我们尝试更改去年一篇文章中出现的 AI 生成的笔记。效果相当不错,尽管它并未真正模仿所请求的书写风格。
使用 OpenAI 的 4o 图像生成模型在 ChatGPT 中修改图像中的文本。
为了进一步测试文本生成,我们使用 ChatGPT 生成了一首关于野蛮人的诗,然后将其输入图像提示。结果感觉大致相当于基于扩散的 Flux 的能力——也许稍好一些——但仍有一些明显的错误,例如字母重复。
在 ChatGPT 中使用 OpenAI 的 4o 图像生成模型测试文本生成。
我们还测试了该模型创建包含我们最喜欢的虚构 Moonshark 品牌徽标的能力。这里未展示的一个徽标以带有 alpha 通道的透明 PNG 文件形式交付。这可能在紧急情况下对一些人有用,但在价格为 $o(不包括 OpenAI 订阅)的情况下,模型可能会生成“足够好”(不算出色,但乍看之下还可以)的徽标,可能会与一些人类徽标设计师竞争,这很可能会引起专业艺术家们的一些不安。
使用 OpenAI 的 4o 图像生成模型在 ChatGPT 中生成一个 “Moonshark Moon Pies” 徽标。
坦率地说,这个模型太慢了,我们在需要发布这篇文章之前没有时间测试所有功能。它可以做的远不止我们在这里展示的——比如向场景中添加物品或移除它们。我们可能会在未来的文章中探索更多功能。
限制
到目前为止,您已经看到,与之前的 AI 图像生成器一样,4o IG 在质量上并不完美:它始终以不正确的尺寸渲染作者的鼻子。
除此之外,虽然这是有史以来功能最强大的 AI 图像生成器之一,但 OpenAI 公开承认该模型存在重大局限性。例如,4o IG 有时会将图像裁剪得太紧,或者在模糊提示或渲染其训练数据中未遇到的主题时包含不准确的信息(虚构)。
该模型在同时渲染超过 10-20 个对象或概念时也往往会失败(使得生成准确的元素周期表等任务目前无法实现),并且难以处理非拉丁文字字体。图像编辑在多次传递中目前不可靠,OpenAI 表示计划很快修复影响面部编辑一致性的特定错误。它不擅长处理密集的图表或准确渲染图形或技术图表。在我们的测试中,4o 图像生成器产生了大部分准确但有缺陷的电子电路图。
快速行动,打破一切
即使存在这些限制,多模态图像生成器也是迈向更广阔的完全可塑媒体现实世界的早期一步,在这个世界中,任何像素都可以按需进行操作,而无需任何特定的照片编辑技能。这带来了潜在的好处、伦理陷阱和可怕滥用的可能性。
与 DALL-E 的显著转变是,OpenAI 现在允许 4o IG 生成成年公众人物(而非儿童)的图像,并采取某些安全措施,同时允许公众人物根据需要选择退出。与 DALL-E 一样,该模型仍然会阻止违反政策的内容请求(例如图形暴力、裸体和性内容)。
4o 图像生成器模仿名人肖像、品牌徽标和吉卜力工作室电影的能力强化并提醒我们,GPT-4o 部分(除了一些获许可的内容外)是通过大规模抓取互联网而成的产品,未考虑版权或艺术家的同意。这种大规模抓取的做法过去已经导致针对 OpenAI 的诉讼,我们不会感到惊讶,如果有更多的诉讼或至少来自名人(或其遗产)的公开投诉,关于他们的肖像可能被滥用。
在 X 上,OpenAI 首席执行官 Sam Altman 写道,谈到公司对 4o IG 的有些不在乎的立场:“这代表了我们在允许创造自由方面的新高峰。人们将会创造一些非常惊人的东西,也会有一些可能冒犯他人的东西;我们的目标是,除非您希望如此,否则该工具不会创建冒犯性的内容,在合理范围内,它会这样做。”
作者旁边的原始照片与由 OpenAI 的 4o 图像生成模型创建的 AI 生成图像。从左到右:吉卜力工作室风格、布偶风格和意大利面风格。
作者旁边的原始照片与由 OpenAI 的 4o 图像生成模型创建的 AI 生成图像。从第二左到右:吉卜力工作室风格、布偶风格和意大利面风格。
总的来说,GPT-4o 的图像生成模型(以及其背后的技术,一旦开源)似乎进一步侵蚀了对远程制作媒体的信任。虽然我们一直需要通过上下文和可信来源来验证重要媒体,但这些新工具可能进一步扩大了在 AI 时代已成为必要的“深度怀疑”媒体怀疑论。通过将照片级真实感的图像操纵开放给大众,更多的人能够无需专业技能就能创建或更改视觉媒体。
虽然 OpenAI 在所有生成的图像中包含了 C2PA 元数据,但这些数据可能会被剥离,并且在欺骗性的社交媒体帖子中可能并不重要。但 4o IG 并未改变一直以来的事实:我们主要通过信息传递者的声誉来判断信息,而不是通过像素本身。伪造在 AI 之前就已经存在。它强化了每个人都需要具备媒体素养技能——理解上下文和来源验证一直是媒体真实性的最佳裁决者。
目前,Altman 准备好承担将这项技术释放到世界上的风险。“正如我们在模型规格中所讨论的,我们认为将这种智力自由和控制权交到用户手中是正确的做法,但我们将观察其发展并倾听社会的声音,”Altman 在 X 上写道。“我们认为尊重社会最终为 AI 设定的非常广泛的界限是正确的做法,并且随着我们越来越接近 AGI,这一点变得越来越重要。在我们解决这一问题的过程中,提前感谢大家的理解。”
关注【黑客联盟】带你走进神秘的黑客世界
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...