导读
在ICML25上,快手、上交联合提出统一多模态生成理解模型Orthus——基于自回归Transformer的无损图文交错生成新范式。Orthus 不仅在多个视觉理解指标上超越了Chameleon和Show-o等竞争模型,还在图像编辑、图文交错生成等任务上展现了强大的能力。目前代码已开源。
统一多模态生成理解模型是当前学术界和工业界的研究热点,在今年的ICML上,快手联合上海交通大学提出了一种支持图文交错生成的统一模型——Orthus。该模型基于自回归Transformer架构,能够从文生图、图到文等不同任务学习有价值信号。仅使用极少的计算资源,Orthus便在多个图像理解指标上超越了现有混合理解生成模型Chameleon和Show-o,并在文生图生成的GenEval指标上优于专用扩散模型SDXL。此外,Orthus还展现出强大的图文交错数据建模能力,在图像编辑和网页生成任务中展现出巨大潜力。目前Orthus已开源。
论文地址:https://arxiv.org/pdf/2412.00127
代码地址:ttps://github.com/zhijie-group/Orthus
模型地址:https://huggingface.co/SJTU-Deng-Lab/Orthus-7B-instruct
一、研究背景
将多模态图、文理解和生成任务统一整合到一套模型是当前的研究热点,然而已有方法都需要在以下几点中进行取舍:
统一的Transformer主干
对图像信号的高度保真
灵活的图文交错生成
例如,NExT-GPT[1]等“嫁接式”模型不能利用一个统一的transformer主干,存在建模冗余;纯自回归建模(见下图左侧,代表性工作如meta发布的Chameleon[2])将图像表示向量量化为离散词元带来了信息损失;自回归和扩散的联合建模(见下图中间,代表性工作如使用离散扩散Show-o[3]和连续扩散的Transfusion[4])由于扩散模型训练时的“加噪”特性,为同时训练图像理解和生成任务带来挑战。
我们在最新的研究里面解决了这一问题,构建了Orthus(上图右侧),一种基于自回归的无损图文交错生成式建模的新范式。
二、Orthus 主要特点
Orthus具有以下核心特性:
自回归Transformer主干;
处理离散的文本token和连续的图像feature;
基于线性层定义的language head和diffusion MLP定义的image head来分别生成文和图;
足够计算高效。
如下图所示,我们利用上述两个heads,将图片细节的扩散建模从Transformer主干中解耦。该设计使得主干网络能够专注于刻画文本与图像特征表示之间的关联,而将图像细节信号的恢复任务交由更专业的diffusion head完成。这样解耦既缓解了图像离散化表示带来的信息损失,又避免了端到端扩散建模与自回归机制之间的分歧。本质上,Orthus可以看作何恺明在图像生成领域的工作[MAR](https://arxiv.org/abs/2406.11838)向多模态领域上的拓展。
具体实现上,Orthus 由以下组件构成:一个文本分词器、一个视觉自编码器、两个特定模态的嵌入模块、一个Transformer 主干网络和两个特定模态的输出头。
三、训练方法
可以注意到,Orthus 与纯自回归模型的区别主要在视觉嵌入模块和输出头上,因此,我们设计了一种高效的 Orthus基模型训练策略——通过将现有纯自回归模型中的向量量化操作替换为一种软替代并引入扩散头,使用传统的扩散模型损失训练新增模块重建图像,就可以轻松构建Orthus基模型。
具体来说,诸如Chameleon等自回归模型使用向量量化的视觉变分编码器(VQ-VAE)和一个嵌入层将图像特征映射至Transformer输入空间。记变分编码器编码的连续图像特征为,其中为连续图像特征个数,为变分编码器的隐空间维度;VQ-VAE的词表为,其中为词表大小。纯自回归模型首先将离散化为:
其中是距离指标。再通过嵌入层将嵌入为维transformer输入向量
其中为嵌入层权重。 事实上,上述将连续特征映射至Transformer输入空间的过程可以用温度为0的softmax变换表示:
然而,温度趋近于0为模型引入了信号传递的瓶颈(Transformer不能直接看到raw image features )。因此,Orthus选择调高温度,这也实现了原始VQ-VAE词表与模型嵌入层的结合,形成一个更加平滑且可学习的视觉嵌入模块。这一做法的优势在于,既能利用纯自回归模型的预训练权重作为初始化,从而提高训练效率,又打破了原始向量量化带来的信息流动瓶颈。此外,相比于纯自回归模型中冻结的词表,可学习的词表也能够更好地适应多模态任务的学习。 在输出头方面,我们使用MLP扩散头预测下一个连续图像特征。具体来说,定义Transformer主干的输出向量为,扩散头为,其通过条件扩散模型预测,具体的扩散训练损失可以写为:
其中为带噪的图像特征。 在我们的实验中,我们选择了纯自回归模型为Chameleon-7B,并通过上述策略,使用扩散损失训练新增模块进行图像重建,从而高效地构建了Orthus基模型。此外,我们还调节了Chameleon-7B的VQ-VAE的解码器以更好地解码为真实图像。
四、模型效果
图像质量生产
下图展示了 Orthus 根据用户提示词生成的 512×512 分辨率图像样例。生成的图像展现出良好的艺术性和丰富的细节:
图文交错内容生成能力
Orthus 能够根据用户指令生成高度相关的图文交错内容(如故事书、网页)。我们在图文交错数据上对 Orthus 进行了微调(post-training)。如下图所示,Orthus 能够生成图文高度相关、且多张图像之间风格与内容保持良好一致性的混合排版内容。
图像编辑能力
下图展示了 Orthus 在图像编辑任务上的出色表现。特别值得注意的是,Orthus 展现了上下文学习(in-context learning)能力:仅通过提供任务示例(而非明确的编辑指令),模型便能成功执行图像编辑操作。这些用于上下文学习的示例并未包含在模型的训练数据集中。
多模态理解和生成性能
如以下两个表格所示,Orthus 在图像理解和图像生成任务上均取得了优异的效果。实验结果表明,得益于 Orthus 对图像的连续表示及扩散建模方法的优势,Orthus相较在同样的数据设定下微调的Chameleon表现更佳。
我们的实验发现,在 Orthus 框架下,多模态理解与生成任务的学习能够相互促进、相辅相成。这一发现有力支持了以下观点:构建统一模型架构同时进行理解与生成学习,可以有效提升图文数据对的利用效率。同时,这也揭示了借鉴 GPT 的预训练范式,利用图文交错数据端到端预训练统一多模态模型的可行性及其潜在的成功前景。
五、总结
本研究提出了一种基于自回归Transformer的无损图文统一理解与生成模型——Orthus。其核心在于:通过将共享Transformer主干网络的输出分发至不同模态的特定生成头部,实现跨模态内容的统一生成。Orthus 对视觉信号采用连续的表示与建模方式,有效保留了输入的完整性;其统一的建模框架(同时对离散文本 token 和连续图像特征进行自回归建模),使其在多种多模态理解与生成任务中表现出色。未来,我们将继续探索多模态统一理解与生成框架,持续推动该领域的发展,并为业界贡献更优的模型与思路。
参考文献:
[1] NExT-GPT: Any-to-Any Multimodal LLM
[2] Chameleon: Mixed-Modal Early-Fusion Foundation Model
[3] Show-o: One Single Transformer to Unify Multimodal Understanding and Generation
[4]Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model
”
欢迎加入
团队成员在ICML/NeurIPS/CVPR等国际Al顶会发表多篇研究成果。我们诚挚邀请您加入我们,一起加速大模型和AIGC技术在广告领域的基础研发和应用落地
「招聘岗位」
「欢迎加入」
简历投递:[email protected]
”
【相关阅读】
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...