微信iMatch技术国际赛事夺冠,如何攻克AI图文匹配评估难题?
一、任务背景
近年来,文生图(T2I)模型技术迅速发展,催生了Dreamina、DALL·E3和Midjourney等热门工具。它们能够精准理解用户的prompt(提示词),将简短描述转化为高质量且富有美感和一致性的图像。这一技术显著降低了创作门槛,提升了效率和趣味性,让艺术创作、广告设计及日常分享变得更加简单直观。文生图技术的普及,为数字内容创作开辟了全新可能性。然而,如何评估文生图模型的性能,特别是在图文匹配度/美学/结构完整性方面,一直是一个巨大的挑战。传统评估方法已无法全面衡量图像与文本的匹配度,多模态大模型对结构问题的挖掘能力也存在很大不足。AI生成图像质量评估挑战比赛(Text to Image Generation Model Quality Assessment )是由抖音、南开大学在CVPR 2025 Workshop上举办的比赛,旨在促进AI生成质量评测研究,并开发强大的图文匹配基准,以助力提升AI生成符合人类细粒度需求的跨模态内容的技术演进。接下来我们将重点介绍track1赛道的工作:基于细粒度图文匹配度的生成图像质量评估。
比赛链接:
二、赛事介绍
2.1 数据集
本次比赛采用的数据集为EvalMuse,这是主办方此前发布的业界规模最大的文本到图像(Text-to-Image, T2I)生成评估基准。比赛版本包含 40K 个图文对(image-text pairs) ,其图像数据由 20 个主流 T2I 生成模型 基于 4K 个多样化文本提示(prompts)生成。主办方提供了图文匹配度打分(prompt level)和细粒度图文匹配度打分(element level)的标签来进行训练/测试,具体内容可见。
开发阶段评价数据:约10k image-text pairs
测试阶段评价数据:约5k image-text pairs
表1. EvalMuse数据集举例(综合分数1-5分,元素分数0/1,4 pcs)
2.2 评价规则
比赛评价主要是通过采用主评分(Main Score)作为参赛队伍的排名依据。针对模型预测的对齐分数,使用斯皮尔曼等级相关系数(SRCC)和皮尔逊线性相关系数(PLCC)进行评估,SRCC用于衡量预测的单调性,而PLCC则衡量预测的准确性。针对模型预测对元素描述的正确性,使用准确率(ACC)来评估。更优秀的图像、图文质量评估(IQA)方法应具备更高的SRCC,PLCC和ACC,指标具体解释如下:
(i) 使用斯皮尔曼等级相关系数(SRCC)评估预测的单调性;
(ii) 使用皮尔逊线性相关系数(PLCC)评估预测的准确率;
(iii) 使用ACC来评估元素被正确描述的准确率。
用于排名的最终得分是通过结合上述指标计算得出的:
2.3 比赛阶段
本次比赛分为两个阶段,即开发阶段和测试阶段。
➢ 开发阶段(1.30-3.14):主办方发布了 30K 个图像-文本对用于训练, 10K 个图像-文本对用于测试。参赛者可以将他们的提交上传到挑战平台,并获得最终得分,该阶段一共吸引了 371 只队伍注册,收到了1883份有效提交。
➢ 测试阶段(3.14-3.22):主办方发布了 5K 个图像-文本对用于测试,训练集沿用Development的数据。测试排行榜是隐藏的,每个团队可以单独观察各自的测试结果。本次比赛的排名基于测试阶段的最终得分。在测试阶段,共收到 507 份提交,最终,12 个团队提交了事实表和源代码,用于最终排名。
三、团队解法介绍
基于赛题的背景和需求,我们团队在比赛过程中总结了对比赛提点有收益的技巧,iMatch的技术优势源于本节的四项核心创新。
3.1 双模型驱动并增强模型内在联系
经过深入分析赛题评估体系,我们识别出两套相互独立的评分指标:综合评分Total_score(基于SRCC和PLCC计算,简称PS指标)和元素级评分Element_score(基于ACC计算)。在模型训练过程中,我们发现不同模型在两类指标上存在明显的性能分化:部分模型在PS指标上表现优异,而另一些模型则在ACC指标上更具优势。基于这一发现,我们创新性地提出了选择性分数融合策略,即分别训练专攻PS指标和ACC指标的模型,并通过最优分数组合来提升最终得分。为验证该方案的有效性,我们系统地设计了指令优化实验,图4展示了实验过程中使用的具体查询指令(Query)及其迭代过程。
在指令实验中,我们还创新性发现可以将Element的结果作为已知结果来作为特征之一,一起指导PS的分数,这个发现也获得了一些性能收益。
3.2 基于初赛伪标签的数据增强
比赛过程中,我们一直在思考一个问题:如何将比赛的数据集用到极致?比赛中有两个阶段,第一个阶段是初赛期(Development),第二个阶段是复赛期(Final)。初赛期的测试集数据和复赛期的测试集数据是不同的,对我们来说都是没有正确答案的数据。但是,我们在想如何能利用一下初赛的测试数据来加强复赛期的效果?因此我们做了大量的数据尝试,利用我们初赛性能最好的模型为初赛期测试集生成伪标签,然后提取一定比例的数据,加入到原训练集中进行混合训练,目的是试图增强整个训练阶段数据,让模型有机会学到更多细节。这种以初赛验证集作为伪标签的数据增强实验也让我们取得了一定的实验性能收益。
3.3 优化Q-Align概率映射策略
得益于IH-VQA团队在VQA领域的长期对先进工作的跟进与积累,我们在去年《解锁视频号画质提升奥秘——微信IH-VQA的创新与实践》一文中已经向大家介绍了我们在VQA-LMM方向的SOTA工作研究跟进和优化情况(下面节选上文第五章5.2小节相关内容):
我们发现Q-Align探索了如何教导大型多模态模型(LMMs)以与人类意见相一致的视觉评分。通过模拟人类评分者的评分过程,并用文本定义的评级级别来教导LMMs,而不是分数。在这篇工作中,它的核心内容是“评分级别与分数之间的转换”:
其中:
在模型中,Q-Align设计了这样的对话格式:将图像token表示为<img>,将图像或视频的评分级别转换表示为<level>,每个任务的示例对话格式如下:
#用户:<img>给这个视频评分一下质量。
#助手:这个视频的质量是<level>。
我们将这个思想平移到AI图文评测领域,发现Q-Align这种基于概率分布的增强策略在此领域依然有效。
最终,我们将字母和数值进行1-15的映射,并进行概率加权计算,最后生成了连续的分数。此策略也在后续实验中被证明提升了整体的实验性能。
3.4 基于训练集图片的视觉数据增强
基于图文数据增强和概率分布增强外,我们还发现传统的CV视觉增强在AI图像数据集增强依然有效,但是和传统视觉增强略有区别。传统的旋转增强是不适用于本次任务的,因为任务中有大量的text出现了position的信息,如:left、right、up、bottom等。经过后续实验,我们最终选择亮度调整、轻微形变、轻微裁剪来适度增强我们的视觉数据,在实验中也取得了一定的性能收益:
四、比赛成绩
经过两轮激烈角逐,我们IH-VQA团队最终从众多参赛队伍中脱颖而出,成功摘得本次赛事冠军。相关技术方案已形成完整论文,被计算机视觉顶级会议CVPR 2025 Workshop收录,并且受邀在CVPR NTIRE 2025 会议现场做Oral Presentation。
值得一提的是,本次参赛队伍中包括SJTU-MMLab等在VQA领域具有深厚积淀的知名研究团队,侧面印证了AI图文质量评估正成为行业技术竞争的前沿阵地。相较于去年VQA视频质量评估赛事中与冠军失之交臂的遗憾,今年我们基于持续一年的技术攻坚与业务实践,不仅实现关键技术突破,更在全新设立的AI评价赛道完成弯道超车,确立了腾讯WXG在音视频质量算法领域的领先地位。
在核心评测指标方面,我们的模型在SRCC(+2.4%)、PLCC(+1.6%)、ACC(+0.4%)等三项关键指标上均显著领先第二名,刷新了当前领域性能基准。
秉承"竞合相长"的理念,我们始终保持开放的技术交流态度,通过内部协同创新和外部学术合作不断优化技术体系。未来IH-VQA团队将持续深耕VQA与AI质量评估领域,重点突破多模态质量评价、实时质量监测等关键技术,为平台内容生态建设提供更精准的智能质量保障。
五、iMatch Benchmark
为充分发挥iMatch在图文细粒度匹配评估中的优势,我们对当前主流T2I模型进行了统一评估,提出了iMatch-Benchmark,为文生图领域的研究和落地提供了可靠的性能参考。
5.1 评测集构建
赛事官方提供的评测数据集包含10,671条图文对,其文本查询具有广泛的语义覆盖范围,能够全面评估T2I模型的生图能力。然而,如图9所示,该数据集中各T2I模型对应的图文对数量存在显著不均衡分布。这种样本量的差异性可能导致T2I模型性能评估产生系统性偏差。
因此,我们基于赛方提供的文本查询,构建了一个更公平、全面的多维度评测基准。我们复现了原始评测集的T2I模型,同时引入当前最先进的代表性模型,最终形成包含23个模型的评测集合。这些模型在统一条件下(默认参数、固定随机种子)对913条标准文本查询进行1024x1024分辨率的图像生成。特别地,针对其中18个开源模型(其余5个闭源模型因测试条件受限,未纳入核心测试列表),我们扩展了512×512、768×768两种分辨率的生成测试,为后续研究不同分辨率下的生成质量差异提供了重要数据支撑。最终形成的增强型评测集包含53,867个严格控制的图文对,在模型覆盖度、分辨率维度和数据规模等方面显著提升了评估的完备性。图10和图11展示了评测集中的代表性样例。
5.2 结果分析
我们基于iMatch评估框架对各模型进行了细粒度图文匹配能力评测。首先,按照官方推荐的分辨率设置进行评估:SD_v1.2、SD_v1.5、SD_v2.1和SDXL-Turbo模型采用512×512分辨率,其余模型使用1024×1024分辨率,以考察23个模型在标准配置下的性能表现。具体的评测得分如图12所示。字节跳动公司最新提出的文生图模型seedream-3.0在整体分数和10项元素分上均表现出明显的领先优势,而文生图领域的新兴独角兽智象未来提出的HIDREAM则同样表现不凡,尤其在"其他"和"食物"两项细粒度评测上排名第一。
鉴于实际应用中对图像生成分辨率的需求具有多样性(例如,高分辨率图像适用于精细化任务,而低分辨率更适合快速生成场景),评估模型在不同分辨率下的图文细粒度匹配能力显得尤为重要。为此,我们针对18个开源文生图模型(另外5个闭源模型无法详细测试,因此暂未列入核心测试模型列表),系统评估了它们在 512×512、768×768 和 1024×1024 三种分辨率下的图像生成表现。
如图 13所示,HIDREAM 模型在所有三个分辨率上均取得最高得分,展现出稳定且领先的性能表现。尤其在并非其推荐分辨率的 768×768 设置下,HIDREAM 仍然领先第二名 SD3 模型 0.296 分,优势明显。在细粒度元素匹配方面,我们对 个模型在 12 个细粒度元素维度上的得分进行了平均,以衡量其综合细粒度建图能力,结果如图14所示。可以看到,HIDREAM 在 768 × 768 分辨率下依然稳居首位;而在较低的 512 × 512 分辨率下,SD3 模型略微领先。综上所述,智象未来推出的 HIDREAM 模型在开源文生图模型中展现出极强的图文细粒度匹配能力,具有显著的竞争优势。
展望未来,我们将依然保持赤子之心,继续深耕音视频质量评估技术,迎接AI对音视频质量评估带来的新挑战,努力构建起面向复杂场景的AI图文与AI音视频的质量评估体系。
道阻且长,行则将至。愿与各位同学互相交流学习,共同进步!
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...