此篇文章发布距今已超过206天,您需要注意文章的内容或图片是否可用!
在第九届NTIRE研讨会(即CVPR NTIRE 2024)上,首届短视频质量评价学术竞赛结果重磅揭晓。本次挑战赛吸引了共计200多个团队报名,历时3个月,经过开发、测试、最终提交等阶段的激烈角逐,SJTU MMLab、IH-VQA和TVQE三支队伍斩获大赛前三名。
短视频已然成为不可替代的主流媒体形式之一。得益于较低的创作成本、丰富的创作模式、以及短而精的创作内容,它极大丰富了人们的生活。然而,在短视频创作、上传、到传输的全过程中,复杂的处理流程和多样的创作环境导致短视频质量差异较大。因此,如何有效衡量短视频的主观质量成为影响短视频平台发展的一个重要挑战。为了有效应对这一挑战,快手音视频技术部(快手科技有限公司)联合智能媒体计算实验室(中国科学技术大学)举办了首届短视频质量评价学术竞赛,以推动短视频领域质量评价算法的研发,让更多研究者深入了解短视频数据的产生过程,从而促进短视频媒体领域的持续发展。图1: KVQ短视频数据集内容示例
近年来,短视频UGC视频平台取得了突破性的进展,数十亿用户积极上传和分享他们的UGC视频,内容涵盖个人生活、专业技能和教育等广泛领域。尽管如此,由于非专业拍摄或码率限制,短视频的主观质量存在大幅波动,迫切需要开发针对短视频质量的有效评估系统。如上图所示,短视频质量评估存在两个主要挑战,阻碍了现有视频UGC质量评价方法的应用:(i)存在海量的创作/生成模式,例如特效、三段式(请见图1)和各种内容,包括肖像、风景、食物等,这阻碍了VQA模型准确识别决定质量的区域/内容。(ii)复杂的处理流程,例如转码和增强,以及用户上传的视频中存在的复杂失真,给视频质量评价模型评估短视频质量造成了很大的挑战。为了促进短视频领域的发展,中国科学技术大学智能媒体实验室联合快手音视频技术部从快手播放平台收集并标注了4200个具备代表性的短视频,构成短视频质量评价数据KVQ[1](Kwai Video Quality Assessment Database)。其中收集流程如下:图2: KVQ短视频数据集收集处理流程
该数据集包含短视频中多种典型的创作模式,例如三段式、特效、字幕、直播模式以及其他传统创作模式。同时涵盖了短视频平台视频处理的三大类典型处理流程,即不同类型的增强、前处理、以及转码方式,极具代表性和可应用性。
图3: KVQ短视频数据集中不同转码配置的视频示例
本次比赛采用名为KVQ的大型短视频质量评价数据集,该数据集由快手公司授权采集,联合中国科学技术大学进行数据集标注和标准化。包含风景、人群、食物、肖像等9个内容场景,其中每个内容比例按照快手短视频平台在线统计量制定, 共计4200个短视频。具体来说,训练集、验证集、测试集按照70%, 10%和20%划分。
在模型开发阶段,训练集和验证集被提供,参赛者可借助训练集训练模型,并通过官方提供的提交示例,在CodaLab服务器注册提交进行评估。在测试阶段,竞赛组织方将会公布测试集,最终比赛成绩由比赛组织方以测试集上性能结果进行排名。
比赛采用质量评价中常用的SROCC和PLCC指标,分别衡量预测结果的保序性和准确性。除此之外,得益于KVQ数据集针对困难样本对提供的质量排序(ranking)信息,模型针对同源样本对(Rank1)和非同源样本对(Rank2)相对质量预测的准确性也被纳入整体评价指标。
我们提供了基线模型的测试结果,包括VSFA[2]、SimpleVQA[3]、FastVQA[4],详情可见下表。相较于基线结果,前10名的队伍显著提升了质量评价的预测结果,展现了算法探索和应用的巨大潜力。最终,我们为前三名颁发了获奖证书:第一名(Winner Award):SJTU MMLab团队;
第二名(2nd Place Award):IH-VQA团队;
第三名(3rd Place Award):TVQE团队。
表1: 比赛最终的测试结果
由上海交通大学、南洋理工大学和小红书共同组成的SJTU MMLab团队提出使用基于Swin-Transformer的结构来获取空域特征表示和基于SlowFast的时域特征表示,整个框架如图4所示。鉴于KVQ数据集中多样的视觉内容和复杂的失真,他们结合了三个BI/VQA模型:LIQE、Q-Align[5]和FAST-VQA,以提取全面的质量感知特征来辅助模型。图4: 第一名SJTU MMLab团队所采用的网络结构
来自微信的IH-VQA团队提出了一种基于集成的VQA系统,如图5所示,由七个不同的专家模型组成,即四个回归专家模型和三个分类专家模型。这些分类模型对给定的视频帧进行评分,并将他们的投票平均作为最终预测。为了应对不同帧内的质量差异问题,他们设计了一种新颖的损失函数,即目标质量标签与多个帧预测均值之间的平均绝对误差,与交叉熵损失共同使用。图5: 第二名IH-VQA团队所采用的基于聚合的质量评价方案
由腾讯和武汉大学共同组成的TVQE团队提出了一种混合模型,如图6所示,它结合了两个多模态模型来提取视觉信息和语义信息,并使用经典的卷积神经网络来捕捉技术和美学质量。它将提取的运动特征与视觉特征相结合,以无缝地表示整个视频的质量。这三个模型在官方 KVQ 数据集和私有数据集上以端到端的方式独立训练。在推理阶段,通过启发式融合这些模型的预测结果可以得到最终的预测分数。更多细节可以参考比赛的技术报告[6]。图6: 第三名TVQE团队所采用的基于多模态预训练模型的质量评价方案
作为主办方之一,能够与智能媒体计算实验室共同策划并举办这场精彩绝伦的学术竞赛,快手深感荣幸,也衷心感谢全部参赛团队。对于在比赛中脱颖而出的SJTU MMLab、IH-VQA和TVQE团队,我们表示热烈的祝贺,并期待你们未来能在短视频质量评估领域取得更加卓越的成就。同时,我们也要向所有未能获奖的团队表示敬意,愿你们再接再厉,勇往直前。
快手一直致力于与学术界的紧密合作,共同探索和促进短视频质量评估的前沿技术。我们期望通过比赛激发创新思维,吸引更多研究者和开发者关注这一领域,共同突破现有评估方法的局限性,推动短视频质量评估技术的持续发展。借助这个平台,我们希望能够促进学术交流,汇聚各方智慧,共同为短视频行业打造更加精准、高效的质量评估解决方案,从而提升用户体验,推动整个行业的进步与繁荣。
[1] KVQ: Kwai Video Quality Assessment for Short-form Videos, CVPR 2024[2] Quality Assessment of In-the-wild Videos, ACM MM 2019[3] A Deep Learning based No-reference Quality Assessment Model for UGC Videos, ACM MM 2022[4] Fast-VQA: Efficient End-to-end Video Quality Assessment with Fragment Sampling, ECCV 2022[5] Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined Levels, ICML 2024[6] NTIRE 2024 Challenge on Short-form UGC Video Quality Assessment: Methods and Results, CVPR Workshop 2024推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
宙飒天下网-ZhouSa.com
还没有评论,来说两句吧...