CVPR 2024精彩展示：视觉生成式大模型在快手短视频全领域应用

美西时间6月17日-21日，备受瞩目的计算机视觉领域顶会——计算机视觉和模式识别大会（CVPR）在西雅图盛大召开。根据官方统计，本届大会规模空前，参与人数创下历史新高，现场参会人数超过一万两千人。大会现场气氛热烈非凡，座无虚席，众多场次研讨会的座位迅速被预约一空，现场参会者热情高涨，积极交流学习，共同探讨计算机视觉领域的最新进展。

作为银牌赞助商，快手也亮相此次盛会，向与会者展示了其在计算机视觉领域的最新研究成果与应用实践。本文带你重温现场，领略其风采。‍‍‍‍‍‍‍‍‍‍

参展观众与快手工作人员互动

晚宴星辉：快手联手学术精英探索科技未来

当地时间21日晚六点，作为联合主办方，快手与主办方将门、协办方HiDream.ai智象未来、支持方GirlUp共同呈现了一场别开生面的「CVPR 2024 群星闪耀精英晚宴」。这是一场科技与智慧交相辉映的晚宴，汇集了顶尖技术展示和深度的学术交流。晚宴上，快手高级副总裁、研发线负责人于冰发表了热情洋溢的开场致辞，他表示：“快手作为一家AI公司，一直致力于技术创新和学术研究的深度融合。我们深知，与全球顶尖学者的交流对于推动快手技术进步至关重要。所以希望通过开放的学术交流活动，激发更多的创新思维，共同推动科技界的发展。”

紧接着，精彩纷呈的科技展示和圆桌讨论环节让晚宴的氛围更加热烈。与会者们纷纷就前沿技术趋势、学术研究成果展开深入探讨。而在晚宴的自由交流环节，与会者们更是畅所欲言，结交新朋友，探索合作新机遇。快手希望通过此类活动，进一步与学术界精英建立紧密联系，携手共谋科技届繁荣与进步，共同开创科技发展的新篇章。

快手高级副总裁、研发线负责人于冰在晚宴开场致辞

竞技之光：快手首届短视频质量评价大赛精彩落幕

由快手与中国科学技术大学智能媒体计算实验室联合主办的首届“Kuaishou Visual Quality”短视频质量评价学术竞赛，在CVPR 2024 NTIRE研讨会上隆重揭晓了竞赛结果。此次挑战赛吸引了超过200个团队参与，历时四个月的激烈角逐，经过一系列严谨细致的评审流程，最终SJTU MMLab、IH-VQA和TVQE团队凭借强劲的技术实力和创新能力，分别荣获本次竞赛的前三名。

快手音视频技术部提供的竞赛数据集

可灵进化：快手大模型在现场发布图生视频功能

在CVPR 2024会议上，快手展示其自研的大模型“可灵（Kling）”。可灵大模型是快手大模型团队自研的视频生成大模型，其具备可实际体验的Sora级的视频生成能力，让用户可以轻松高效地完成艺术视频创作。

快手可灵团队现场展示和讲解

在CVPR会议现场，快手还发布了可灵视频生成模型的全新功能，包括图生视频功能，支持用任意静态图像生成5s视频；以及视频续写功能，可为已生成的视频提供便捷的一键续写和连续多次续写，将视频最长可延伸至约3分钟。截至目前，已有累计超过37万人提交了可灵的使用申请。

扫描下方二维码进入可灵官网，了解更多内容。‍‍

可图前瞻：探索图像生成质量的多维洞见

在今年的CVPR大会上，快手“可图”大模型团队的论文《Learning Multi-dimensional Human Preference for Text-to-Image Generation》成功入选，并在会场上进行了精彩的现场演讲。该研究突破了传统文本到图像生成模型的评估方式，提出了多维偏好分数（MPS），首次尝试从多个维度评估图像生成质量。MPS模型在CLIP模型的基础上加入偏好条件模块，训练于快手自研的涵盖近一百万人类偏好选择的MHP数据集。MPS在美学、语义对齐、细节质量和整体评估四个维度均显示出优越性，为文本到图像生成领域的评估和改进提供了新的视角和工具。

快手可图团队现场展示和讲解

可图大模型（Kolors）是由快手AI团队自研打造的文生图大模型，具备强大的图像生成能力，它基于大语言模型与跨模态模型实现精准的用户意图理解，可以支持古诗词等中文特色的内容理解与生成，并且基于用户反馈持续优化，图像生成效果更贴近大众艺术审美了，支持海量全球艺术风格的生成。

👉🏻点击下方图片，马上体验可图。‍‍‍‍‍‍‍‍‍

技术前沿：快手在视频处理与编码领域的创新成就展示

快手音视频团队介绍了快手在视频处理和编解码技术的前沿进展。团队介绍了综合视频质量评估工具“Kuaishou Visual Quality”(KVQ)，利用多路径时序网络和稀疏时间注意力机制来评估视频内容的质量。接着是快手的视频增强技术"Kuaishou Enhancement Processing"(KEP)，包括超分辨率、去噪、去模糊以及颜色增强等功能。快手自研的编码器“Kuaishou Video Coding”(KVC)采用了先进的编码策略，平衡了视频质量与码率，特别是在带宽受限的情况下，能够有效减少数据传输量同时保持视频质量。这些技术的集成和应用提升了快手平台的视频展示质量和用户体验，展示了快手在视频技术领域的创新能力和行业领导地位。

快手音

视频团队进行技术分享

数字灵魂：AI关小芳与您多模态互动

会议现场，引人注目的AI虚拟人关小芳吸引了众多参会者的目光。AI关小芳是深受快手用户喜爱的快手官方虚拟主播关小芳的全新版本。关小芳在快手平台拥有200w+粉丝，由中之人驱动形象资产进行直播。本次参展的AI关小芳完全由AI技术驱动，采用快手自研的“快意”大模型、先进的自动语音识别（ASR）和文本语音转换（TTS）技术，以及数字人生成模型来实现其多模态交互能力。

AI关小芳支持沉浸式实时多模态互动。关小芳能够识别用户的体征、语音和形态信息，以完全拟真的语气、话术、表情和动作回应各种查询和互动，展示出其先进的多模态感知能力和智能化决策执行能力。

AI关小芳能实时与用户进行多模态互动

从CVPR 2024年论文接收情况来看，图像与视频合成与生成领域的研究热度持续升温，共有329篇相关论文被接纳，这一显著数据凸显了该领域的前沿地位。快手的科技展示尤其引人注目，尤其是在生成式大模型领域，快手不仅在技术上取得了突破，更是将这些技术应用于业务中。这些大模型已被广泛部署于快手的多个关键业务流程中，包括音视频处理、基座大模型及更广泛的业务生态。

作为行业的领导者，我们期待通过不断的技术创新和与全球学术界的深入合作，推动整个计算机视觉领域的进步，共同探索多媒体技术和多模态大模型的未来可能。