美西时间6月17日-21日,备受瞩目的计算机视觉领域顶会——计算机视觉和模式识别大会(CVPR)在西雅图盛大召开。根据官方统计,本届大会规模空前,参与人数创下历史新高,现场参会人数超过一万两千人。大会现场气氛热烈非凡,座无虚席,众多场次研讨会的座位迅速被预约一空,现场参会者热情高涨,积极交流学习,共同探讨计算机视觉领域的最新进展。
作为银牌赞助商,快手也亮相此次盛会,向与会者展示了其在计算机视觉领域的最新研究成果与应用实践。本文带你重温现场,领略其风采。
参展观众与快手工作人员互动
晚宴星辉:快手联手学术精英探索科技未来
当地时间21日晚六点,作为联合主办方,快手与主办方将门、协办方HiDream.ai智象未来、支持方GirlUp共同呈现了一场别开生面的「CVPR 2024 群星闪耀精英晚宴」。这是一场科技与智慧交相辉映的晚宴,汇集了顶尖技术展示和深度的学术交流。晚宴上,快手高级副总裁、研发线负责人于冰发表了热情洋溢的开场致辞,他表示:“快手作为一家AI公司,一直致力于技术创新和学术研究的深度融合。我们深知,与全球顶尖学者的交流对于推动快手技术进步至关重要。所以希望通过开放的学术交流活动,激发更多的创新思维,共同推动科技界的发展。”
紧接着,精彩纷呈的科技展示和圆桌讨论环节让晚宴的氛围更加热烈。与会者们纷纷就前沿技术趋势、学术研究成果展开深入探讨。而在晚宴的自由交流环节,与会者们更是畅所欲言,结交新朋友,探索合作新机遇。快手希望通过此类活动,进一步与学术界精英建立紧密联系,携手共谋科技届繁荣与进步,共同开创科技发展的新篇章。
快手高级副总裁、研发线负责人于冰在晚宴开场致辞
竞技之光:快手首届短视频质量评价大赛精彩落幕
由快手与中国科学技术大学智能媒体计算实验室联合主办的首届“Kuaishou Visual Quality”短视频质量评价学术竞赛,在CVPR 2024 NTIRE研讨会上隆重揭晓了竞赛结果。此次挑战赛吸引了超过200个团队参与,历时四个月的激烈角逐,经过一系列严谨细致的评审流程,最终SJTU MMLab、IH-VQA和TVQE团队凭借强劲的技术实力和创新能力,分别荣获本次竞赛的前三名。
快手音视频技术部提供的竞赛数据集
可灵进化:快手大模型在现场发布图生视频功能
在CVPR 2024会议上,快手展示其自研的大模型“可灵(Kling)”。可灵大模型是快手大模型团队自研的视频生成大模型,其具备可实际体验的Sora级的视频生成能力,让用户可以轻松高效地完成艺术视频创作。
快手可灵团队现场展示和讲解
在CVPR会议现场,快手还发布了可灵视频生成模型的全新功能,包括图生视频功能,支持用任意静态图像生成5s视频;以及视频续写功能,可为已生成的视频提供便捷的一键续写和连续多次续写,将视频最长可延伸至约3分钟。截至目前,已有累计超过37万人提交了可灵的使用申请。
扫描下方二维码进入可灵官网,了解更多内容。
可图前瞻:探索图像生成质量的多维洞见
在今年的CVPR大会上,快手“可图”大模型团队的论文《Learning Multi-dimensional Human Preference for Text-to-Image Generation》成功入选,并在会场上进行了精彩的现场演讲。该研究突破了传统文本到图像生成模型的评估方式,提出了多维偏好分数(MPS),首次尝试从多个维度评估图像生成质量。MPS模型在CLIP模型的基础上加入偏好条件模块,训练于快手自研的涵盖近一百万人类偏好选择的MHP数据集。MPS在美学、语义对齐、细节质量和整体评估四个维度均显示出优越性,为文本到图像生成领域的评估和改进提供了新的视角和工具。
快手可图团队现场展示和讲解
可图大模型(Kolors)是由快手AI团队自研打造的文生图大模型,具备强大的图像生成能力,它基于大语言模型与跨模态模型实现精准的用户意图理解,可以支持古诗词等中文特色的内容理解与生成,并且基于用户反馈持续优化,图像生成效果更贴近大众艺术审美了,支持海量全球艺术风格的生成。
👉🏻点击下方图片,马上体验可图。
技术前沿:快手在视频处理与编码领域的创新成就展示
快手音视频团队介绍了快手在视频处理和编解码技术的前沿进展。团队介绍了综合视频质量评估工具“Kuaishou Visual Quality”(KVQ),利用多路径时序网络和稀疏时间注意力机制来评估视频内容的质量。接着是快手的视频增强技术"Kuaishou Enhancement Processing"(KEP),包括超分辨率、去噪、去模糊以及颜色增强等功能。快手自研的编码器“Kuaishou Video Coding”(KVC)采用了先进的编码策略,平衡了视频质量与码率,特别是在带宽受限的情况下,能够有效减少数据传输量同时保持视频质量。这些技术的集成和应用提升了快手平台的视频展示质量和用户体验,展示了快手在视频技术领域的创新能力和行业领导地位。
数字灵魂:AI关小芳与您多模态互动
会议现场,引人注目的AI虚拟人关小芳吸引了众多参会者的目光。AI关小芳是深受快手用户喜爱的快手官方虚拟主播关小芳的全新版本。关小芳在快手平台拥有200w+粉丝,由中之人驱动形象资产进行直播。本次参展的AI关小芳完全由AI技术驱动,采用快手自研的“快意”大模型、先进的自动语音识别(ASR)和文本语音转换(TTS)技术,以及数字人生成模型来实现其多模态交互能力。
AI关小芳支持沉浸式实时多模态互动。关小芳能够识别用户的体征、语音和形态信息,以完全拟真的语气、话术、表情和动作回应各种查询和互动,展示出其先进的多模态感知能力和智能化决策执行能力。
AI关小芳能实时与用户进行多模态互动
从CVPR 2024年论文接收情况来看,图像与视频合成与生成领域的研究热度持续升温,共有329篇相关论文被接纳,这一显著数据凸显了该领域的前沿地位。快手的科技展示尤其引人注目,尤其是在生成式大模型领域,快手不仅在技术上取得了突破,更是将这些技术应用于业务中。这些大模型已被广泛部署于快手的多个关键业务流程中,包括音视频处理、基座大模型及更广泛的业务生态。
作为行业的领导者,我们期待通过不断的技术创新和与全球学术界的深入合作,推动整个计算机视觉领域的进步,共同探索多媒体技术和多模态大模型的未来可能。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...