在视频编码领域,双向编码(RA 模式)一直是高效压缩的“秘密武器”,长期以来被广泛应用于点播、视频存储等场景。然而,在基于深度学习的智能视频编码中,这项技术也面临新的挑战:双向编码采用复杂的大跨度分层参考结构,这导致运动的精确处理变得困难,参考帧的价值利用也存在明显差异。双向智能视频编码的潜力远未被完全激发,仍有巨大的优化空间等待探索。
为破解上述难题,快手音视频技术团队提出了全新的双向智能视频编码方法 —— BRHVC。该方法不仅在压缩性能上显著超越业内最先进的端到端智能视频编码方案,也成功超越最新标准的 VTM-RA 编码。相关研究成果《Neural B-frame Video Compression with Bi-directional Reference Harmonization》成功被人工智能领域顶级学术会议NeurlPS 2025录用。论文地址:https://arxiv.org/abs/2511.08938
NeurIPS(Annual Conference on Neural Information Processing Systems)是全球人工智能与机器学习领域最具声望的顶级学术会议。作为深度学习、强化学习等前沿技术的重要发布平台,NeurIPS 见证了从反向传播算法的复兴到Transformer架构的诞生等关键突破。其收录成果凭借坚实的理论深度与跨学科影响力,驱动着计算机视觉、自然语言处理、自动驾驶等领域的产业变革,被广泛视为全球 AI 创新思想的核心源头。
视频编码(又称视频压缩)的核心价值在于破解海量视频数据与有限传输、存储资源之间的根本矛盾。未压缩的高清视频码率高达1-3Gbps,1分钟4K视频占用近20GB空间,这种数据量远超现有网络带宽和存储设备的承受能力。对此,视频编码通过消除时空冗余、量化视觉不敏感信息,将视频码率压缩至1/100~1/1000,使短视频、直播、视频会议、云游戏等应用成为可能。从经济角度看,视频编码技术每年为行业节省数万亿带宽成本,降低数据中心能耗,让用户能享受到低码率高质量的视频服务。一、背景:从低时延模式到双向模式的扩展
1.1 长跨度帧的运动处理
1.2 不平衡的参考贡献问题
二、算法设计
整体框架如图所示,研究团队提出一种创新的双向智能视频编码框架 BRHVC (Bi-directional Reference Harmonization Video Compression),其中提出包括双向运动聚合(Bi-directional Motion Converge, BMC)和双向上下文融合(Bi-directional Contexual Fusion, BCF)两个模块,有效解决了上述长跨度帧的运动难处理问题和参考贡献不平衡问题,从而显著提升了压缩性能。
2.1 双向运动聚合(BMC)
BMC模块针对长跨度运动估计难题,将光流网络生成的多尺度光流(原始、1/2分辨率、1/4分辨率)收敛至单一隐变量进行联合压缩,并引入双向参考帧间的互运动特征作为先验,动态适配不同帧类型的信息需求。这种设计突破过往光流压缩的局限,使网络在解码端能重构出覆盖更大感受野的准确运动场,显著提升大位移场景下的运动补偿精度。
BMC的可视化效果如上图所示,图左半部分表示长跨度的参考,右半部分表示短跨度的参考,上半部分表示所提BRHVC用到的BMC模块,下半部分表示基准Baseline模型。可以看到,BMC对多尺度光流进行单独生成和整体压缩,可以有效避免大跨度下光流生成时遇到的光流杂乱错误的情况。
2.2 双向上下文融合(BCF)
BCF模块则针对不平衡参考贡献问题,在编码端通过计算当前帧与双向运动补偿结果在像素域的相似度差异,生成空间自适应权重图与偏置项,将参考特征在通道维度按重要性重新加权融合;解码端则利用熵解码后的潜变量重建权重信息,实现与编码端协同。
上图展示了权重特征在不同帧跨度上的区别。可以看到,BCF处理得到的显式权重建模很好地解决了长跨度帧的遮挡问题,使得所提的BRHVC能够聚焦更多注意力在更有参考价值的区域上,从而提高压缩性能。总之,BRHVC的两个关键模块形成递进式优化——BMC提供高质量多尺度运动表征,BCF在此基础上实现智能信息筛选,最终使BRHVC在HEVC数据集上超越VTM-RA编码,成功实现双向智能视频编码对传统标准的超越,具有重要意义。
三、实验效果
研究团队使用了业内标准数据集HEVC Class B至E、UVG及MCL-JCV,分辨率跨度从240p到1080p,并遵循Intra Period为32的配置以公平评估。实验对比涵盖了H.265标准编码器HM-16.5、最新标准的H.266编码器VTM-17.0的LD/RA模式、最新的低时延智能视频编码方法(如DCVC-DC、DCVC-FM等)以及双向智能编码方法DCVC-B。结果表明,在HEVC数据集上,BRHVC 相比于传统编码器 VTM-LDB 平均实现32.0%的码率节省,其中在Class D序列上增益高达44.7%;同时,BRHVC 相比于传统编码器 VTM-RA 实现 1.1%的码率节省,在编码效率上成功超越VTM-RA。
研究团队对BRHVC的两个模块进行了消融实验,结果表明BMC和BCF两个模块有着较高的解码收益性价比,能够获得相对基准模型约12.3%的显著码率节省。
四、总结
本研究系统梳理并深入剖析了双向智能视频压缩面临的核心挑战,特别是长跨度帧的运动处理和不平衡参考贡献问题。尽管传统预测编码能够借助前后参考帧显著提高压缩效率,但在长跨度场景下,参考帧之间的信息价值往往呈现明显异质性,使得模型难以充分发挥双向预测的潜在优势。
针对这一瓶颈,快手研究团队提出了全新的 BRHVC 编码框架,通过引入 双向运动融合(BMC) 与 双向上下文融合(BCF) 两大关键创新模块,实现了对参考信息的自适应调和。得益于更精准的运动刻画和更均衡的参考融合机制,BRHVC 在压缩性能上超越最新传统标准 VTM-RA 编码器,取得了双向智能视频压缩领域的重要突破,也为未来智能视频编码的发展提供了新的方向。
-END-
欢迎加入
💼流媒体策略算法工程师-音视频
职位描述
1、负责视频点、直播相关算法策略设计与优化,涉及主站/电商/商业化/海外等多个核心业务;2、负责精细化设计不同场景/人群的转码、分发、播放算法策略(ABR等),为用户提供端到端的个性化体验(画质与流畅);3、负责设计和迭代基于视频内容的自适应处理和编码算法模型(CAPE等);4、与内外部团队合作,制定面向不同业务(主站/电商/商业化/海外等)的点、直播优化策略,并推动落地。
任职要求
1、本科及以上学历,计算机、通信、统计、数学、图像处理、多媒体等相关专业;2、具备较强策略抽象、数据分析和设计能力,能系统性的思考,制定解决方案,快速验证和优化上线;3、在以下一个或多个算法领域上有深度的理解和实践经验:流媒体、图像压缩、CV/NLP、推荐/搜索/广告、机器学习、控制论;4、积极乐观,责任心强,工作认真细致,具备良好的团队合作精神、较强的沟通能力和学习能力。
💼音视频大模型算法工程师
职位描述
1、负责研发基于diffusion的low-level视频处理算法,专注于提升算法性能,包括但不限于网络架构设计、算法优化、大规模数据处理以及Diffusion模型保真性提升;2、负责研发基于diffusion的视频压缩和生成框架,致力于突破视频生成极限,涉及图像/视频压缩算法的创新设计和优化;3、持续关注并分析国际前沿的AI技术动态,将最新的处理及编解码技术融入现有模型,为研发下一代基于AI的高效视频处理系统提供技术基础。
任职要求
1、在计算机视觉/人工智能领域CCF-A类会议或期刊发表过高质量研究论文者,或在各类视觉和算法竞赛中取得显著成绩者优先;2、熟悉常见的low-level图像处理方法,包括但不限于去噪、超分辨率等算法;3、熟悉常见的传统编解码和AI codec优化技术,如H.265、VVC等标准等;4、对AGI有强烈的热情和远见。
💼视频编解码算法工程师
职位描述
1、负责视频编解码的框架实现和算法优化,包括H.264,H.265,AV1,SVC,SCC等;2、负责视频编解码算法在不同平台的移植优化;3、深入研究直播、RTC等场景下的编码技术,提升视频质量。
任职要求
1、计算机相关专业硕士及以上学历;2、有视频编码器的开发经验,熟悉H.264、H.265、AV1等主流编码标准;3、熟悉开源编解码项目比如x264、x265等,并有相应的优化经验;有SIMD优化经验者优先;4、有音视频引擎的实际开发经验者优先,掌握采集渲染、音视频处理、编解码、QoS等。
💼传输算法工程师
职位描述:
负责新一代媒体传输标准的设计,为直播、点播和RTC等提供通用、高效、可扩展的传输协议;面向不同业务/人群/视频,分析用户对清晰/卡顿/延迟的偏好,建模用户的QoE并设计传输算法,包括但不限于拥塞控制、流控、多码率等算法。
职位要求:
1. 本科及以上学历,计算机、通信等相关专业。
2. 熟悉C/C++,有扎实的计算机基础知识,熟悉TCP/UDP/HTTP等常见的网络协议。
3.熟悉常见的流媒体传输协议,如RTMP/HTTP-FLV/DASH/HLS/WebRTC/QUIC等。
4. 在相关会议如SIGCOMM、NSDI、CoNext,INFOCOM等发表过文章优先。有拥塞控制、弱网对抗、网络测量等传输算法线上优化经验优先。
5. 具备较强的学习能力,沟通能力与团队协作能力。具备较强的工程实现能力和问题分析能力。善于将复杂问题进行拆解并逐步推进。
投递简历至邮箱:[email protected]
”
【相关阅读】
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……




还没有评论,来说两句吧...