画质重生，第一！腾讯TEG香农实验室斩获CVPR 2025 UGC Video Enhancement 冠军

CVPR NTIRE（New Trends in Image Restoration and Enhancement）作为近年来计算机图像恢复与增强领域最具国际影响力的赛事，一直备受业界关注。在NTIRE 2025 UGC Video Enhancement（短视频增强大赛）中，吸引了来自腾讯、字节跳动、阿里巴巴等多家企业的队伍参与。经过激烈角逐，腾讯TEG香农实验室团队凭借其自研的视频AI画质增强算法脱颖而出，最终摘得比赛冠军。相关技术成果已实现产品落地，显著提升视频清晰度，服务腾讯内外业务，为用户带来更好的视觉体验。

UGC视频增强挑战赛榜单

比赛获奖证书（论文链接/比赛链接，见文末）

一、比赛简介

● 比赛背景

随着抖音、视频号、快手等短视频平台的普及，用户生成内容（UGC）视频日益普遍。但通常这些视频由非专业人士拍摄，就会有主观质量较低，画面不稳定、光照不足和压缩伪影等问题。因此本次短视频增强大赛的目标就是开发能提升UGC视频感知质量的算法，确保用户在不同条件下拍摄的各类视频内容都具备优质的观看体验。同时为更贴近实际应用，最终结果需使用x265以3000kbps重新压缩然后再进行评估，以适配短视频平台传输的标准比特率值，同时算法的推理速度在NVIDIA TITAN RTX显卡上应该大于1FPS。本次赛事由莫斯科国立大学（MSU）图形与多媒体实验室和NTIRE 2025研讨会联合举办。

● 评估数据与指标

为确保每种方法均可进行可靠而全面的评估，举办方收集了两个视频子集：（1）短视频UGC平台的视频；（2）Yandex Tasks（一个众包平台）的用户按照预定义场景录制的视频。并最终选择了包含40个视频的演示训练集、150个视频组成的验证集，其中包括30个参与者无法获取的私有序列（最终增强结果由举办方根据参与者提交的算法运行得到）。最终采用4轮主观比较的方法进行最终排名：即把不同参赛者的结果并排组合并让评估人员在每对视频中选择观看质量最佳视频，或者注明该视频对的质量几乎相同，并以Bradley-Terry方法计算出具体的主观分数。最终，对于83支参赛队伍的92次提交结果，举办方共收集了超过8000名众包评估人员的投票，以确保结果的可靠性。

二、算法方案

2.1 整体框架

图1. 渐进式训练的视频增强框架

团队针对UGC视频复杂交织的退化问题（色彩失真、噪声伪影、时域冗余与细节模糊），提出图1所示的渐进式训练视频增强框架，核心思想是：分解任务，由易到难，逐步训练，协同优化。其具有以下创新点：

①专家模型与渐进式训练策略：框架将增强任务合理分解为三个子问题并分别设计了轻量高效的专家模型。同时，在训练过程中，由易到难，从基础的色彩增强(Stage1)和去噪(Stage2)开始训练，解决底层退化。随后引入复杂度更高的时域稳定模型(Stage3)，专注于解决时域一致性和低码率压缩下的质量维持问题，同时提升最终输出的细节上限。

②提出一种结合AI编码器码率约束与时域连续性的联合损失函数，在stage3中有效的解决了时域稳定性的问题，同时去除了时域信息的冗余，使得在视频低码率下依然能保持较高的主观质量。

③设计一种基于UGC视频的数据集退化方法，能有效的模拟UGC视频生产过程中从传感器采集、图像处理到视频压缩的全链路退化，为模型训练提供高质量的仿真数据。

2.2 自适应色彩增强 - 稳定精准的曝光白平衡校正算法

在Stage1中，我们首先对视频进行色彩增强。为此，我们采用了CLUT算法，其通过神经网络来预测LUT（色彩查找表即”滤镜“），从而根据内容可进行自适应的色彩增强。我们将LUT预测网络升级为性能更强了MobileNetV3，同时将LUT的维度调整为了64x64x64以适应庞大的数据集，并且做了大量时域稳定的优化。这里的设计，这一模块是可插拔，强度可控的，同时可不依赖整体框架单独运行。

2.3 高速视频去噪 - 轻量高效的前处理引擎

在Stage2中，我们目的是去除噪声，特别是压缩伪影(主要是编码导致的块效应)和传感器噪声，这些噪声会影响Stage3中光流估计以及特征传播的准确性，因此我们设计了一个轻量级的去噪网络。与原始的U-Net不同，我们将卷积替换为了可重参数化的RepVGG卷积块，同时将不同尺度特征图融合方式从Concat改为了Add，使得该模块的推理速度在NVIDIA TITAN RTX上达到了近300+ FPS，与Stage1中的算法类似，该模块也可不依赖整体框架单独运行。通过实验数据显示，我们确定这样一个轻量级的U-Net网络用于去除这类噪声已经足够。在训练策略上，我们使用L2 loss进行训练，数据集退化仅使用噪声以及编码退化。

图2. 去噪网络结果传感器噪声（左）压缩伪影（右）

2.4 时域稳定与去冗余 - 低码率下画质的守护者

Stage3，是整个视频增强框架的核心，其需要在时域上稳定结果，去除时域冗余，以确保即使压缩到3000 kbps也能获得良好的主观画质体验。Stage3的模型首先使用RepVGG模块提取视频帧的特征，然后利用光流估计模块raft将前后帧的特征进行精准对齐，而后为了缓解时域网络可能会导致过度平滑的现象，我们在其后面串联了一个纹理增强网络，其结构Stage2中的去噪网络类似，但是将RepConv替换为SwinIR中的RSTB模块，这种修改很好的平衡推理速度与效果。它们在训练时需要串联CLUT色彩增强网络、U-Net去噪网络，但两者权重冻结，训练损失函数为：

其中R为AI视频编解码器DVC估计出来的码率， CoherenceLoss为多帧间的时域连续性损失定义如下：

通过时域稳定的损失以及AI编码器的码率约束，我们在较低码率下成功的保持住较高的视频主观质量，结果如图3所示。

图3. 时域稳定与去冗余结果对比(x265 3000kpbs编码后) 从左到右的结果依次为：输入源、普通增强网络、时域增强及去冗余网络

推理时由于显存及推理时间的限制，需要将视频进行分片推理，我们将窗口大小设置为30帧。但是通过观察最终结果，分片间容易出现微小的跳变，因此我们在两个分片间取了一个5帧overlap并在上采样层前的特征层进行插值，然后再将它们恢复到图像中。

三、比赛结果

表1. UGC Video Enhancement 最终主观分数排名

图4. UGC Video Enhancement 成对胜率矩阵

表1为最终的比赛结果，可以看到无论是在对参与者公开的数据集还是参与者无法获得的私有数据集，我们提出的视频增强框架都取得了最好的成绩。结合图4的成对胜率矩阵，可以看到我们的方法在与其他参数者的方法比较时显现了非常高的胜率，与输入源相比，胜率更是达到了81%。

算法最终输出效果（视频已经过网页压缩）

除传统视频增强赛道外，我们还参加了NTIRE 2025的实时赛道，如4倍高效超分、低延时修复增强等，并斩获另外两项冠军和一项亚军。此次挑战赛的优异成绩充分展现了我们在视频处理领域的深厚积累，这些成果不仅是对我们团队技术实力的肯定，更是我们持续探索和创新道路上的重要里程碑。

四、结合底层硬件的推理优化

为了将相关技术应用到实际业务场景上，我们结合算法在硬件层面也做了大量的优化，其中通过异构结构蒸馏来提升轻量模型结构的学习性能，让小模型发挥大作用，保证实时的可行性；另一方面我们基于英伟达显卡尝试深度的优化，通过优化实现高性能底层算子，定制实现高效的算子融合策略和使用更低比特的运算量化算法等，将算法推理延时优化到极致。下面针对算子性能优化和量化优化进行阐述。

4.1 汇编级算子优化，减少50%显存带宽开销

通过对TensorRT推理结果的分析，我们发现与大部分开源推理引擎类似，为了保证通用性，其图编译及层融合策略主要针对逐元素（Element-Wise）算子（如Conv+BN+ReLU），但对含空间变换算子（如Resize/Pooling）的复合结构支持不足。通过对TensorRT推理性能的分析我们发现Pooling/Resize等算子的计算强度(Compute Throughput)很低，但是带宽利用(Memory Throughput)却非常的高基本>95%。

图5. Nsight Compute对TensorRT推理性能的分析

在对我们的网络结构进行详细的分析后，我们针对包含Pooling/Resize等算子的三种子网络结构进行了定制化的实现，平均实现了50%的显存带宽开销，如表2所示。

表2.定制化层融合方案

在实现融合算子的过程中我们参考了CUTLASS和CuTe的模板化思想，但是去除了对他们复杂模板的依赖，同时引入了一些新的特性实现了定制化的Implicit GEMM卷积算法。与CUTLASS类似，我们使用了模板化的MNK矩阵分块形式、基于PTX的Tensor Core MMA以及Async Copy汇编指令、Multi-Stage多级流水线缓冲、128bit对齐的向量化数据访问格式、并采用了Swizzle的缓存排布形式以消除Bank Conflict、Rasterization的Block并发形式提升L2 Cache的命中率等技术。除此之外，我们针对网络所使用卷积算子的特点，提出了REG BN Expand的方法利用了多余寄存器降低了Global Memory的IO开销。同时为了更好的兼容含空间变换算子的融合，我们对Implicit GEMM的坐标映射方式进行了修改，实现了Space Fusion的坐标映射方法。最后我们引入了即时编译（JIT）技术，针对不同的硬件寻找最适合的算子模板。

REG BN Expand

Implicit GEMM算法是一种将Conv通过坐标映射转换为矩阵乘法（GEMM）的方法。对于矩阵A[M,K]以及矩阵B[K,N]的矩阵乘法，其输出为矩阵C[M,N]，如下图所示。根据矩阵乘法的规则，矩阵C中的每个点都需要 2K 次访存，故进行一次完成矩阵运算需要2MNK次访存。由于Global Memory的读写速度非常慢，所以我们一般会将矩阵分块放入Shared Memory中进行缓存，缓存分块的大小定义为BM以及BN。此时我们有对Global Memory的访存次数为（1/BN+1/BM）*MNK，理论上当BM以及BN越大时，对Global Memory的访存次数越少，算子的运算速度会更快。

然而，我们通过实验发现当进一步提高BM或BN时，算子的速度反而是下降，通过Nsight Compute分析，得到一个结论：当分块大小过大时，其会占用更多的Shared Memory，而Shared Memory与L1 Cache是共享大小的，因此当使用过多的Shared Memory时会导致L1 Cache命中率下降。

我们在查询NVIDIA技术手册后，发现其显卡(Ampere架构)具有L2 Cache大小<L1 Cache(Shared Memory)大小<Register寄存器大小的奇特性质，因此我们很自然的使用了多余寄存器缓存了矩阵计算的结果，在Shared Memory占用大小不变的情况下在BN方向上完成了对原始分块大小的拓展，我们称之为REG BN Expand技术。据测试的结果，这种方法在某些情况下可以使算子的速度提升10%。

图6. REG BN Expand方法示意图

Space Fusion Implicit GEMM

CUTLASS中的Implicit GEMM算法是在排列为[CO, H*W]的输出矩阵C上进行Block级分块的，这种映射方式是符合直觉的，但是其会导致输出矩阵中的像素没有办法在当前分块中获取其上下邻域，即无法将Pooling/Resize等空间操作融合在Implicit GEMM算法后。如图7(a)所示，矩阵C中每个像素的上下邻域都是不同通道的数据，而Pooling/Resize等操作应该是在同一通道内完成的。为了解决这一问题我们设计了一种新的坐标映射方式Space Fusion，这种映射方式允许输出矩阵C中的元素获取其周围像素的信息，以便进行空间融合操作。

图7. Space Fusion Implicit GEMM示意图

即时编译（JIT）

我们将即时编译技术引入到算子实现中，通过这种方法可以将矩阵分块大小，Multi-Stage流水线长度，是否开启REG BN Expand或Space Fusion等策略写为宏定义，在编译时被视为常量，使得编译器可以进行更多的优化。同时这也允许我们对不同的卷积尺寸以及不同的硬件进行算子的搜索，自动找到最佳的实现策略。

在使用上述提到技术后，最终我们实现的Conv算子平均推理速度分别是CUTLASS的2.51倍以及cuDNN的3.32倍，对应的融合算子平均推理速度达到了TensorRT 10.0的1.48倍。某落地模型的整体推理时间从5.370ms下降到了4.471ms，整体加速比达到了19.8%，收益明显。

表3. 部分3x3 Conv算子推理速度对比(设备的算力为120TFLOPS、带宽为850GB/s)

图8. 部分融合算子推理速度对比图(越低越好)

4.2 INT8量化感知训练，保持99%模型精度，吞吐量翻倍

由于图像恢复任务对像素级精度和高频细节的极致要求，Int8量化很难达到理想精度。若直接采用默认的直通估计器（STE）进行训练，往往难以满足精度需求：STE虽能近似梯度回传，但无法有效约束量化噪声对逐像素重建的破坏性影响。此外，步长一旦确定，量化不会根据优化精度调整量化步长参数，导致在处理动态范围大、分布不均匀的数据时，其特征激活值出现离群值干扰，会导致恢复质量显著下降，量化误差会直接转化为肉眼可见的伪影（如块状模糊、振铃效应或纹理丢失）。

对于STE约束不足的问题，我们引入全精度教师模型进行权重感知蒸馏，强制量化模型模仿教师模型对细节重建和伪影抑制的能力，弥补STE监督信号的不足；由于数据分布的多样性，部分特征层不可避免的会出现长尾分布，我们进一步进行量化步长学习，使有限比特资源聚焦于保护关键纹理和边缘信息。此外，我们会逐层评估量化敏感度，当精度不满足需求时，对瓶颈层分配更高的精度（如FP16），实现精度和性能的平衡。详细框架如下所示：

图9.量化优化流程

局部自适应调节蒸馏（Local Adaptive Distillation, LAD）

由于量化噪声的引入，量化模型输出与全精度模型的输出之间会出现差异。这种差异在某些区域（如边缘、纹理丰富区域）尤为明显，因为这些区域对噪声更敏感。传统的损失函数（如MSE）对所有像素或特征点一视同仁，导致模型在训练过程中过度关注简单、量化误差小区域（如天空、地面等平坦区域）而忽视了困难、量化误差大区域（如边缘、纹理区域）。我们根据图像局部内容复杂度指定重建难度系数Wf，再通过自适应调节因子对量化误差大的区域给予更大的权重。如下展示了使用LAD训练前后的量化误差比较图

图10.LAD优化训练前后的量化误差比较

分层特征蒸馏（Hierachical Feature Distillation, HFD）

在感知蒸馏过程中，仅使用最终输出进行蒸馏无法保证中间特征的准确性，而中间特征的失真会逐层累积，导致最终性能下降。通过多层监督，确保从低级到高级的特征都得到有效传递，避免中间特征退化。而且可以强制量化模型模仿全精度模型的多层特征表示，从而更好地保留全精度模型的表征能力，这对于提升量化模型的精度至关重要。

图11. 分层特征蒸馏

结构性优化部署（Structural Optimization-based Deployment）

在实现高精度量化的基础上，我们进一步解决量化模型结构中的效率瓶颈，以加速部署。针对部署中因量化节点布局不当导致的算子融合受限及冗余计算问题，我们提出INT8数据流对齐策略：统一共享输出层的量化节点设置，移除冗余的量化层，避免精度不一致，从而实现复杂模块（如Conv-Clip-Add）的完全融合。通过对量化节点位置的精准控制，我们突破了量化模型固有的速度瓶颈，使高精度量化模型兼具完全融合的计算图和无缝的INT8数据流，最终达到精度与效率的帕累托最优。

表4.某模型量化优化前后的性能和精度比较(FP16为Anchor)

目前相关技术成果已实现产品落地，显著提升视频清晰度，服务腾讯内外业务，为用户带来更好的视觉体验。

五、迈向扩散模型的生成式增强

我们将继续深耕视频处理领域，积极探索先进的算法技术。近几年，新兴的扩散模型领域发展很快，其通过模拟数据的生成过程，不仅能够生成高质量图像和视频，同时还很好的保持细节和结构的完整性，这一特性使得扩散模型在图像和视频修复与增强任务中展现出巨大的潜力，不过它也存在一些生成稳定性和保真度方面的挑战。为此，我们通过对 Stable Diffusion 结构优化改进，引入control和lora等控制方式，加入更丰富的低清图条件和先验约束，并应用海量优质数据进行训练优化，极大提升了扩散模型在图像处理方面的稳定性。

图12. 扩散模型的增强效果展示

未来，腾讯TEG香农实验室将持续精进视频处理领域研究，探索前沿技术的实际应用与落地。我们相信，随着深度学习以及计算硬件的不断进步，AI技术在图像/视频处理领域将会引发革命性创新，为数字内容创作、传播与消费方式带来全新的范式。

论文链接：https://openaccess.thecvf.com/content/CVPR2025W/NTIRE/papers/Safonov_NTIRE_2025_Challenge_on_UGC_Video_Enhancement_Methods_and_Results_CVPRW_2025_paper.pdf

比赛链接：https://www.codabench.org/competitions/4973/#/pages-tab