01. 前言
现实世界的数据普遍存在长尾分布特性,绝大多数样本集中于少量头部类别,而大量尾部类别仅拥有极少量样本数据。尽管传统分类方法在平衡数据集上表现优异,但在面对长尾数据时往往过度偏向多数类而忽视少数类识别。针对这一挑战,学界提出的解耦训练范式(Decoupled Training)[1]通过特征学习和分类器再训练两阶段分离的方式取得了显著进展。现有研究多侧重同时改进特征提取与分类器优化,使得难以准确评估分类器优化的独立贡献。最新研究文献[2]表明,简单的正则就可以得到一个鲁棒的特征表示,基于该泛化的特征表示单凭分类器再训练即可超越前面所有复杂方法。因而,我们需要对分类器再训练阶段的方法统一基准,进行分析比较从而挖掘真正有效提升模型性能的因素。
图1:Logits Magnitude指标影响的直观理解。基于同样的特征表示,样本类内的区分度变化不大,但是类间的Logit Magnitude在我们LOS方法下更加平衡,有效减少了头部类对于尾部类的干扰
近日,哔哩哔哩Index团队联合上海交通大学系统重新构建了主流的分类器再训练方法(包含重加权、重采样、参数正则化等),提出了两个创新评价指标——Logits幅度(Logits Magnitude, LoMa)与正则化标准差(Regularized Standard Deviation)。前者对于每个类别计算当前真实类与非真实类Logits均值差异,后者则将Logits的标准差对于LoMa进行正则。基准实验发现当LoMa在不同类别中更平衡可以获取更优的性能。在此发现基础上,我们创新提出标签过度平滑(Label Over-Smooth, LOS)方法,通过将原始one-hot标签的类间差异从离散型软化至连续型,显著降低了多数类的主导优势。如图1所示,LOS在不损害类内判别力的前提下,成功抑制了跨类干扰(图中红色柱状部分)。LOS在不需要对于类别分布先验信息的情况下在CIFAR100-LT,ImageNet-LT,iNaturalist2018三大长尾数据集上都取得了最好的效果。该论文已被 ICLR2025 接收。
02 基准构建与探索
我们基于统一的特征表示进行分类器再训练,为不同方法[1,2,3,4,5]构建了一个统一的公式表达。
并得到了最终的性能比较
图2. 对于不同方法的性能比较。
首先我们提出以下Proposition,并进行了严格的数学分析和论证。
Proposition1 (Bias Convergence). 给定一个确定性矩阵 ,损失函数是关于的凸函数,并且当相应的偏差 收敛时, 将达到全局最小值。
Proposition2 (Arbitrary Length). 基于交叉熵损失函数,如果存在一个最优参数 使得损失函数达到收敛点,那么一定存在一个 也满足最优解,其中 可以是 加上任意的偏置 。
基于此,我们可以知道对于矩阵本身做限制是有漏洞的,比如以往的方法MaxNorm[1]以及tau-norm[2]等,而类别之间的相互关系才更有意义,因此我们创新性定义了Logits幅度(Logits Magnitude, LoMa) 与正则化标准差(Regularized Standard Deviation) 。其中Logits Magnitude定义为每个类别中当前真实类与非真实类Logits均值差异,正则化标准差则定义为使用Logits的标准差除以LoMa获得。我们将上述方法按照性能排序,并绘制出两个指标与不同类别的示意图如下。其中类别标签小的为多数类,越大的是少数类。
图3. 不同方法的Logits Magnitude和Regularized Standard Deviation
在图3中,我们可以发现,不同方法往往有着类似的Regularized Standard Deviation,因此在后续的分析中我们可以讲其作为不变量进行分析。而在性能方面,更均匀的Logits Magnitute对应的方法性能都更加的优秀,这就是我们优化的方向。
03. LOS方法
考虑如果我们针对每个类别Logits Magnitude都近似相等的时候,这个时候标准差可以计算为 ,因此最终预测的Logits可以表示为 。这样的噪声扰动在模型训练中引入,从而导致模型训练效果变差。而我们证明了以下Proposition:
Proposition3:在比较 和 用于后续计算时的使用时,平衡数据集的影响很小,但对于不平衡的数据集可能很重要。
而一个直观的解释是因为图3中的Regularized Standard Deviation在不同类别中值不同,在Logits Magnitude相似的情况下,标准差也不一致,导致噪声引入Bias的大小期望不同影响预测结果。因此直接降低Logits Magnitude的大小有望解决这些扰动造成的影响。这是以往的方法[3,4,5]从没有考虑到的。因此我们提出了我们的Label Over-Smooth(LOS)方法如下:
其中K代表类别数,平滑参数 用于控制非当前类的类别概率。这个公式的形式与传统的Label Smooth的方法基本一致,但是不同的区别在于 在LOS方法中可以设置的非常大。在传统的方法中 设置为0.2,而我们的方法可以设置到0.98甚至0.99。不仅在上述的理论中我们证明了该值设置较大的好处,在后续的Ablation Study中我们也证实了 增大带来的性能提升。
04. 实验结果
与之前的SOTA工作[2]一致,我们在CIFAR100-LT中使用ResNet34作为Backbone,在ImageNet-LT中使用ResNeXt50,在iNaturalist2018中使用ResNet50。对于平滑因子,我们在CIFAR100-LT中使用0.98,在ImageNet-LT和iNaturalist2018中使用0.99。我们在这三个数据集上都取得了SOTA的效果。
我们的方法也可以作为一个即插即用的方法基于已有的方法进行分类器重训练。为了进一步验证了方法的有效性,我们与范围更广的复杂模型进行结合并在此基础上取得了。这些方法包括自监督预训练方法PaCo[6],BCL[7],GML[8],ProCo[9];额外数据增强方法OPeN[10],NCL[11];多专家集成方法RIDE[12];迁移学习方法SSD[13]。
05.总结
在本文中,我们对当前分类器再训练方法进行了全面分析,并引入了两个创新指标:Logits Magnitude和Regularized Standard Deviation。“这些指标为模型性能提供了新的见解,并强调了实现更高准确性的关键要求。因此,我们提出了一种“标签过平滑”(LOS)方法作为模型训练的正则化约束,该方法系统地调整了logits的优化目标,并获得了更平衡的logits幅度。我们广泛的实验评估表明,LOS在各种长尾识别数据集上实现了最先进的性能。同时可以作为分类头再训练的插件作用于已有方法。
[1] Decoupling representation and classifier for long-tailed recognition. In International
Conference on Learning Representations (ICLR), 2019.
[2] Long-tailed recognition via weight balancing. In IEEE / CVF Computer Vision and Pattern Recognition Conference (CVPR), 2022.
[3] Learning imbalanced datasets with label-distribution-aware margin loss. Advances in Neural Information Processing Systems (NeurIPS), 2019.
[4] Balanced meta-softmax for long-tailed visual recognition. Advances in Neural Information Processing Systems (NeurIPS), 2020.
[5] Long-tail learning via logit adjustment. International Conference on Learning Representations (ICLR), 2021.
[6] Parametric contrastive learning. In International Conference on Computer Vision (ICCV), 2021.
[7] Balanced contrastive learning for long-tailed visual recognition. In IEEE / CVF Computer Vision and Pattern Recognition Conference (CVPR), 2022.
[8] Long-tailed recognition by mutual information maximization between latent features and ground-truth labels. In International Conference on Machine Learning (ICML), 2023.
[9] Probabilistic contrastive learning for long-tailed visual recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024.
[10] Pure noise to the rescue of insufficient data: Improving imbalanced classification by training on random noise images. In International Conference on Machine Learning (ICML), 2022.
[11] Nested collaborative learning for long-tailed visual recognition. In IEEE / CVF Computer Vision and Pattern Recognition Conference (CVPR), 2022.
[12] Long-tailed recognition by routing diverse distribution-aware experts. In International Conference on Learning Representations (ICLR), 2020.
[13] Self supervision to distillation for long-tailed visual recognition. In International Conference on Computer Vision (ICCV), 2021.
-End-
作者丨Index team
抽奖活动
转发本文至朋友圈并留言,即可参与下方抽奖⬇️
小编将抽取1位幸运的小伙伴获取扭扭龙+b站pu定制包
抽奖截止时间:02月18日12:00
如果喜欢本期内容的话,欢迎点个“在看”吧!
往期精彩指路
丨丨
丨丨
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...