Title:DNTextSpotter: Arbitrary-Shaped Scene Text Spotting via Improved Denoising Training
Paper:https://arxiv.org/pdf/2408.00355
Code:https://github.com/yyyyyxie/DNTextSpotter/
主页:https://qianqiaoai.github.io/projects/dntextspotter/
01 前言
本文将为大家介绍一下bilibili人工智能平台部联合苏州大学发表的ACM MM:基于DETR [1]架构的Scene Text Spotting模型 -- DNTextSpotter [7]。
这篇论文的动机是什么?降噪训练的提出是为了解决基于DETR架构的模型使用二分图匹配不稳定性的问题。作者看到降噪训练在更通用的目标检测任务上表现出色,而基于DETR架构的场景文本识别器需要解决一个比目标检测更专门化的任务,也一定存在着二分图匹配不稳定性的问题。但是考虑到场景文本任务中的文字多以任意形状存在,并且还需要执行比分类任务更复杂的识别任务,如何有效地构建这个降噪训练任务是一个挑战。论文提出了一种新的降噪训练策略,并且只使用和baseline(DeepSolo [2])完全相同的数据集和数据增强,就在Inverse-Text [3]数据集上的'None'识别指标上获得了 11.3% 的提升,并且在其他数据集上也有很大提升。
建议在阅读这篇文章前,可以先参考一下DN-DETR [4]。
此外,降噪训练策略只在训练的时候使用,在推理的时候移除,不会增加模型推理时候的负担。所以接下来,我们将探讨如何利用场景文本的任意形状和文字属性来构建降噪训练任务。
02 方法原理
论文的整体架构如上图所示,采用经典的DETR系列的网络架构,包含了骨干网络, Transformer 编码器,和Transformer 解码器三部分。并且解码器(Decoder)的输入被拆分为Matching Part(需要经过二分图匹配算法的部分)和Denoising Part(绕过二分图匹配直接进行损失计算的部分)。论文的主要贡献集中于Denoising Part中的Queries初始化(图中的Noised Queries Initialization )。经过DETR系列方法的研究,人们发现Decoder Queries解耦成Positional queries以及Content queries有助于学习更优特征。所以论文在Noised Queries Initialization部分,采用相同的策略,将这些Queries解耦成了Noised Positional Queries和Noised Content Queries。2.1和2.2节将详细介绍这两部分Queries的构建方法。
2.1 Noised Positional Queries Generation
Noised Positional Queries的设计过程如上图所示,大致可以分为 4 步:
1)首先需要获得文本实例中贝塞尔中心曲线的贝塞尔控制点坐标,该坐标是标签值(通过计算标签中的上边界+下边界的中心线得到);
2)在获得这些中心曲线的贝塞尔控制点后,对这些控制点加入噪声(即让这些坐标产生一定量的偏移);
3)然后在加噪后的贝塞尔控制点上均匀地采样T个点,T为文本的最大长度;
4)将这T个点经过位置编码层以及MLP层,即为最终的Noised Positional Queries。
对位置的加噪方式可以有很多种,比如直接在采样点上加噪而不是在贝塞尔控制点上加噪。论文在实验部分解释了为什么在贝塞尔控制点上加噪,而不是直接在这T个采样点直接加噪。解释如下:在贝塞尔控制点上加噪可以提供一部分的位置先验,这是在中心线采样点上添加噪声无法实现的。若直接在采样点上加噪,去噪训练将失去贝塞尔曲线平滑位置先验的优势,可能对训练结果产生负面影响(消融实验中检测降了 0.8%)。并且Matching Part部分的初始化的Queries就是使用平滑的贝塞尔中心曲线得到,这样做也可以保持一致性。
2.2 Noised Content Queries Generation
Noised Content Queries的设计需要从两个角度考虑:1)文本实例中的字符;2)内容与位置信息对齐。
传统的方法使用类别标签作为Noised Content Queries的初始化输入,然而对于文本识别任务而言,类别只有背景和非背景两个类别,直接使用类别标签作为输入会导致输入的噪声太大,不足以构建Noised Content Queries,所以论文中使用文本字符构建这部分Queries。不过如果将标签中的字符拿出来直接使用,在与Noised Positional Queries相加的时候,如何让这两部分Queries对齐呢?如果不对位置和内容的对齐进行设计,直接使用标签中的字符作为初始化的Noised Content Queries,会造成严重的偏置,这种偏置会让最终的decoder的denoising part的输出的左侧部分的Queries预测文本,右侧部分用来预测背景。就像下图所示。
为什么这种固定位置的输出不好?主要是以下两点:1)不利用位置与内容的对齐,即位置信息与内容信息不应该以固定的顺序对齐;2)计算的损失采用的是CTC Loss [5],该损失解决了输入输出序列的不对齐问题,只要求输出序列中存在一条正确的序列即可。
所以论文提出了掩码字符滑动(MSC)的方法。即首先将每个字符均匀地复制在所有空间,然后以一定的概率随机mask掉连续重复的部分元素,这种字符复制的操作在视觉上看起来像是滑动的操作,所以论文中称为Mask Sliding Character(MSC)。经过滑动加Mask的操作,可以得到一条必然包含某一正确的序列(并且相对位置随机,可以迫使模型学习不同的输入模式)。在此基础上,就可以稳定地去添加噪声(即将字符以一定概率翻转成其他字符)。最后这些字符经过Embedding层即可得到Noised Content Queries。
2.3 Decoder
最后将Matching Part的queries与Denoising Part的queries进行拼接,即可得到decoder的输入queries。模型的输出部分结合了DeepSolo和DINO [6]的方式,即采用不同的预测头来预测不同的任务,并且降噪部分的预测不经过二分图匹配算法,直接进行损失计算。最后在推理的过程中会移除掉Denoising Part部分。
损失计算包含两部分:Matching Part的损失计算以及 Denoising Part的损失计算,其中Matching Part损失计算和DeepSolo是完全一样的,使用focal loss 和 CTC loss计算文本部分的损失,L1 loss计算坐标损失。在Denoising Part略有不同,额外使用了一个交叉熵损失计算背景损失。
03 实验
3.1 主要实验结果
在公开的benchmark(Total-Text和CTW1500)上,可以明显看到性能的提升。尤其是在'None'结果上,在TotalText和CTW1500数据集比基线模型DeepSolo分别高出 2.0% 和 2.8%。
此外这篇论文在附录部分还提交了InverseText数据集的检测结果,在F1-score上,比DeepSolo高出了8.9%。并且这是没有使用额外Rotate数据集的效果,性能达到了非常好的效果。
3.2 消融实验
消融实验部分更多的强调了
1)在贝塞尔控制点上加噪比直接在贝塞尔中心曲线上的采样点加噪声的优势(BCP)
2)强调了降噪训练中位置与文本进一步对齐的效果,即Mask Sliding Character(MSC)的效果
3)额外使用的背景计算损失的效果
3.3 可视化结果
下图为在InverseText数据集上的可视化结果,可以看到,对于这些比较难的案例,DNTextSpotter的识别效果仍然可以非常好。我们对比了之前最强的两个SOTA模型--ESTextSpotter和DeepSolo,发现可以明显取得更加优异的结果。
此外,我们也添加了一些其他数据集上的可视化结果。
04 业务中应用
我们的降噪训练方法可以在推理过程中提升性能的同时,不产生额外开销。所以有很强的应用场景,并且采用降噪训练策略后,模型在保持高效推理的同时,进一步提升了识别的准确性和鲁棒性。以下是一些应用场景:
低质量视频和图片处理:针对bilibili用户上传的低质量视频或图片进行文字识别,特别是在视频压缩、画质模糊、噪声较大的情况下,模型仍能准确识别文本内容。这对于处理用户生成内容(UGC)或低分辨率视频非常有价值。
恶劣环境下的文本识别:在视频拍摄于光线不足、天气恶劣(如雨天、雪天)、或有较多背景噪声(如霓虹灯干扰、图案复杂背景)的情况下,模型依然能有效地识别文本信息。这有助于提升用户在各种场景下的视频体验。
这些场景不仅能展现出此方案在复杂、高强度任务中的出色表现,还能为bilibili平台带来更多创新的应用和商业机会,进一步提升用户体验和平台竞争力。
05 总结与展望
这篇论文提出一种新颖的降噪训练方式,设计了一个符合任务特性的降噪训练方法。并且该方法经过简单的修改即可扩展到其他的基于DETR的文本识别器。针对其他领域的任务,是不是也可以从任务属性的角度出发,来设计降噪训练任务,从而优化模型的性能呢?
此外,文章中在InverseText数据集上的效果尤其的好,但是实际上论文中所采用的数据集,并没有专门针对翻转文本(Inverse-like Text)的额外数据集。这种优异表现是否能够表明,降噪训练在一定程度上可能有助于缓解长尾识别问题?
参考文献
-End-
作者丨seasonxy、Jerry酱
开发者问答
在当前技术快速发展的时代下,对于图像文本识别的科研和落地工作,大家都有什么样的想法呢?欢迎在留言区告诉我们。转发并留言,小编将选取1则最有价值的评论,送出龙年小电视鼠标垫键盘垫(见下图)。11月29日中午12点开奖。如果喜欢本期内容的话,欢迎点个“在看”吧!
往期精彩指路
丨丨
丨丨
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...