一、研究背景
当前研究使用的数据集,大多有着几乎完美的OCR结果,合理的训练、验证集划分,而在文档信息抽取的实际任务中,由于多变的图像收集方式和部分糟糕的图像质量,OCR错误不可避免地会被引入后续的文档理解模型。不同使用场景下,也会面临多种多样的版式文档,如不同类型的收据、小票、发票、运单等,推理过程中很有可能会出现训练集中并没有出现过的版式,实际上这些问题同样充满挑战,本文将存在这些问题的任务定义为Document Information Extraction In The Wild。
已有的文档信息抽取模型大致可以分为三类。第一类,也是当前最常见的一类,是基于序列标注的方法,近期随着多模态的兴起,这类工作一般是提取融合多个模态特征,建模得到一个足够好的序列特征结果,然后直接进行序列分类标注。代表性的工作LiLT[2]通过改进Attention机制在序列建模时引入Layout信息,更好地完成序列标注任务。第二类是基于生成的方法,代表性工作TCPN[3]在CharGrid的基础上,同时使用了生成式方法和序列标注的方法,取得良好效果。第三类是基于连接的方法,代表性方法MatchVIE[4]设计了一个基于图神经网络的解码器,得到不同Sentence之间的连接关系。本文采用生成范式,设计了LCM、前缀查询生成以及拷贝-生成三种特殊机制,在DIE In The Wild任务上取得良好效果。图1为四类方法在不同程度的DIE In The Wild任务上的表现。
图1 不同类型方法针对不同难度任务的表现
二、方法原理简述
图2是本文提出方法的整体流程,该方法首先根据文档图像和OCR结果生成Embeddings,Embeddings的生成方式与LayoutLM[7]相同,将Embeddings送入QGN,主体部分QGN为一个加入Layout Content-aware Module(LCM)机制的Transformer Encoder-decoder结构,先经过Encoder对序列建模,预测出前缀Query,最后将前缀Query送入后续Decoder经过拷贝-生成机制生成得到Kvpair,最终组织为信息抽取结果。
2.1 Layout Content-aware Module(LCM)
许多序列建模方法更多关注临近位置信息的机制,在DIE In The Wild场景下并不奏效,面对不良阅读顺序的OCR结果,过度关注相对临近“位置”的信息反而容易导致结果的错误。同时仅有文本语义模态时,OCR错误带来有噪声的标注,同样容易削弱这种局部感知。LCM机制通过计算不同Token之间视觉、语义和空间模态向量的欧式距离并加入Attention Score,加强网络对于位置上弱关联Token的感知,缓解了上述问题。实际使用时,同时加入Mask,遮盖掉不同模态欧式距离过大的Token分数,起到滤除噪声的作用。LCM机制结构图如下图3所示:
2.2 Prefix Query Extraction(前缀query生成)
序列标注方法经过Encoder后直接进行序列标注,很容易受到错误阅读顺序和OCR噪声的影响,尤其难以判断标签的边界和始末。而本文的前缀Query生成阶段,对Encoder输出的序列先进行Value和Other的二分类,得到Value后分别与窗内其他Token聚合,得到输入Decoder的Query,进一步通过Decoder生成出需要提取的键值对,前缀Query生成流程如下图4所示:
2.3 Structrual Generation(拷贝-生成机制)
Structural Generation受PGN[1]的启发,采用了拷贝-生成机制。经仿射变换得到概率,Decoder生成结果和初始Attention Score分布依概率加权得到选词概率分布,最终取概率最高词为生成结果。Structural Generation流程如下图5所示:
预训练任务设计为掩码语言建模MLM,与UniLM[8]相同,预训练过程分为三阶段,第一阶段序列中所有Token计算Attention时都互相可见,第二阶段前半序列可见后半序列,后半序列不可见前半序列,第三阶段序列仅左边的Token可见右边Token,模型部分使用LayoutXLM[6]初始化,在IIT-CDIP和网上爬取的中英文文档共43M数据上,共预训练5个Epoch。Finetue阶段损失函数简单由两部分损失加权得到,公式如下:
为了模拟DIE In The Wild场景,提升模型鲁棒性,训练模型时使用了语义、空间和视觉三种增广,分别主要为10%字符替换、框抖动、图像的仿射变换和增强。
2.4 大型文档信息抽取数据集LastDoc4000
本文贡献了一个多版式、多关键信息实体类别的大型文档信息抽取数据集LastDoc4000。该数据集与其他主流信息抽取数据集的版式类型、文档Token长度以及需提取的Entity类别数量如表1和表2所示:
表2 需提取的Entity类比数量对比
三、实验结果
文中实验的不同Setup含义如下表3所示:
表3 不同Setup含义
QGN在主流信息抽取数据集上的表现如下表4所示:
表4 主流信息抽取数据集实验结果
QGN和常用方法InfoXLM以及LayoutXLM在LastDoc4000上的实验结果和部分可视化结果如下表5、图6和图7所示:
表5 在LastDoc4000上的实验结果
不同实验设置下的消融实验如下表6所示:
表6 不同实验设置下的消融实验
四、总结及讨论
五、相关资源
参考文献
[1] Abigail See, Peter J. Liu, and Christopher D. Manning. 2017. Get To The Point: Summarization with Pointer-Generator Networks. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1073–1083, Vancouver, Canada. Association for Computational Linguistics.
[2] Jiapeng Wang, Lianwen Jin, and Kai Ding. 2022. LiLT: A Simple yet Effective Language-Independent Layout Transformer for Structured Document Understanding. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 7747–7757, Dublin, Ireland. Association for Computational Linguistics.
[3] Jiapeng Wang, Tianwei Wang, Guozhi Tang, Lianwen Jin, Weihong Ma, Kai Ding, and Yichao Huang. 2021. Tag, Copy or Predict: A Unified Weakly-Supervised Learning Framework for Visual Information Extraction using Sequences. In Proceedings of the Thirtieth International Joint Conference on Artificial Intelligence, IJCAI 2021, Virtual Event / Montreal, Canada, 19-27 August 2021, Zhi-Hua Zhou (Ed.). ijcai.org, 1082–1090.
[4] Guozhi Tang, Lele Xie, Lianwen Jin, Jiapeng Wang, Jingdong Chen, Zhen Xu, Qianying Wang, Yaqiang Wu, and Hui Li. 2021. MatchVIE: Exploiting Match Relevancy between Entities for Visual Information Extraction. In Proceedings of the Thirtieth International Joint Conference on Artificial Intelligence, IJCAI 2021, Virtual Event / Montreal, Canada, 19-27 August 2021, Zhi-Hua Zhou (Ed.). ijcai.org, 1039–1045.
[5] Zewen Chi, Li Dong, Furu Wei, Nan Yang, Saksham Singhal, Wenhui Wang, Xia Song, Xian-Ling Mao, Heyan Huang, and Ming Zhou. 2021. InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language Model PreTraining. In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, NAACL-HLT 2021, Online, June 6-11, 2021, Kristina Toutanova, Anna Rumshisky, Luke Zettlemoyer, Dilek Hakkani-Tür, Iz Beltagy, Steven Bethard, Ryan Cotterell, Tanmoy Chakraborty, and Yichao Zhou (Eds.). Association for Computational Linguistics, 3576–3588.
[6] Yiheng Xu, Tengchao Lv, Lei Cui, Guoxin Wang, Yijuan Lu, Dinei Florêncio, Cha Zhang, and Furu Wei. 2021. LayoutXLM: Multimodal Pre-training for Multilingual Visually-rich Document Understanding. CoRR abs/2104.08836 (2021).
[7] Yiheng Xu, Minghao Li, Lei Cui, Shaohan Huang, Furu Wei, and Ming Zhou. 2020. LayoutLM: Pre-training of Text and Layout for Document Image Understanding. In KDD ’20: The 26th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, Virtual Event, CA, USA, August 23-27, 2020, Rajesh Gupta, Yan Liu, Jiliang Tang, and B. Aditya Prakash (Eds.). ACM, 1192–1200.
[8] Li Dong, Nan Yang, Wenhui Wang, Furu Wei, Xiaodong Liu, Yu Wang, Jianfeng Gao, Ming Zhou, and Hsiao-Wuen Hon. 2019. Unified Language Model Pretraining for Natural Language Understanding and Generation. In Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems 2019, NeurIPS 2019, December 8-14, 2019, Vancouver, BC, Canada, Hanna M. Wallach, Hugo Larochelle, Alina Beygelzimer, Florence d’Alché-Buc, Emily B. Fox, and Roman Garnett (Eds.). 13042–13054.
撰稿:李 腾
编排:高 学
审校:殷 飞
发布:金连文
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
[COLING 2022] 广泛阅读,巧妙聚焦: 一种视觉富文档实体抽取的跨文档语义增强方法
[IJCV 2022] PageNet: 面向端到端弱监督篇幅级手写中文文本识别(已开源)
[ECCV 2022] 别忘记我:通过局部-全局内容建模进行文本擦除方法
[ECCV2022] 基于门控注意力和ROI生成的场景文本擦除方法:重要模型的综合分析(已开源)
[IJCAI 2022] SVTR: 基于单个视觉模型的场景文字识别算法(已开源)
[ECCV 2022] OCR-free Document Understanding Transformer (已开源)
MSDS:一个用于笔迹认证的大规模中文签名和令牌数字串数据集
[ECCV 2022]| OCR-free Document Understanding Transformer (有源码)
[ECCV2022] LevOCR:一种基于视觉语言Transformer的可解释性文字识别方法(已开源)
[ECCV 2022] Levenshtein OCR(已开源)
还没有评论,来说两句吧...