0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

StrucTexTv2:端到端文档图像理解预训练框架

CVer 来源:CSIG文档图像分析与识别专 2023-04-10 11:29 次阅读

本文简要介绍ICLR 2023录用论文“StrucTexTv2: Masked Visual-Textual Prediction for Document Image Pre-training”的主要工作。针对当前主流多模态文档理解预训练模型需要同时输入文档图像和OCR结果,导致欠缺端到端的表达能力且推理效率偏低等问题,论文提出了一种全新的端到端文档图像多模态表征学习预训练框架StrucTexTv2。该框架设计了一种基于词粒度图像区域掩码、多模态自监督预训练任务(MIM+MLM),仅需要图像单模态输入,使得编码器网络能在大规模无标注文档图像上充分学习视觉和语言联合特征表达,并在多个下游任务的公开基准上取得SOTA效果。

一、研究背景

视觉富文档理解技术例如文档分类、版式分析、表单理解、OCR以及信息提取,逐渐成为文档智能领域一个热门研究课题。为了有效处理这些任务,前沿的方法大多利用视觉和文本线索,将图像、文本、布局等信息输入到参数网络,并基于大规模数据上的自监督预训练挖掘出文档的多模态特征。由于视觉和语言之间的模态差异较大,如图1所示,主流的文档理解预训练方法大致可分为两类:a)掩码语言建模(Masked Language Modeling)[9],对输入的掩码文本Token进行语言建模,运行时文本的获取依赖于OCR引擎,整个系统的性能提升需要对OCR引擎和文档理解模型两个部件进行同步优化;b)掩码图像建模(Masked Image Modeling)[10],对输入的掩码图像块区进行像素重建,此类方法倾向应用于图像分类和版式分析等任务上,对文档强语义理解能力欠佳。针对上述两种预训练方案呈现的瓶颈,本文提出了StrucTexTv2:c)统一图像重建与语言建模方式,在大规模文档图像上学习视觉和语言联合特征表达。

b763a806-d6f2-11ed-bfe3-dac502259ad0.png

图1 主流文档图像理解预训练框架比较

二、方法原理简述

b78e650a-d6f2-11ed-bfe3-dac502259ad0.png

图2 整体框架图

图2描绘了StrucTexTv2的整体框架,主要包含编码器网络和预训练任务分支两部分。编码器网络,主要通过FPN结构串联CNN组件和Transformer组件构成;预训练分支则包含了掩码语言建模(MLM)和掩码图像建模(MIM)双预训练任务头。

2.1 编码器网络

StrucTexTv2采用CNN和Transformer的串联编码器来提取文档图像的视觉和语义特征。文档图像首先经过ResNet网络以获取1/4到1/32的四个不同尺度的特征图。随后采用一个标准的Transformer网络接收最小尺度的特征图并加上1D位置编码向量,提取出包含全局上下文的语义特征。该特征被重新转化为2D形态后,与CNN的其余三个尺度特征图通过FPN[6]融合成4倍下采样的特征图,作为整图的多模态特征表示。

2.2 预训练策略

为了统一建模MLM和MIM两种模态预训练方式,论文提出了一种基于词粒度图像区域掩码预测方式来学习视觉和语言联合特征表达。首先,随机筛选30%的词粒度OCR预测结果(仅在预训练阶段使用),根据OCR的位置信息直接在原图对应位置像素进行掩码操作(比如填充0值)。接着,掩码后的文档图像直接送入编码器网络去获得整图的多模态特征表示。最后,再次根据选中的OCR位置信息,采用ROIAlign[11]操作去获得每个掩码区域的多模态ROI特征。

掩码语言建模:借鉴于BERT[9]构建的掩码语言模型思路,语言建模分支使用一个2层的MLP将词区域的ROI特征映射到预定义的词表类别上,使用Cross Entropy Loss监督。同时为了避免使用词表对文本序列进行标记化时单个词组被拆分成多个子词导致的一对多匹配问题,论文使用分词后每个单词的首个子词作为分类标签。此设计带来的优势是:StrucTexTv2的语言建模无需文本作为输入。

掩码图像建模:考虑到基于图像Patch的掩码重建在文档预训练中展现出一定的潜力,但Patch粒度的特征表示难以恢复文本细节。因此,论文将词粒度掩码同时用作图像重建,即预测被掩码区域的原始像素值。词区域的ROI特征首先通过一个全局池化操作被压缩成特征向量。其次,为了提升图像重建的视觉效果,论文将通过语言建模后的概率特征与池化特征进行拼接,为图像建模引入“Content”信息,使得图像预训练专注于复原文本区域的“Style”部分。图像建模分支由3个全卷积 Block构成。每个Block包含一个Kernel=2×2,Stride=4的反卷积层,一个Kernel=1×1,以及两个Kernel=3×1卷积层。最后,每个单词的池化向量被映射成一个大小为64×64×3的图像,并逐像素与原本的图像区域做MSE Loss。

论文提供了Small和Large两种参数规格的模型,并在IIT-CDIP数据集上使用百度通用高精OCR的文字识别结果预训练编码网络。

三、实验结果

论文在四个基准数据集上测试模型对文档理解的能力,在五个下游任务上使用不同的Head进行Fine-tune并给出实验结论。表1给出模型在RVL-CDIP[13]验证文档图像分类的效果。同比基于图像单模态输入的方法DiT[4],StrucTexTv2以更少的参数量取得了更优的分类精度。

表1 RVL-CDIP数据集上文档图像分类的实验结果

b7a649f4-d6f2-11ed-bfe3-dac502259ad0.png

如表2和表3所示,论文结合预训练模型和Cascade R-CNN[1]框架fine-tune去检测文档中的版式元素以及表格结构,在PubLaynet[8]以及WWW[12]数据集上取得了当前的最好性能。

表2 PubLaynet数据集上版式分析的检测结果

b7c91768-d6f2-11ed-bfe3-dac502259ad0.png

表3 WWW数据集上表格结构识别的性能对比

b7dc946e-d6f2-11ed-bfe3-dac502259ad0.png

在表4中,论文同时在FUNSD[3]数据集上进行了端到端OCR和信息提取两项实验,在基准测试中都取得了同期最优的效果。对比如StrucTexTv1[5]和LayoutLMv3[2]等OCR+文档理解的两阶段方法,证明了提出方法端到端优化的优越性。

表4 FUNSD数据集上端到端OCR以及信息抽取实验

b7f781de-d6f2-11ed-bfe3-dac502259ad0.png

接下来,论文对比了SwinTransformer[7]、ViT[10]以及StrucTexTv2的编码网络。从表5对比结果来看,论文提出CNN+Transformer的串联结构更有效地支持预训练任务。同时,论文给出了不同预训练配置的模型在文档图像分类和版式分析的性能增益,对两种模态预训练进行了有效性验证。

表5 预训练任务以及编码器结构的消融实验

b805550c-d6f2-11ed-bfe3-dac502259ad0.png

同时,论文中评估了模型在预测时的耗时和显存开销。表6中给出了两种OCR引擎带来的开销以及并与现阶段最优的多模态方法LayoutLMv3进行了比较。

表6 与两阶段的方法LayoutLMv3的资源开销对比

b822d208-d6f2-11ed-bfe3-dac502259ad0.png

最后,论文评估了表7所示在图像重建预训练中使用不同的掩码方式对下游任务的影响。在RVL-CDIP和PubLaynet两个数据集上,基于词粒度掩码的策略可以获取到更有效的视觉语义特征,确保更好的性能。

表7 预训练任务以及编码器结构的消融实验

b834a3e8-d6f2-11ed-bfe3-dac502259ad0.png

总结及讨论

论文出的StructTexTv2模型用于端到端学习文档图像的视觉和语言联合特征表达,图像单模态输入条件下即可实现高效的文档理解。论文提出的预训练方法基于词粒度的图像掩码,能同时预测相应的视觉和文本内容,此外,所提出的编码器网络能够更有效地挖掘大规模文档图像信息。实验表明,StructTexTv2在模型大小和推理效率方面对比之前的方法都有显著提高。更多的方法原理介绍和实验细节请参考论文原文。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1085

    浏览量

    40490
  • OCR
    OCR
    +关注

    关注

    0

    文章

    144

    浏览量

    16382

原文标题:ICLR 2023 | StrucTexTv2:端到端文档图像理解预训练框架

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    自动驾驶技术研究与分析

    编者语:「智驾最前沿」微信公众号后台回复:C-0450,获取本文参考报告:《自动驾驶行业研究报告》pdf下载方式。 自动驾驶进入2024年,
    的头像 发表于 12-19 13:07 211次阅读

    在自动泊车的应用

    要做到15Hz以上。这样就对存储和算力需求降低很多。 上海交通大学的五位学生发表了一篇自动泊车的论文:《ParkingE2E: Camera-based End-to-end P
    的头像 发表于 12-18 11:38 393次阅读
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>在自动泊车的应用

    爆火的如何加速智驾落地?

    编者语:「智驾最前沿」微信公众号后台回复:C-0551,获取本文参考报告:《智能汽车技术研究报告》pdf下载方式。 “
    的头像 发表于 11-26 13:17 299次阅读
    爆火的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>如何加速智驾落地?

    连接视觉语言大模型与自动驾驶

    自动驾驶在大规模驾驶数据上训练,展现出很强的决策规划能力,但是面对复杂罕见的驾驶场景,依然存在局限性,这是因为
    的头像 发表于 11-07 15:15 258次阅读
    连接视觉语言大模型与<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自动驾驶

    InfiniBand网络解决LLM训练瓶颈

    的,这需要大量的计算资源和高速数据传输网络。InfiniBand(IB)网络作为高性能计算和AI模型训练的理想选择,发挥着重要作用。在本文中,我们将深入探讨大型语言模型(LLM)
    的头像 发表于 10-23 11:26 422次阅读
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>InfiniBand网络解决LLM<b class='flag-5'>训练</b>瓶颈

    测试用例怎么写

    编写测试用例是确保软件系统从头到尾能够正常工作的关键步骤。以下是一个详细的指南,介绍如何编写
    的头像 发表于 09-20 10:29 484次阅读

    测试不正常如何处理

    正确地协同工作。然而,当测试出现问题时,处理起来可能会相当复杂。 1. 理解测试失败的原因 1.1 确定测试失败的类型 功能失败 :测试用例未能通过因为功能不符合预期。 性能失败
    的头像 发表于 09-20 10:25 380次阅读

    端接光缆怎么接

    端接光缆的接法主要遵循一系列标准化的步骤,以确保连接的质量和稳定性。以下是详细的接法步骤: 一、准备工作 确认光缆和端接头的规格:首先,需要确认光缆的类型(如单模或多模)、规格以及
    的头像 发表于 08-19 09:53 265次阅读

    实现自动驾驶,唯有

    ,去年行业主流方案还是轻高精地图城区智驾,今年大家的目标都瞄到了(End-to-End, E2E)。
    的头像 发表于 08-12 09:14 753次阅读
    实现自动驾驶,唯有<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>?

    大语言模型的训练

    能力,逐渐成为NLP领域的研究热点。大语言模型的训练是这一技术发展的关键步骤,它通过在海量无标签数据上进行训练,使模型学习语言的通用知识,为后续的任务微调奠定基础。本文将深入探讨大
    的头像 发表于 07-11 10:11 439次阅读

    小鹏汽车发布大模型

    小鹏汽车近日宣布,其成功研发并发布了“国内首个量产上车”的大模型,该模型可直接通过传感器输入内容来控制车辆,标志着智能驾驶技术的新突破。
    的头像 发表于 05-21 15:09 693次阅读

    【大语言模型:原理与工程实践】大语言模型的训练

    大语言模型的核心特点在于其庞大的参数量,这赋予了模型强大的学习容量,使其无需依赖微调即可适应各种下游任务,而更倾向于培养通用的处理能力。然而,随着学习容量的增加,对训练数据的需求也相应
    发表于 05-07 17:10

    佐思汽研发布《2024年自动驾驶研究报告》

    自动驾驶是直接从传感器信息输入(如摄像头图像、LiDAR等)控制命令输出(如转向、加减速等)映射的一套系统,最早出现在1988年的A
    的头像 发表于 04-20 11:21 3297次阅读
    佐思汽研发布《2024年<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自动驾驶研究报告》

    理想汽车自动驾驶模型实现

    理想汽车在感知、跟踪、预测、决策和规划等方面都进行了模型化,最终实现了的模型。这种模型不仅完全模型化,还能够虚拟化,即在模拟环境中进行训练和测试。
    发表于 04-12 12:17 464次阅读
    理想汽车自动驾驶<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>模型实现

    移动协作机器人的RGB-D感知的处理方案

    本文提出了一种用于具有双目视觉的自主机器人的三维语义场景感知的流程。该流程包括实例分割、特征匹配和点集配准。首先,利用RGB图像进行单视图三维语义场景分割,将
    发表于 02-21 15:55 706次阅读
    移动协作机器人的RGB-D感知的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>处理方案