0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于Transformer架构的文档图像自监督预训练技术

CVer 来源:CSIG文档图像分析与识别专 作者:CSIG文档图像分析与 2022-11-15 11:32 次阅读

本文简要介绍ACM MM 2022录用论文“DiT: Self-supervised Pre-training for Document Image Transformer”[1]的主要工作。该论文是2022年微软亚研院发表的LayoutLM V3[2]的前身工作,主要解决了文档领域中标注数据稀少和以视觉为中心的文档智能任务骨干网络的预训练问题。

一、研究背景

近年来自监督预训练技术已在文档智能领域进行了许多的实践,大多数技术是将图片、文本、布局结构信息一起输入统一的Transformer架构中。在这些技术中,经典的流程是先经过一个视觉模型提取额外文档图片信息,例如OCR引擎或版面分析模型,这些模型通常依赖于有标注数据训练的视觉骨干网络。已有的工作已经证明一些视觉模型在实际应用中的性能经常受到域迁移、数据分布不一致等问题的影响。而且现有的文档有标注数据集稀少、样式单一,训练出来的骨干网络并非最适用于文档任务。因此,有必要研究如何利用自监督预训练技术训练一个专用于文档智能领域的骨干网络。本文针对上述问题,利用离散变分编码器和NLP领域的常用预训练方式实现了文档图像的预训练。

5053a420-62a5-11ed-8abf-dac502259ad0.png

图1具有不同布局和格式的视觉丰富的业务文档,用于预培训DiT

二、DiT原理简述

2.1总体结构

5088a166-62a5-11ed-8abf-dac502259ad0.png

图2 DiT的总体架构

Fig 2是DiT的整体结构。DiT使用ViT[3]作为预训练的骨干网络,模型的输入是图像Patch化后的Embedding特征向量,Patch的数量和离散变分编码器的下采样比例有关。输入经过ViT后输出到线性层进行图像分类,分类层的大小是8192。预训练任务和NLP领域的完型填空任务一致,先对输入的Patch随机掩膜,在模型输出处预测被遮盖的Patch对应的Token,Token由Fig 2 中左侧的离散变分编码器生成,作为每个Patch的Label,预训练过程使用CE Loss监督。

2.2 离散变分编码器dVAE

离散变分编码器作为Image Tokenizer,将输入的Patch Token化,来源于论文DALL-E[4],在预训练任务开始前需要额外训练。本文使用数据集IIT-CDIP[5]重新训练了DALL-E中的离散变分编码器以适用于文档任务。在预训练任务中只使用到编码器的部分,解码器不参与预训练,编码器将输入图片下采样到原来的1/8,例如输入尺度为112*112,那编码后的Token Map为14*14,此时的Map大小,应与ViT输入Patch数保持一致。

2.3 模型微调

50e1f356-62a5-11ed-8abf-dac502259ad0.png

图3在不同检测框架中应用DiT作为骨干网络的图示

模型预训练完成后,需针对下游任务进行微小的结构改动,针对分类任务,输入经过平均池化和线性层进行分类。针对检测任务,如Fig 3所示,在ViT的特定层进行下采样或上采样,然后输入到FPN和后续的检测框架中。

三、主要实验结果及可视化效果

表1.RVL-CDIP上的文档图像分类精度(%),其中所有模型都使用224×224分辨率的纯图像信息(无文本信息)。

51049230-62a5-11ed-8abf-dac502259ad0.png

表2.PubLayNet验证集上的文档布局分析mAP@IOU[0.50:0.95]。ResNext-101-32×8d缩短为ResNext,级联为C。

5123f530-62a5-11ed-8abf-dac502259ad0.png

表3.ICDAR 2019 cTDaR的表检测精度(F1)

514b34ce-62a5-11ed-8abf-dac502259ad0.png

表4.文本检测精度(IoU@0.5)在FUNSD任务#1中,掩码R-CNN与不同的主干(ResNeXt、DeiT、BEiT、MAE和DiT)一起使用。“+syn”表示使用包含1M文档图像的合成数据集训练DiT,然后使用FUNSD训练数据进行微调。

51edced2-62a5-11ed-8abf-dac502259ad0.png

520d00f4-62a5-11ed-8abf-dac502259ad0.png

图4使用不同标记器进行图像重建

从左到右:原始文档图像,使用自训练dVAE标记器进行图像重建,使用DALL-E标记器进行的图像重建从表1、表2、表3、表4

来看,文章所提方法在各种下游任务中取得了state-of-the-art的结果,验证了该方法在文档领域的有效性。Fig 4中展示了重新训练的离散变分编码器的可视化输出,结果显示本文中的离散变分编码器效果更好。

四、总结及讨论

本文设计了一个利用大量无标签文档图像预训练ViT的自监督方法,该方法的核心是利用离散变分编码器对图像Patch进行Token化,再使用NLP领域的掩码重建任务进行预训练。从实验结果可以看出,该方法在多个下游任务的有效性,探索了自监督任务在文档领域的可能性。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    42

    文章

    3460

    浏览量

    132226
  • 数据
    +关注

    关注

    8

    文章

    6566

    浏览量

    87952

原文标题:上交&微软提出DiT:一种基于Transformer的文档图像自监督预训练方法 | ACM MM 2022

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    大语言模型:原理与工程时间+小白初识大语言模型

    种语言模型进行训练,此处训练为自然语言处理领域的里程碑 分词技术(Tokenization) Word粒度:我/贼/喜欢/看/大语言模
    发表于 05-12 23:57

    【大语言模型:原理与工程实践】大语言模型的训练

    大语言模型的核心特点在于其庞大的参数量,这赋予了模型强大的学习容量,使其无需依赖微调即可适应各种下游任务,而更倾向于培养通用的处理能力。然而,随着学习容量的增加,对训练数据的需求也相应
    发表于 05-07 17:10

    【大语言模型:原理与工程实践】大语言模型的基础技术

    全面剖析大语言模型的核心技术与基础知识。首先,概述自然语言的基本表示,这是理解大语言模型技术的前提。接着,详细介绍自然语言处理训练的经典结构Tr
    发表于 05-05 12:17

    【大语言模型:原理与工程实践】核心技术综述

    训练和微调,直到模型的部署和性能评估。以下是对这些技术的综述: 模型架构: LLMs通常采用深层的神经网络架构,最常见的是
    发表于 05-05 10:56

    OpenAI推出Sora:AI领域的革命性突破

    大模型的核心技术是自然语言处理(NLP)和深度学习。具体而言,它基于Transformer架构,使用了大规模无监督学习方法,例如自回归语言建模和掩码语言建模,来
    发表于 02-21 16:36 861次阅读
    OpenAI推出Sora:AI领域的革命性突破

    如何使用Python进行图像识别的自动学习自动训练

    如何使用Python进行图像识别的自动学习自动训练? 使用Python进行图像识别的自动学习和自动训练需要掌握一些重要的概念和技术。在本文中
    的头像 发表于 01-12 16:06 307次阅读

    Transformer迎来强劲竞争者 新架构Mamba引爆AI圈!

    作为通用序列模型的骨干,Mamba 在语言、音频和基因组学等多种模态中都达到了 SOTA 性能。在语言建模方面,无论是预训练还是下游评估,他们的 Mamba-3B 模型都优于同等规模的 Transformer 模型,并能与两倍于其规模的
    发表于 12-07 14:14 380次阅读
    <b class='flag-5'>Transformer</b>迎来强劲竞争者 新<b class='flag-5'>架构</b>Mamba引爆AI圈!

    基于transformer和自监督学习的路面异常检测方法分享

    铺设异常检测可以帮助减少数据存储、传输、标记和处理的压力。本论文描述了一种基于Transformer和自监督学习的新方法,有助于定位异常区域。
    的头像 发表于 12-06 14:57 907次阅读
    基于<b class='flag-5'>transformer</b>和自<b class='flag-5'>监督</b>学习的路面异常检测方法分享

    动态场景下的自监督单目深度估计方案

    监督单目深度估计的训练可以在大量无标签视频序列来进行,训练集获取很方便。但问题是,实际采集的视频序列往往会有很多动态物体,而自监督训练本身
    发表于 11-28 09:21 354次阅读
    动态场景下的自<b class='flag-5'>监督</b>单目深度估计方案

    关于深度学习模型Transformer模型的具体实现方案

    Transformer 本质上是一个 Encoder-Decoder 架构。因此中间部分的 Transformer 可以分为两个部分:编码组件和解码组件。
    发表于 11-17 10:34 381次阅读
    关于深度学习模型<b class='flag-5'>Transformer</b>模型的具体实现方案

    盘古大模型与ChatGPT的模型基础架构

    华为盘古大模型以Transformer模型架构为基础,利用深层学习技术进行训练。模型的每个数量达到2.6亿个,是目前世界上最大的汉语预备训练
    的头像 发表于 09-05 09:55 1750次阅读

    RetNet架构Transformer架构对比分析

    微软研究院最近提出了一个新的 LLM 自回归基础架构 Retentive Networks (RetNet)[1,4],该架构相对于 Transformer 架构的优势是同时具备:
    发表于 07-26 10:44 1025次阅读
    RetNet<b class='flag-5'>架构</b>和<b class='flag-5'>Transformer</b><b class='flag-5'>架构</b>对比分析

    基础模型自监督训练的数据之谜:大量数据究竟是福还是祸?

    大型语言模型如 ChatGPT 的成功彰显了海量数据在捕捉语言模式和知识方面的巨大潜力,这也推动了基于大量数据的视觉模型研究。在计算视觉领域,标注数据通常难以获取,自监督学习成为预训练的主流方法
    的头像 发表于 07-24 16:55 351次阅读
    基础模型自<b class='flag-5'>监督</b>预<b class='flag-5'>训练</b>的数据之谜:大量数据究竟是福还是祸?

    基于鲁棒神经架构的设计

    导读 继卷积神经网络之后,Transformer又推进了图像识别的发展,成为视觉领域的又一主导。最近有人提出Transformer的这种优越性应归功于Self-Attention的架构
    的头像 发表于 07-17 14:35 333次阅读
    基于鲁棒神经<b class='flag-5'>架构</b>的设计

    2D Transformer 可以帮助3D表示学习吗?

    训练的2D图像或语言Transformer:作为基础Transformer模型,具有丰富的特征表示能力。作者选择了先进的2D Transforme
    的头像 发表于 07-03 10:59 524次阅读
    2D <b class='flag-5'>Transformer</b> 可以帮助3D表示学习吗?