0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

面向中文搜索的开放域文档视觉问答任务解决方案

深度学习自然语言处理 来源:哈工大SCIR 作者:齐乐 2022-07-08 11:19 次阅读

摘要

开放域问答在现实生活中有着广泛的应用,例如搜索引擎、企业问答、医疗问答等等。然而,现有开放域问答系统通常需要消耗大量成本针对不同格式的异构文档(如PDF、网页、扫描文档等)设计特定的内容抽取算法,预先从文档中抽取文本内容作为系统的信息来源。这不仅限制了现有系统的可扩展能力,还损失了文档中的布局和视觉信息。为此,本文提出了一个全新的开放域文档视觉问答任务,直接以异构文档图像集合为信息来源回答用户提问,并提出了中文开放域文档视觉问答数据集DuReadervis。DuReadervis共包含158K文档图像和15K对问答对,主要挑战包括:1)长文档理解;2)噪声干扰;和3)多片段答案抽取。

1. 背景

现有开放域问答系统主要以文本集合作为信息来源回答用户提问,如图1所示,现有系统通常需要花费大量成本根据不同的文档格式设计特定的内容抽取算法,预先从异构文档中抽取文本内容。这无疑限制了开放域问答系统的可扩展(scalable)能力。一个可扩展的问答系统应能同时处理各种格式文档,还可以轻松地迁移到尚未见过的文档格式中。此外,现有系统由于只抽取了文本内容,因此会损失原始文档中极有价值的布局特征(如字体大小、列表格式或表格格式等)和视觉特征(如文本颜色、图像等)。

图1 开放域问答系统通用流程,需要根据文档格式和来源设计不同的内容抽取器抽取文本内容

2. 开放域文档视觉问答

为了提升开放域问答系统的可扩展能力,同时充分利用异构文档中的布局和视觉信息,本文提出了一个全新的问答任务,即开放域文档视觉问答(Open-domain Document Visual Question Answering,Open-domain DocVQA)。该任务从视觉角度描述异构文档,直接以从异构文档转换得到的文档图像集合为信息来源来回答用户提问。如图2所示,该任务通过通用抽取器(如OCR)抽取文档图像中的文本内容和布局结构,然后将这些信息连同文档图像的视觉特征应用于后续流程中。

图2 开放域文档视觉问答通用流程,将不同格式文档视为文档图像,只需类似于OCR的通用抽取器抽取其中的文本内容和布局特征

与开放域问答类似,该任务也包含两个阶段:

文档视觉检索(Document Visual Retrieval,DocVRE):从原始的文档图像集合中检索和问题相关的小规模候选文档图像集合

文档视觉问答(Document Visual Question Answering,DocVQA):根据检索结果抽取单个或多个文本片段作为问题答案

3. DuReadervis

为了推动开放域文档视觉问答的发展,本文从百度搜索日志中收集用户向搜索引擎提出的真实问题和相关网页并进行了问答对的标注,提出中文开放域文档视觉问答数据集DuReadervis。相比于现有的文档视觉问答数据集,DuReadervis的问题面向真实用户提问,可以满足开放域的信息搜索需求。此外,DuReadervis中的文档图像均来自于互联网网页,包含丰富的文本内容和视觉特征以及复杂多样的布局结构,而且DuReadervis需要抽取格式复杂的长答案,如多片段文本型答案、列表型答案和表格型答案。表1对比了DuReadervis和现有文档视觉问答数据集。

表1 DuReadervis与其他文档视觉问答数据集的对比

3.1 数据集统计分析

DuReadervis共包含158K文档图像和15K问答对,其中训练集包括11K问答对;开发集包括1.5K问答对;测试集包括2.5K问答对。

文档图像

DuReadervis中的文本内容的平均长度和文档图像的平均大小要远超于其他数据集,表明DuReadervis中的文档图像包含更丰富的文本内容和视觉特征。此外,DuReadervis中的文档图像来自于17000多个随机网站,文档主题和布局结构多样性高。另一方面,通常情况下网页中会包含大量的噪声信息,会对模型理解文档产生干扰。

问题和答案

现有文档视觉问答数据集中的问题主要为事实类问题。而在DuReadervis中,问题类型同时包含事实类和非事实类问题。本文随机筛选了200条问题人工进行分类,发现43%的问题是非事实类问题。DuReadervis中的答案平均长度也要远长于其他数据集中的答案平均长度。此外,DuReadervis的答案格式复杂,包含约40%的文本型答案、25%的列表型答案和35%的表格型答案。在列表型和表格型答案中,很多答案都是不连续的,需要抽取多片段答案。

表2 数据集统计特征

3.2 数据集挑战

总体而言,DuReadervis的主要挑战包括以下三点:

长文档理解:DuReadervis中的文档图像均转换自互联网页面,包含更长的文本内容、更丰富的视觉特征和复杂的布局结构;

噪声干扰:来自于网页的文档图像中会包含大量噪声信息,例如广告、相关推荐等,增大了文档图像的理解难度;

多片段答案抽取:DuReadervis中的答案格式更加复杂,包含文本、列表和表格型答案,需要模型抽取多片段长答案。

3.3 数据集样例

传统的开放域问答系统可以通过设计特殊的内容抽取算法可以很好地去除表格外的噪声干扰,但提取的文本内容很难保留表格的布局结构,系统很难得知不同单元格文本内容间的语义关联。相比之下,开放域文档视觉问答系统则可以通过表格的布局特征更轻松地建模单元格文本内容间的语义关联,通过“站点”这一列标题找到问题的答案。

4. 基线方法

本文为DuReadervis提出了一个基线方法。该方法包括三部分:

基于PaddleOCR的通用内容抽取:利用PaddleOCR技术从文档图像中抽取文本内容和布局结构作为系统输入;

基于BM25的文档视觉检索:根据抽取出的文本内容构建检索库,再利用BM25算法检索相关文档图像;

基于层次化LayoutXLM的文档视觉问答:为了从候选文档图像中抽取问题答案,本文提出了层次化LayoutXLM模型。如图4所示,该模型利用层次化建模的方式建模DuReadervis中的长文本内容,并通过基于CRF的序列标注算法抽取多片段答案。其中,LayoutXLM[4]是以文本、布局和视觉特征为输入的面向多语言跨模态文档的预训练模型。

图4 层次化LayoutXLM模型架构

5. 实验

5.1 实验设置

为了验证所提方法的有效性,本文在文档视觉问答和开放域文档视觉问答任务上进行了实验,将层次化LayoutXLM与基于纯文本预训练模型的层次化RobertaXLM[5]以及层次化BERT[6]进行对比。其中,在开放域文档视觉问答实验中,本文使用BM25算法检索回与问题最相关的文档图像进行答案抽取。两个任务的评价指标均为F1和Rouge-L。

5.2 实验结果

如表3和表4所示,相比于基于纯文本预训练模型的方法,层次化LayoutXLM的性能有明显提高,然而其整体性能仍与人类表现有一定差距。这表明,一方面布局结构和视觉特征有助于模型理解文档图像,另一方面无论是文档视觉问答亦或是开放域文档视觉问答均有着较大的提升空间。

6. 结论

本文为了提高开放域问答系统的可扩展能力,使其可以用较低的成本以不同格式的异构文档作为其信息来源,提出了一个全新的开放域文档视觉问答任务,直接以从异构文档转换得到的文档图像集合来回答用户提问。为了推动该任务的发展,本文提出了中文开放域文档视觉问答数据集DuReadervis,包含158K文档图像和15K问答对。DuReadervis包含三个挑战:1)长文档理解;2)噪声干扰;3)多片段答案抽取。同时,本文提出了一个基线系统并进行了实验,实验结果表明现有基线系统和人类表现仍有一定差距,开放域文档视觉问答任务仍有较大的提升空间。除研究目的外,开放域文档视觉问答的相关技术已初步应用于诸如汽车、电子、银行等行业的问答系统中,并在飞桨AI Studio上开放。

审核编辑:郭婷


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 汽车电子
    +关注

    关注

    3023

    文章

    7837

    浏览量

    166094
  • 数据集
    +关注

    关注

    4

    文章

    1204

    浏览量

    24627

原文标题:ACL2022 | 面向中文真实搜索场景的开放域文档视觉问答数据集

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    安森美机器视觉系统解决方案

    机器视觉广泛应用于工业领域,涵盖众多应用场景。在制造业中,利用机器视觉执行的任务有:对子组件进行最终检查,查验零件有无潜在制造缺陷等等。在自动化领域,机器视觉在引导机器人方面发挥着重要
    的头像 发表于 11-14 09:53 70次阅读
    安森美机器<b class='flag-5'>视觉</b>系统<b class='flag-5'>解决方案</b>

    TE一站式解决方案,助您“”见未来

    在汽车电子系统中, “”的概念源于车辆功能的不断增加和电子电气架构的迭代升级。传统的分布式控制架构难以高效管理众多功能,因此,车辆系统逐渐被划分为不同的“功能”(如动力、车身
    的头像 发表于 11-04 10:20 187次阅读

    面向功能安全应用的汽车开源操作系统解决方案

    在SAE 2024国际汽车安全大会上,Elektrobit的Linux专家王红燕在操作系统与芯片技术的分论坛上为大家带来了“面向功能安全应用的汽车开源操作系统解决方案”主题演讲。
    的头像 发表于 09-27 09:21 397次阅读
    <b class='flag-5'>面向</b>功能安全应用的汽车开源操作系统<b class='flag-5'>解决方案</b>

    面向热插拔应用的 I2C 解决方案

    电子发烧友网站提供《面向热插拔应用的 I2C 解决方案.pdf》资料免费下载
    发表于 09-09 10:03 1次下载
    <b class='flag-5'>面向</b>热插拔应用的 I2C <b class='flag-5'>解决方案</b>

    基于VPLC7机器视觉运动控制一体机的UVW视觉对位解决方案

    UVW视觉对位解决方案
    的头像 发表于 08-01 09:54 467次阅读
    基于VPLC7机器<b class='flag-5'>视觉</b>运动控制一体机的UVW<b class='flag-5'>视觉</b>对位<b class='flag-5'>解决方案</b>

    寻找低功耗、宽温的开关解决方案?Standex Electronics干簧开关是您的理想选择!

    寻找低功耗、宽温的开关解决方案?Standex Electronics干簧开关是您的理想选择!
    的头像 发表于 06-12 13:24 2909次阅读
    寻找低功耗、宽温<b class='flag-5'>域</b>的开关<b class='flag-5'>解决方案</b>?Standex Electronics干簧开关是您的理想选择!

    光庭信息推出了基于S32G+8295+J5新架构的中央解决方案

    在智能化浪潮席卷汽车行业的今天,光庭信息作为“软件定义汽车”的引领者,推出了基于S32G+8295+J5新架构的中央解决方案
    的头像 发表于 05-07 14:33 687次阅读

    基于VPLC711的曲面外观检测XYR运动控制解决方案

    自动化设备核心任务; ●多维位置同步输出PSO,可在连续加工过程中精准控制点胶胶量和激光能量等参数; ●开放式IPC形态实时软控制器/软PLC,可灵活集成运动控制+视觉一体化解决方案
    发表于 04-16 17:58

    开放式高实时高性能PLC控制器解决方案-基于米尔电子STM32MP135

    实时高性能需求尤其突出。面对以上挑战,合作伙伴翌控科技基于米尔STM32MP135开发板发布开放式高实时高性能PLC控制器解决方案,将高精准数据采集、预处理、存储、通信与高实时控制融为一体,为控制系统
    发表于 03-07 20:06

    常见的视觉编码器有哪些 图像编码和视觉编码的区别

    视觉编码器是一种能够处理视频理解任务的模型,它能够通过单一冻结模型,处理各种视频理解任务,包括分类、本地化、检索、字幕和问答等。
    的头像 发表于 02-26 14:24 1803次阅读

    波形智能发布新一代中文内容创作大模型Weaver

    近日,人工智能领域的创新企业波形智能(AIWaves)在杭州成功举办首个技术开放日(AIWaves DevDay),并正式发布了新一代自主研发的中文内容创作垂SOTA大模型「Weaver」。同时
    的头像 发表于 01-30 17:35 1305次阅读

    跨时钟解决方案

    在很久之前便陆续谈过亚稳态,FIFO,复位的设计。本次亦安做一个简单的总结,从宏观上给大家展示跨时钟解决方案
    的头像 发表于 01-08 09:42 841次阅读
    跨时钟<b class='flag-5'>域</b>的<b class='flag-5'>解决方案</b>

    凌华科技面向制造业的AOI解决方案

    凌华科技自动光学检测 (AOI) 解决方案采用Intel CPU、GPU,以及经过OpenVINO toolkit优化的AI模型,提供高精度的大规模视觉推理,减少制造过程中有关质量保证的 间接成本。
    的头像 发表于 12-26 11:27 852次阅读
    凌华科技<b class='flag-5'>面向</b>制造业的AOI<b class='flag-5'>解决方案</b>

    低成本扩大输入分辨率!华科大提出Monkey:新的多模态大模型

    下图展示了Monkey的卓越性能,在 18 个不同的数据集上进行测试的结果表明,Monkey能够很好地胜任图像描述生成、场景问答、以场景文本为中心的视觉问答面向
    的头像 发表于 12-04 15:33 1272次阅读
    低成本扩大输入分辨率!华科大提出Monkey:新的多模态大模型

    全志科技V系列解决方案:“视觉+AI”深度融合,为智慧视觉赋能

    代替人眼可以在多种场景下实现多种功能。 为了更好地实现‘视觉+AI’的融合,全志科技多年前便布局智慧视觉领域,打造了V系列解决方案,为人们的工作和生活提供专业视觉算力。 同时,全志全新
    的头像 发表于 11-28 18:15 776次阅读