中科大&字节提出UniDoc：统一的面向文字场景的多模态大模型-电子发烧友网

中科大&字节提出UniDoc：统一的面向文字场景的多模态大模型

这篇文章是由中科大和字节跳动合作，在2023年8月23日上传到arXiv上的文章。这篇文章提出UniDoc，一个统一的多模态大模型（LMM）。UniDoc主要聚焦于包含文字的图像的多模态理解任务。相比于以往的多模态大模型，UniDoc具备它们所不具备的文字检测、识别、spotting(端到端OCR)的能力。此外，文章中实验表明，这些能力的学习能够彼此促进。

方法框架

如上图所示，UniDoc基于预训练的视觉大模型及大语言模型，将文字的检测、识别、spotting(图中未画出)、多模态理解等四个任务，通过多模态指令微调的方式，统一到一个框架中。具体地，输入一张图像以及一条指令（可以是检测、识别、spotting、语义理解），UniDoc提取图像中的视觉信息和文字信息，结合自然语言指令以及大语言模型的世界知识，做出相应回答。

训练数据采集

作者团队收集了大量的PPT图像，并提取其中文字实例和对应的bbox。在此基础上构建多任务的指令微调数据集。文章认为，PPT图片中文字具有各种各样的大小、字体、颜色、风格等，且PPT中视觉元素丰富多样，适合用于构建涉及文字图像的多模态任务的训练。以spotting任务为例，其指令如下图所示。其中的 term 表示”imgae“，”photo“等随机名词，以增加指令多样性。

实验结果

多模态理解

从上述六个例子可以看到，UniDoc不仅可以有效提取图像中的视觉信息、文字信息，更可以结合其丰富的世界知识进行合理地回答。

对于无文字的图像，UniDoc同样可以准确地进行问答。

在多个多模态问答基准数据集上，UniDoc实现了优越的性能。

文字检测、识别、spotting

上图中，第一行的四个case来自于WordArt数据集，第二行的四个case来自于TotalText数据集。可以看到，虽然这些行级别的文字图像呈现不同的字体以及不规则的文字分布，UniDoc仍然能够进行准确地识别。

上图中六个case中，文字存在部分的缺失，UniDoc仍然能够进行准确地识别。

上图中四个case展示了UniDoc在TotalText数据集上的检测效果。

在多个文字识别基准数据集上，UniDoc实现了优越的性能。

消融实验

有趣的消融实验：对于同一张输入图像，spotting指令（右）规避了识别指令（左）的识别遗漏现象。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

语言模型

语言模型

+关注

关注
0

文章
545

浏览量
10356
数据集

数据集

+关注

关注
4

文章
1210

浏览量
24865
大模型

大模型

+关注

关注
2

文章
2652

浏览量
3267

原文标题：中科大&字节提出UniDoc：统一的面向文字场景的多模态大模型

文章出处：【微信号：CVer，微信公众号：CVer】欢迎添加关注！文章转载请注明出处。

中科大人口模型讲义

中科大人口模型讲义[hide] [/hide]

发表于 09-15 12:01

微机原理与接口技术中科大教材

微机原理与接口技术 中科大教材[/hide]

发表于 12-07 11:15

华中科大发的论文《新一代TSC2046触摸屏控制器》

华中科大发的论文《新一代TSC2046触摸屏控制器》

发表于 08-03 08:12

中科大嵌入式课件全集

本帖最后由 eehome 于 2013-1-5 09:46 编辑 中科大嵌入式课件全集

发表于 08-14 21:52

51单片机资料（中科大）

51单片机资料（中科大），超高新扫描版，上传给初学者{:7:}

发表于 06-23 12:51

中科院中科大2003年量子力学考研试题答案

中科院—中科大2003年量子力学考研试题答案

发表于 11-25 16:05 •0次下载

<b class='flag-5'>中科院中科大</b>2003年量子力学考研试题答案

人口模型讲义 (中科大课程)

人口模型课件 (中科大课程讲义)

发表于 09-15 11:59 •24次下载

《日本经济新闻》报道：中科大为何能对中国AI领域产生很的影响？

近日，《日本经济新闻》的一则报道指出：在左右着企业、国家和地区发展的人工智能领域，中科大少年班的人才支撑着中国的发展。中国自动驾驶公司百度的总裁张亚勤、前阿里云人工智能首席科学家的闵万里、AI芯片

发表于 07-18 09:40 •7586次阅读

在医疗AI领域砥砺前行的中科大学子

作为国字号的科研基石，中科大依靠学术层面的踏实耕耘，很大程度上影响了中国的医疗科技风向。谈论一所大学撑起一个城市的代表，中科大和合肥的CP组合，一

发表于 05-10 09:36 •5022次阅读

《51单片机C语言编程入门》(中科大编著)

《51单片机C语言编程入门》(中科大编著)

发表于 01-04 17:54 •0次下载

北大&amp;amp;华为提出：多模态基础大模型的高效微调

深度学习的大模型时代已经来临,越来越多的大规模预训练模型在文本、视觉和多模态领域展示出杰出的生成和推理能力。然而大模型巨大的参数量有两个明显

发表于 11-08 16:20 •1165次阅读

搜索历史

中科大&字节提出UniDoc：统一的面向文字场景的多模态大模型

评论

中科大人口模型讲义

微机原理与接口技术中科大教材

华中科大发的论文《新一代TSC2046触摸屏控制器》

51单片机C语言编程入门(中科大)

中科大嵌入式课件全集

溷沌数字通信（中科大出版的）

光电信号处理！！！(何兆湘华中科大)