0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

小模型也能进行上下文学习!字节&华东师大联合提出自进化文本识别器

CVer 来源:CVer 2023-11-27 16:28 次阅读

大语言模型(LLM)能够以一种无需微调的方式从少量示例中学习,这种方式被称为 "上下文学习"(In-context Learning)。目前只在大模型上观察到上下文学习现象,那么,常规大小的模型是否具备类似的能力呢?GPT4、Llama等大模型在非常多的领域中都表现出了杰出的性能,但很多场景受限于资源或者实时性要求较高,无法使用大模型。为了探索小模型的上下文学习能力,字节和华东师大的研究团队在场景文本识别任务上进行了研究。

场景文本识别(Scene Text Recognition)的目标是将图像中的文本内容提取出来。实际应用场景中,场景文本识别面临着多种挑战:不同的场景、文字排版、形变、光照变化、字迹模糊、字体多样性等,因此很难训练一个能应对所有场景的统一的文本识别模型。一个直接的解决办法是收集相应的数据,然后在特定场景下对模型进行微调。但是这一过程需要重新训练模型,当场景变多、领域任务变得复杂时,实际的训练、存储、维护资源则呈几何倍增长。如果文本识别模型也能具备上下文学习能力,面对新的场景,只需少量标注数据作为提示,就能提升在新场景上的性能,那么上面的问题就迎刃而解。然而,场景文本识别是一个资源敏感型任务,将大模型当作文本识别器非常耗费资源,并且通过初步的实验,研究人员发现传统的训练大模型的方法在场景文本识别任务上并不适用。

为了解决这个问题,来自字节和华东师大的研究团队提出了自进化文本识别器,ESTR(Ego-Evolving Scene Text Recognizer),一个融合了上下文学习能力的常规大小文本识别器,无需微调即可快速适应不同的文本识别场景。ESTR配备了一种上下文训练和上下文推理模式,不仅在常规数据集上达到了SOTA的水平,而且可以使用单一模型提升在各个场景中的识别性能,实现对新场景的快速适应,甚至超过了经过微调后专用模型的识别性能。ESTR证明,常规大小的模型足以在文本识别任务中实现有效的上下文学习能力。ESTR在各种场景中无需微调即可表现出卓越的适应性,甚至超过了经过微调后的识别性能。

8e61a640-8c75-11ee-939d-92fbcf53809c.png

论文地址:https://arxiv.org/pdf/2311.13120

方法

图1介绍了ESTR的训练和推理流程。

8e777d4e-8c75-11ee-939d-92fbcf53809c.png

1.基础文本识别训练

基础文本识别训练阶段采用自回归框架训练视觉编码器和语言解码器:

8e992818-8c75-11ee-939d-92fbcf53809c.png

2.上下文训练

上下文训练阶段ESTR 将根据文中提出的上下文训练范式进行进一步训练。在这一阶段,ESTR 会学习理解不同样本之间的联系,从而从上下文提示中获益。

8ea68454-8c75-11ee-939d-92fbcf53809c.png

如图2所示,这篇文章提出 ST 策略,在场景文本数据中进行随机的分割和转换,从而生成一组 "子样本"。子样本在视觉和语言方面都是内在联系的。这些内在联系的样本被拼接成一个序列,模型从这些语义丰富的序列中学习上下文知识,从而获取上下文学习的能力。这一阶段同样采用自回归框架进行训练:

8eb82718-8c75-11ee-939d-92fbcf53809c.png

3.上下文推理

针对一个测试样本,该框架会从上下文提示池中选择 个样本,这些样本在视觉隐空间与测试样本具有最高的相似度。具体来说,这篇文章通过对视觉token序列做平均池化,计算出图像embedding 。然后,从上下文池中选择图像嵌入与 的余弦相似度最高的前 N 个样本,从而形成上下文提示。

8ec51a9a-8c75-11ee-939d-92fbcf53809c.png

上下文提示和测试样本拼接在一起送入模型,ESTR便会以一种无训练的方式从上下文提示中学得新知识,提升测试样本的识别准确率。值得注意的是,上下文提示池只保留了视觉编码器输出的token,使得上下文提示的选择过程非常高效。此外,由于上下文提示池很小,而且ESTR不需要训练就能直接进行推理,因此额外的消耗也降到了最低限度。

实验

实验从三个角度进行:

1.传统数据集

从训练集中随机抽取很少的样本(1000个,训练集 0.025% 的样本数量)组成上下文提示池,在12个常见的场景文本识别测试集中进行的测试,结果如下:

8eef0760-8c75-11ee-939d-92fbcf53809c.png

2.跨域场景

跨域场景下每个测试集仅提供100个域内训练样本,无训练和微调对比结果如下。ESTR甚至超过了SOTA方法的微调结果。

8f0ad454-8c75-11ee-939d-92fbcf53809c.png

3.困难样本修正

研究人员收集了一批困难样本,对这些样本提供了10%~20%的标注,对比ESTR的无训练学习方法和SOTA方法的微调学习方法,结果如下:

8f2a9f82-8c75-11ee-939d-92fbcf53809c.png

可以发现,ESTR-ICL大大降低了困难样本的错误率。

未来展望

ESTR证明了使用合适的训练和推理策略,小模型也可以拥有和LLM类似的In-context Learning的能力。在一些实时性要求比较强的任务中,使用小模型也可以对新场景进行快速的适应。更重要的是,这种使用单一模型来实现对新场景快速适应的方法使得构建统一高效的小模型更近了一步。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3160

    浏览量

    48703
  • 识别器
    +关注

    关注

    0

    文章

    20

    浏览量

    7575
  • 大模型
    +关注

    关注

    2

    文章

    2320

    浏览量

    2463

原文标题:小模型也能进行上下文学习!字节&华东师大联合提出自进化文本识别器

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    Llama 3 语言模型应用

    理解复杂的上下文信息,包括对话历史、用户偏好和文化差异。这使得它在对话系统和个性化推荐中表现出色。 情感分析 :通过深度学习技术,Llama 3 能够识别和理解文本中的情感倾向,无论是
    的头像 发表于 10-27 14:15 228次阅读

    onsemi LV/MV MOSFET 产品介绍 & 行业应用

    系列MOSFET介绍。4.onsemiLV/MVMOSFET市场&应用。技术亮点onsemi最新一代T10系列MOSFET优势&市场前景。学习收获期望了解onsemiSi
    的头像 发表于 10-13 08:06 269次阅读
    onsemi LV/MV MOSFET 产品介绍 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; 行业应用

    SystemView上下文统计窗口识别阻塞原因

    SystemView工具可以记录嵌入式系统的运行时行为,实现可视化的深入分析。在新发布的v3.54版本中,增加了一项新功能:上下文统计窗口,提供了对任务运行时统计信息的深入分析,使用户能够彻底检查每个任务,帮助开发人员识别阻塞原因。
    的头像 发表于 08-20 11:31 378次阅读

    【《大语言模型应用指南》阅读体验】+ 基础知识学习

    的信息,提供更全面的上下文理解。这使得模型能够更准确地理解复杂问题中的多个层面和隐含意义。 2. 语义分析 模型通过训练学习到语言的语义特征,能够
    发表于 08-02 11:03

    鸿蒙Ability Kit(程序框架服务)【应用上下文Context】

    [Context]是应用中对象的上下文,其提供了应用的一些基础信息,例如resourceManager(资源管理)、applicationInfo(当前应用信息)、dir(应用文件路径)、area
    的头像 发表于 06-06 09:22 399次阅读
    鸿蒙Ability Kit(程序框架服务)【应用<b class='flag-5'>上下文</b>Context】

    编写一个任务调度程序,在上下文切换后遇到了一些问题求解

    \"rfe\" 不会在 A[11] 寄存中设置新的返回地址。 当任务函数以\"ret16\" 结束时,µC 将在陷阱中运行。 我在上下文切换的准备过程中错过了什么? 在上下文切换/\"rfe\" 之后,A[11] 的正确行为是
    发表于 05-22 07:50

    MiniMax推出“海螺AI”,支持超长文本处理

    近日,大模型公司MiniMax宣布,其全新产品“海螺AI”已正式上架。这款强大的AI工具支持高达200ktokens的上下文长度,能够在1秒内处理近3万字的文本
    的头像 发表于 05-17 09:30 696次阅读

    OpenAI发布GPT-4o模型,支持文本、图像、音频信息,速度提升一倍,价格不变

     此外,该模型还具备128K的上下文记忆能力,知识截止日期设定为2023年10月。微软方面宣布,已通过Azure OpenAI服务提供GPT-4o的预览版。
    的头像 发表于 05-14 17:12 822次阅读

    大语言模型:原理与工程时间+小白初识大语言模型

    的分布式表示,基于预训练的词嵌入表示。 独热表示就是在一个大的向量空间中,其中一个位1,其余都为0,这样就会变成单独的。 词的分布式表示:根据上下文进行推断语义。 基于预训练的词嵌入表示:重要的是利用莫
    发表于 05-12 23:57

    【大语言模型:原理与工程实践】大语言模型的基础技术

    Transformer有效避免了CNN中的梯度消失和梯度爆炸问题,同时提高了处理长文本序列的效率。此外,模型编码可以运用更多层,以捕获输入序列中元素间的深层关系,并学习更全面的
    发表于 05-05 12:17

    【大语言模型:原理与工程实践】揭开大语言模型的面纱

    用于文本生成,根据提示或上下文生成连贯、富有创造性的文本,为故事创作等提供无限可能。大语言模型面临挑战。一方面,其计算资源需求巨大,训练和
    发表于 05-04 23:55

    TC397收到EVAL_6EDL7141_TRAP_1SH 3上下文管理EVAL_6EDL7141_TRAP_1SH错误怎么解决?

    我收到EVAL_6EDL7141_TRAP_1SH 3 类(TIN4-Free 上下文列表下溢)上下文管理EVAL_6EDL7141_TRAP_1SH错误。 请告诉我解决这个问题的办法。
    发表于 03-06 08:00

    请问risc-v中断还需要软件保存上下文和恢复吗?

    risc-v中断还需要软件保存上下文和恢复吗?
    发表于 02-26 07:40

    ISR的上下文保存和恢复是如何完成的?

    函数:ifxCPU_enableInterrupts ();如果我让更高优先级的 ISR 中断优先级较低的 ISR,那么 ISR 的上下文保存和恢复是如何完成的?
    发表于 01-22 06:28

    HarmonyOS:使用MindSpore Lite引擎进行模型推理

    如果是第三方框架的模型,比如 TensorFlow、TensorFlow Lite、Caffe、ONNX 等,可以使用模型转换工具转换为.ms 格式的模型文件。 创建上下文,设置线程数
    发表于 12-14 11:41