0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

解读文字识别论文CRNN

新机器视觉 来源:机器学习算法工程师 作者:晟沚 2022-06-09 11:08 次阅读

前 言

本文主要解读文字识别论文CRNN.

论文地址:chrome-extension://ikhdkkncnoglghljlkmcimlnlhkeamad/pdf-viewer/web/viewer.html?file=https%3A%2F%2Farxiv.org%2Fpdf%2F1507.05717v1.pdf

01

网络结构

CRNN是一种卷积循环神经网络结构,用于解决基于图像的序列识别问题,特别是场景文字识别问题。CRNN网络结构如下图:

1e594a82-e731-11ec-ba43-dac502259ad0.png

网络结构包含三部分,从下到上依次为:

卷积层,作用是从输入图像中提取特征序列;

循环层,作用是预测从卷积层获取的特征序列的标签(真实值)分布;

转录层,作用是把从循环层获取的标签分布通过去重整合等操作转换成最终的识别结果;

02

卷积层

CRNN卷积层由标准的CNN模型中的卷积层和最大池化层组成,自动提取出输入图像的特征序列。

与普通CNN网络不同的是,CRNN在训练之前,先把输入图像缩放到相同高度(图像宽度维持原样),论文中使用的高度值是32。

提取的特征序列中的向量是从特征图上从左到右按照顺序生成的,每个特征向量表示了图像上一定宽度上的特征,论文中使用的这个宽度是1,就是单个像素。

1e864c8a-e731-11ec-ba43-dac502259ad0.png

特别强调序列的顺序是因为在之后的循环层中,先后顺序是LSTM训练中的一个重要参考量。

03

循环层

循环层由一个双向LSTM循环神经网络构成,预测特征序列中的每一个特征向量的标签分布(真实结果的概率列表),循环层的误差被反向传播,最后会转换成特征序列,再把特征序列反馈到卷积层,这个转换操作由论文中定义的“Map-to-Sequence”自定义网络层完成,作为卷积层和循环层之间连接的桥梁。

在卷积层的上部建立一个深度双向递归神经网络,称为递归层。递归层对特征序列x = x1......xT中每帧的标签分布进行预测。递归层的优点有三方面。首先,RNN具有很强的序列上下文信息捕获能力。使用上下文线索进行基于图像的序列识别比单独处理每个符号更加稳定和有用。以场景文本识别为例,宽字符可能需要几个连续帧来充分描述。此外,有些歧义字在观察其上下文时更容易区分,例如“il”通过字高对比比单独识别更容易识别。

其次,RNN可以将误差微分反向传播到它的输入,即卷积层,让我们在一个统一的网络中共同训练递归层和卷积层。第三,RNN能够对任意长度的序列进行操作,从开始到结束进行遍历。

传统的RNN单元在输入层和输出层之间有一个自连接的隐含层。每当它在序列中接收到一个帧 xt 时,它就用一个非线性函数更新它的内部状态(或称隐藏状态)ht,这个函数接受当前输入xt和上一个内部状态ht-1: ht=g(xt,ht-1)。然后,基于ht进行预测yt。这样就捕获了过去的上下文{xt'}t'

1ead94a2-e731-11ec-ba43-dac502259ad0.png

LSTM是方向性的,它只使用过去的上下文。然而,在基于图像的序列中,来自两个方向的上下文是有用的,并且相互补充。因此,将两个向前和向后的LSTM合并为一个双向LSTM。此外,可以对多个双向LSTM进行叠加,得到如上图b所示的深双向LSTM。与浅层结构相比,深层结构允许更高层次的抽象,并在语音识别任务中取得了显著的性能改进。

在递归层中,误差差沿上图b所示箭头的相反方向传播,例如,通过时间反向传播(BPTT)。在递归层的底部,传播的微分序列被连接到映射中,反转了将特征映射转换为特征序列的操作,然后反馈到卷积层。在实践中,我们创建了一个称为“映射-序列”的自定义网络层,作为卷积层和循环层之间的桥梁。

04

转录层

网络结构简图:

1f258ebc-e731-11ec-ba43-dac502259ad0.png

Transcription层是将lstm层的输出与label对应,采用的技术是CTC,可以执行端到端的训练,用来解决输入序列和输出序列难以一一对应的问题,不要求训练数据对齐和一一标注,直接输出不定长的序列结果。对于一段长度为T的序列来说,每个样本点t(t远大于T)在RNN网络的最后一层都会输出一个softmax向量,表示该样本点的预测概率,所有样本点的这些概率传输给CTC模型后,输出最可能的标签,再经过去除空格(blank)和去重操作,就可以得到最终的序列标签,CTC对齐输入输出是多对一的,例如he-l-lo-与hee-l-lo对应的都是“hello”。

基于词典的转录

基于字典的模式,其实是就是上面CTC的基础上,在获得结果时,又从字典查了一遍,来更加提高准确率,而没有字典的就只能取高概率的结果,少了从字典查这一步。

采用了由Graves等人提出的连接时序分类(Connectionist TemporalClassifification CTC) 层中定义的条件概率。该概率定义为:基于每帧的预测y=y1,y2......yT的标签序列 l,它忽略了 l 中每个标签的位置。因此,当我们以该概率的负对数作为训练网络的目标时,我们只需要图像及其对应的标签序列,避免了为个别字符标注位置的劳动。

条件概率的公式简述如下:输入是一个序列y=y1,y2......yT,其中T为序列长度。其中,每一个

1f564728-e731-11ec-ba43-dac502259ad0.png

是集合 L’ =LU 上的概率分布,而 L 包含任务中的所有标签(例如所有英文字符),以及表示为的“空白”标签。一个序列到序列的映射函数1f7bdd30-e731-11ec-ba43-dac502259ad0.png定义在如下序列上:

1f9d7d50-e731-11ec-ba43-dac502259ad0.png

其中,T是长度,1fc0fe24-e731-11ec-ba43-dac502259ad0.png是预测概率。   1f7bdd30-e731-11ec-ba43-dac502259ad0.png映射1fc0fe24-e731-11ec-ba43-dac502259ad0.png  到标签序列 I 上,通过先去除重复的标签,再去除空白的标签。例如: 1f7bdd30-e731-11ec-ba43-dac502259ad0.png  映射 “--hh-e-l-ll-oo--”到“hello”( “-”代表空格) 。之后,定义条件概率为所有预测概率 到标签序列 l 上的映射1f7bdd30-e731-11ec-ba43-dac502259ad0.png 的概率和:

2050e91c-e731-11ec-ba43-dac502259ad0.png

其中,1fc0fe24-e731-11ec-ba43-dac502259ad0.png 的概率定义为p(1fc0fe24-e731-11ec-ba43-dac502259ad0.png  |y)=

20b17656-e731-11ec-ba43-dac502259ad0.png

其中,20fd06b6-e731-11ec-ba43-dac502259ad0.png是标签 211e445c-e731-11ec-ba43-dac502259ad0.png在时间戳t的概率。

在基于词典的模式中,每个测试示例都与一个词典 D 相关联。主要的,序列标签通过选择词典中定义的拥有最高的条件概率来被选择,例如,l∗=

213a4bde-e731-11ec-ba43-dac502259ad0.png

然而,对于较大的词典,对词典进行穷举搜索,即对词典中的所有序列计算条件概率,并选择概率最大的一个,将非常耗时。为了解决这个问题,通过无词典转录预测的标签序列,在编辑距离度量下往往接近于ground-truth。这表明可以将搜索限制为最近邻的候选对象2172dc06-e731-11ec-ba43-dac502259ad0.png  ,其中 2187f992-e731-11ec-ba43-dac502259ad0.png 是最大编辑距离,I'是为y在无词序模式下转录的序列:

21a7a5da-e731-11ec-ba43-dac502259ad0.png

候选对象21d237c8-e731-11ec-ba43-dac502259ad0.png可以以bk树数据结构被有效找寻,bk树数据结是一种专门适用于离散度量空间的度量树。bk树的搜索时间复杂度为

21f2c786-e731-11ec-ba43-dac502259ad0.png

因此,这个方案很容易扩展到非常大的词典。在本方法中,离线地为词典构造一个bk树。然后,通过查找小于或等于编辑距离2187f992-e731-11ec-ba43-dac502259ad0.png的查询序列,用bk树执行快速在线搜索。

无词典的转录

以定义的条件概率最高的序列l∗作为预测,

2264e9ba-e731-11ec-ba43-dac502259ad0.png

即在每个时间戳 t上获取最可能的标签,并将结果序列映射到l∗。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4773

    浏览量

    100877
  • 图像
    +关注

    关注

    2

    文章

    1086

    浏览量

    40496
  • OCR
    OCR
    +关注

    关注

    0

    文章

    145

    浏览量

    16386

原文标题:OCR之CRNN论文解读

文章出处:【微信号:vision263com,微信公众号:新机器视觉】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    MOSFET参数解读

    SGT-MOSFET各项参数解读
    发表于 12-30 14:15 1次下载

    商汤科技徐立论文再获“时间检验奖”

    十几年前的论文为何还能获奖?因为经过了时间的检验。
    的头像 发表于 12-12 10:23 157次阅读

    PCM1680 does not support a board-to-board interface不支持板对板的是怎么解读

    The PCM1680 does not support a board-to-board interface不支持板对板的是怎么解读
    发表于 12-11 07:31

    语音识别技术在医疗领域的应用

    语音识别技术在医疗领域的应用已经越来越广泛,为医疗服务带来了诸多便利和效率提升。以下是对语音识别技术在医疗领域应用的介绍: 一、语音病历 语音识别技术可以将医生或患者的语音信息转换成文字
    的头像 发表于 11-26 09:35 388次阅读

    语音识别与自然语言处理的关系

    了人机交互的革命,使得机器能够更加自然地与人类沟通。 语音识别技术概述 语音识别,也称为自动语音识别(ASR),是指将人类的语音转换成文本的过程。这项技术的核心在于能够准确捕捉和解析语音信号,然后将其转换为可读的
    的头像 发表于 11-26 09:21 440次阅读

    京准电钟解读:PTP时钟同步系统及应用是什么?

    京准电钟解读:PTP时钟同步系统及应用是什么?
    的头像 发表于 10-31 09:35 277次阅读
    京准电钟<b class='flag-5'>解读</b>:PTP时钟同步系统及应用是什么?

    明治案例 | 【OCR识别+条码读取】一步到位,印刷品质的智能守护者

    的标准信息进行比对,以检测条码是否完整、正确2、同时,传感器还对印刷出来的文字信息进行OCR识别,以检测文字是否完整、清晰以及是否存在打印错误*产品上字符数量较多
    的头像 发表于 10-22 08:02 309次阅读
    明治案例 | 【OCR<b class='flag-5'>识别</b>+条码读取】一步到位,印刷品质的智能守护者

    光学识别字符是自动识别技术吗

    光学识别字符(Optical Character Recognition,简称OCR)是一种自动识别技术,它能够将各种类型文档(如扫描的纸质文档、PDF文件或数字相机拍摄的图片)中的文字转换成可编
    的头像 发表于 09-10 15:43 484次阅读

    光学识别的过程包含哪些

    光学识别(Optical Character Recognition,OCR)是一种将图像中的文字转换为机器可读文本的技术。这个过程涉及多个步骤,包括图像预处理、文本检测、字符分割、字符识别和后处理
    的头像 发表于 09-10 15:36 428次阅读

    解读MIPI A-PHY与车载Serdes芯片技术与测试

    上一期,《汽车芯片标准体系建设指南》技术解读与功率芯片测量概览中,我们给大家介绍了工信部印发的《汽车芯片标准体系建设指南》涉及到的重点芯片与测试领域解读,本期继续给大家做延展,我们解读的是MIPI A-PHY与车载Serdes芯
    的头像 发表于 07-24 10:14 2924次阅读
    <b class='flag-5'>解读</b>MIPI A-PHY与车载Serdes芯片技术与测试

    宽带数控延时线芯片的研制论文

    电子发烧友网站提供《宽带数控延时线芯片的研制论文.pdf》资料免费下载
    发表于 07-02 17:26 0次下载

    接触器的文字符号是什么

    接触器是一种用于控制大功率设备的电气开关,广泛应用于工业自动化、电力系统、家用电器等领域。接触器的文字符号是电气工程中非常重要的一部分,它可以帮助工程师快速识别和理解电路图。本文将详细介绍接触器
    的头像 发表于 06-30 09:17 3286次阅读

    温度继电器的文字符号用什么表示

    温度继电器是一种用于监测和控制温度的电气设备,广泛应用于工业、电力、交通、建筑等领域。它能够根据温度的变化自动地控制电路的通断,以保护设备和系统的正常运行。在电路设计和电气工程中,温度继电器的文字
    的头像 发表于 06-24 09:17 930次阅读

    智能手机充电头OCR精准识别

    文本是人类最重要的信息来源之一,自然场景中充满了形形色色的文字符号。光学字符识别(OCR)相信大家都不陌生。而工业场景的图像文字识别更加复杂,OCR出现在很多不同的场合,对某些特殊的表
    的头像 发表于 06-11 08:24 470次阅读
    智能手机充电头OCR精准<b class='flag-5'>识别</b>

    EMC技术:基础概念到应用的解读

    EMC技术:基础概念到应用的解读?|深圳比创达电子
    的头像 发表于 03-11 11:55 603次阅读
    EMC技术:基础概念到应用的<b class='flag-5'>解读</b>?