0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种全新的基于旋转的框架,能对自然场景中任意方向的文字进行检测辨认

zhKF_jqr_AI 来源:未知 作者:李倩 2018-07-08 09:30 次阅读

编者按:对图像中的文字进行识别已经有很多种方法了,但是大多是水平方向上的识别,一旦有了旋转角度,这些方法可能就“失灵”了。来自复旦大学和中国科学院的几位研究人员就提出了一种框架,可以识别图像中经过旋转的文本。以下为论智对论文的编译。

摘要

本文介绍了一种全新的基于旋转的框架,能对自然场景中任意方向的文字进行检测辨认。我们提出了Rotation Region Proposal Networks(RRPN),用于生成倾斜的框架,同时还带有图像旋转角度的信息。之后,这些信息会适应边界框,从而能更精确地在不同方向上确定文本区域。Rotation Region-of-Interest(RRoI)池化层是将随机方向的候选窗口映射到文本区域分类器的特征映射上。

整个框架是基于区域候选框的结构上搭建的,它与之前的文本检测系统相比,能保证在随机方向的文本检测上有更高的计算效率。我们在三种现实场景中对该框架进行了实验,发现了相较于之前的方法它所表现出的效率。

背景介绍

文本检测是CV领域一大热门话题,它的目标是在给定图像中定位文字区域,这项任务是很多复杂任务的前提,例如视觉分类、视频分析和其他移动应用。虽然已有很多商业产品落地,但是由于场景的复杂性,自然场景下的文字识别仍然受到很多限制,例如光线不均、图片模糊、角度扭曲、方向不同等等。而本文正是关注现实生活中不水平的文字区域。

最近一些研究提出了针对随机方向文本的检测方法,总的来说,这些方法大致包括两个步骤:分割网络(全卷积网络)以及用于倾斜候选框的几何方法。然而,对图像进行分割通常很耗时,并且一些系统需要多次后处理才能生成最终的文本区域候选框,所以并不如直接的检测网络高效。

在这篇论文中,我们提出了一种基于旋转的方法,和端到端的文本检测系统,该系统能生成任意方向的候选框。相较于之前的方法,我们的主要成果有:

这次的框架可以用基于候选框区域的方法预测文本线的方向,使候选框能更好地适应文本区域。框架中加入的新元素,例如RRoI池化层和旋转的候选框都整合到了架构中,保证高效的计算力。

我们还提出了对候选框区域新型的微调方法,提高任意方向文本检测的性能。

我们将新的框架应用到三种场景数据集上,发现它比此前的方法更精确、更高效。

具体框架

首先,框架的整体结构如下图所示:

框架的前部是VGG-16的卷积层,其中由两部分组成:RRPN和最后一个卷积层的特征映射的复制品。RRPN可以为文本样本生成随机方向的候选框,之后会对候选框进行回归处理以更好地适应文本区域。而从RRPN分出去的两个图层是分类层(cls)和回归层(reg)。

cls的分数和reg中的候选框信息组成了两个图层的输出结果,并且他们的损失通过计算总结构会形成一个多任务的损失函数。之后,RRoI池化层会扮演一个最大池化层的角色,将RRPN上任意方向的文本候选框投射到特征映射上。

最后,两个全卷积层结合成一个分类器,具有RRoI特征的区域被分为文本或者背景。

在训练阶段,真实的文本区域用五个元组表示旋转后的边界框,分别是(x, y, h, w, θ),(x, y)代表边界框几何中心的坐标,h和w分别代表边界框较短和较长的两边,θ表示夹角。

旋转连接点(anchors

传统的连接点利用比例尺和长宽比参数表示,通常对现实中的文本检测并不有效。所以我们通过调整设计了旋转连接点(R-anchors)。具体表示可看下图:

其中有六个不同的旋转方向,是综合考虑覆盖和计算效率之后得出的结果。其次,由于文本区域经常有特殊的形状,长宽比改成了1:2、1:5、1:8,以覆盖更宽的文本。

学习旋转候选框

R-anchors生成后,为了执行网络学习,就需要对R-anchors进行采样。候选框的损失函数形成了多任务损失,定义为:

其中l是类别标签的表示器,参数p时softmax函数计算出的类别概率,v表示文本标签的预测元组,v*表示真实数值。

下图可以看到经过回归后的图像与未回归的对比:

(a)是输入的图像,(b)是没有经过回归处理的方向和连接点,(c)是经过处理的点

白线的方向就表示R-anchors的方向,白线的长短表示连接点对文字的反馈。

下图是不同多任务损失值的对比:

实验效果

我们分别在三个数据集上进行了实验:MSRA-TD500、ICDAR2015和ICDAR2013。三个数据集都是文本检测常用的数据集。首先我们对比了旋转和水平的候选框:

结果显示,基于旋转的方法能更精确地确定文字区域,不会包含太多的背景,这说明在框架中加入旋转策略的有效性。但是虽然检测效率有所提高,在MSRA-TD500中仍有检测失败的案例:

在不平衡的光线下(a)、非常小的字体上(b)以及过长的文本上(c)都会出现检测失败的情况

但最终在三种数据集上的表现还是很不错的:

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1081

    浏览量

    40383
  • 分类器
    +关注

    关注

    0

    文章

    152

    浏览量

    13165
  • 数据集
    +关注

    关注

    4

    文章

    1202

    浏览量

    24624

原文标题:复旦&中科院成果:对任意方向的文字进行识别

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    一种基于图像平移的目标检测框架

    1、摘要近年来,在深度卷积神经网络(CNNs)的帮助下,图像和视频监控在智能交通系统(ITS)取得了长足的进展。作为一种先进的感知方法,智能交通系统对视频监控帧感兴趣的目标
    发表于 08-31 07:43

    一种专门用于检测小目标的框架Dilated Module

    1. 介绍本文提出一种专门用于检测小目标的框架框架结构如下图:我们探索了可以提高小目标检测能力的3个方面:Dilated模块,特征融合以及
    发表于 11-04 11:14

    如何对运动的车轮进行测定

    在汽车,要使用车速表、牵引控制器、防抱死制动器和巡航控制器均需测知车轮的速度。应该对引擎的每分钟转数(RPM)进行监视,以控制变速器,使车速保持在最高安全速度以下。电动车窗通常由一种具有闭环
    发表于 11-18 06:16

    一种名片图像的文字区块分割方法

    针对以手机摄像头作为图像采集器获得的名片图像,该文介绍一种文字区块的分割方法。对用手机摄像头获取的彩色名片图像,利用4个方向的sobel算子进行边缘
    发表于 04-15 09:00 24次下载

    检测物体旋转方向及转速的电路

    检测物体旋转方向及转速的电路
    发表于 04-24 21:48 1796次阅读
    <b class='flag-5'>检测</b>物体<b class='flag-5'>旋转</b><b class='flag-5'>方向</b>及转速的电路

    一种改进的CAMShift跟踪算法及人脸检测框架

    为充分利用人脸视频图像序列的时空信息,获得更加准确的人脸比对图像序列,提出一种结合人脸跟踪的人脸检测框架。使用简单快速的正面人脸检测算法对
    发表于 11-25 09:32 0次下载
    <b class='flag-5'>一种</b>改进的CAMShift跟踪算法及人脸<b class='flag-5'>检测</b><b class='flag-5'>框架</b>

    一种适用于旋转角的人体检测算法

    常用的人体检测算法多应用于无旋转角的情况,而在旋转角可变的情况下检测性能有限,为此提出了一种适用于有旋转
    发表于 01-09 16:07 0次下载
    <b class='flag-5'>一种</b>适用于<b class='flag-5'>旋转</b>角的人体<b class='flag-5'>检测</b>算法

    一种新型分割图像中人物的方法,基于人物动作辨认

    图像分割的般方法是先对物体进行检测,然后用边界框对画中物体进行分割。最近,例如Mask R-CNN的深度学习方法也被用于图像分割任务,但是大多数研究都没有注意到人类的特殊性:可以通过身体姿势
    的头像 发表于 04-10 15:02 5593次阅读
    <b class='flag-5'>一种</b>新型分割图像中人物的方法,基于人物动作<b class='flag-5'>辨认</b>

    如何提取和检测视频文字?数字视频中文字检测提取技术的分析

    作为一种高级语义特征, 视频文字信息对视频内容的理解、索引和检索具有重要意义。本文针对非压缩域中视频文字检测与提取技术做了详尽的分析和
    发表于 09-17 17:58 26次下载
    如何提取和<b class='flag-5'>检测</b>视频<b class='flag-5'>中</b>的<b class='flag-5'>文字</b>?数字视频中<b class='flag-5'>文字</b>的<b class='flag-5'>检测</b>提取技术的分析

    一种硅片旋转甩干装置,它的应用优势是什么

    本实用新型涉及一种机械装置,尤其涉及一种干燥既全面又彻底、成本较低的硅片旋转甩干装置。 传统的装置具有以下的不足之处:1)干燥程度不彻底、不全面;2)成本较高、性价比不高。 为了克服现有技术
    发表于 12-31 09:34 1180次阅读
    <b class='flag-5'>一种</b>硅片<b class='flag-5'>旋转</b>甩干装置,它的应用优势是什么

    如何对typo 进行检测和纠正

    自然语言文本中经常会出现些拼写错误(typo),在中文文本里即所谓的错别字,中文拼写纠错(Chinese Spelling Correction,CSC)可以对中文文本的 typo 进行检
    的头像 发表于 07-13 14:38 1546次阅读

    一种基于HOG+SVM的行人检测算法

    在先进驾驶辅助系统, 基于视觉的行人检测能对摄像头视野范围内的无遮挡行人进行检测, 并且易受天气的影响, 在极端天气下无法工作。
    的头像 发表于 02-22 10:17 2780次阅读

    一种适用于动态场景的多层次地图构建算法

    本文提出了一种适用于动态场景的多层次地图构建算法,如图1所示的系统框架。首先,利用YOLOX[8]获取场景的语义信息,采用多目标跟踪算法对漏检进行
    发表于 08-28 10:56 656次阅读
    <b class='flag-5'>一种</b>适用于动态<b class='flag-5'>场景</b>的多层次地图构建算法

    OpenVINO场景文字检测文字识别教程

    OpenVINO是英特尔推出的深度学习模型部署框架,当前最新版本是OpenVINO2023版本。OpenVINO2023自带各种常见视觉任务支持的预训练模型库Model Zoo,其中支持场景文字
    的头像 发表于 09-24 15:31 1476次阅读
    OpenVINO<b class='flag-5'>场景</b><b class='flag-5'>文字</b><b class='flag-5'>检测</b>与<b class='flag-5'>文字</b>识别教程

    一种利用几何信息的自监督单目深度估计框架

    本文方法是一种自监督的单目深度估计框架,名为GasMono,专门设计用于室内场景。本方法通过应用多视图几何的方式解决了室内场景帧间大
    发表于 11-06 11:47 395次阅读
    <b class='flag-5'>一种</b>利用几何信息的自监督单目深度估计<b class='flag-5'>框架</b>