目标检测是指在视频或图片序列中把感兴趣的目标与背景区分,是在图像中确定目标是否存在且确定目标位置的过程,是计算机视觉领域中的主要研究方向。
目标检测主要应用于人脸识别、无人驾驶、指控和安防等领域,起到人工智能赋能传统应用的作用。目标检测的核心是算法。目前,目标检测算法主要分为两大类,第一类是基于手工设计特征的传统算法,第二类是基于深度学习的目标检测算法。
常见经典目标检测算法
经典目标检测算法有R-CNN、SPP-Net、Fast R-CNN和R-FCN等。
R-CNN:在CVPR 2014年中Ross Girshick提出R-CNN。R-CNN的全称是Region-CNN,是第一个成功将深度学习应用到目标检测上的算法。用CNN提取出Region Proposals中的featues,然后进行SVM分类与bbox的回归。
完整R-CNN结构是不使用暴力方法,而是用候选区域方法(region proposal method),创建目标检测的区域改变了图像领域实现物体检测的模型思路,R-CNN是以深度神经网络为基础的物体检测的模型 ,R-CNN在当时以优异的性能令世人瞩目,以R-CNN为基点,后续的SPPNet、Fast R-CNN、Faster R-CNN模型都是照着这个物体检测思路。
SPP-Net:SPP-Net是一种可以不用考虑图像大小,输出图像固定长度网络结构,并且可以做到在图像变形情况下表现稳定。SPP-net的效果已经在不同的数据集上面得到验证,速度上比R-CNN快24-102倍。SPPNet在R-CNN的基础上提出了改进,通过候选区域和Feature,map的映射,配合SPP层的使用从而达到了CNN层的共享计算,减少了运算时间,后面的FastR-CNN等也是受SPPNet的启发。
Fast R-CNN:FastR-CNN的训练速度是R-CNN的9倍,测试速度是R-CNN的213倍;即使和SPP-Net相比,Fast R-CNN的训练速度和测试速度,也分别有了3倍和10倍的提升。相比R-CNN,Fast RCNN仍然使用selective search选取2000个建议框,但是这里不是将这么多建议框都输入卷积网络中,而是将原始图片输入卷积网络中得到特征图,再使用建议框对特征图提取特征框。这样做的好处是,原来建议框重合部分非常多,卷积重复计算严重,而这里每个位置都只计算了一次卷积,大大减少了计算量。
R-FCN:R-FCN,全称为“Region-based fully convolutional network”。
R-FCN的网络结构如下图,同Faster RCNN比起来,它有2点不同。
(1)Shared convolutional subnetwork不同。Faster RCNN是把RPN得到的RoI直接映射到Resnet101的最后一个卷积层(2048个channels),而R-FCN将Resnet101的最后一个卷积层映射到具有 个channels的特征层,作者将该特征层称之为“position-sensitive score maps”,然后把RoI映射到该特征层;
(2)RoI-wise subnetwork不同。Faster RCNN的subnetwork经过了全连接层做特征组合,然后执行分类和坐标回归的双任务,R-FCN基于pool和vote操作后得到的特征向量,执行分类任务。
-
算法
+关注
关注
23文章
4622浏览量
93063 -
目标检测
+关注
关注
0文章
209浏览量
15636
发布评论请先 登录
相关推荐
评论