一种新型分割图像中人物的方法，基于人物动作辨认-电子发烧友网

想要进行图像分割，传统方法是先检测图中物体，在进行分离。在本文中，来自清华大学、腾讯AI研究室和英国卡迪夫大学的研究者们提出了一种新型分割图像中人物的方法，基于人物动作辨认。以下是论智对原文的编译。

图像分割的一般方法是先对物体进行检测，然后用边界框对画中物体进行分割。最近，例如Mask R-CNN的深度学习方法也被用于图像分割任务，但是大多数研究都没有注意到人类的特殊性：可以通过身体姿势进行辨认。在这篇论文中，我们提出了一种新方法，可以通过人作出的不同动作进行图像分割。

多人姿态辨认的目的是分辨图像中每个人物的动作，这些需要通过身体部位判断，比如头部、肩膀、手部、脚等等。而一般的对象分割实例旨在预测图像中每个对象的像素级标签。要想解决这两个问题，都需要检测目标物体并将它们分离，这一过程通常被称为目标检测。但是由于二维图像所含信息较少，导致想分离两个重叠的同类图像非常困难。对于目标检测，有许多强有力的基准系统，例如Fast/Faster R-CNN、YOLO，它们都遵循着一个基本规则：先生成大量proposal regions，然后用非极大抑制删除重复区域。但是，当两个相同类别的物体重叠时，NMS总是将其中一个视为重复的proposal region，然后删除它。这表明几乎所有的目标检测都不能处理大面积重合的问题。

尽管在许多多人姿态识别任务中都选用了这种框架，一些不依赖于目标检测的bottom-up方法也取得了良好性能。Bottom-up方法的主要思想是首先在所有人身体上找几个关键点。如图1所示：

图1

这种方法有几个优点，首先，运行成本不会随着图像中人数的增加而增加；其次，两个重叠在一起的人物可以在连接身体部位时分开，如图2所示，使用人体姿势可以改善目标检测中物体重叠的问题。

图2

新方法Pose2Seg

基于人体姿势识别，我们提出了一种端到端的物体分割框架，整体框架如图3所示，它将图片和姿势识别结果一同作为输入：

图3

然后我们使用一个对准模块，基于人体姿势检测结果（称为Affine Align），将感兴趣区域（ROI）对齐为统一大小（64×64）。同时，我们为图中的每个人物生成骨架特征，并将它们连接到ROI。最终实验表明，将骨骼信息明确地添加到网络中可以在图像分割中提供更好的信息。

AffineAlign

人类的动作种类多且复杂，想要进行图像分割是很困难的。基于Faster R-CNN和Mask R-CNN中的ROIAlign，我们提出了AffineAlign操作。但是与它们不同的是，我们是基于人物的动作对齐，而不是边界框。通过人类动作蕴涵的信息，AffineAlign操作可以把奇怪的人类动作拉直，然后将重叠的人分开，具体过程可看图4：

图4

同时，我们还研究了人类骨骼的特征，我们用部分亲和字段（PAF）重现某个动作的骨骼结构，PAF是一个有两通道的向量字段映射，如果COCO数据集中有11个骨骼标记，PAF就是一个有22个通道的特征映射。

实验过程

我们选用了COCO数据集，它是人类图像数量最多的公开数据及，其中我们将其分成了COCOHUMAN和COCOHUMAN-OC两个数据集，前者是有中等和大型目标物体的人类数据集，并对其中的动作进行了标注；后者是有较多重叠对象的图像，共有44张图。COCOHUMAN-OC中的一些样例如图所示：

首先是在COCOHUMAN上，本文提出的方法与Mask R-CNN进行对比：

其他AffineAlign操作，a代表输入的图像，b代表在原图上锁定目标，c代表AffineAlign操作的结果，d代表分割结果

然后是在COCOHUMAN-OC上的实验对比：

我们的方法与Mask R-CNN在处理重叠图像上的表现。我们方法中的边界框使用预测掩码生成的，能更好地进行可视化和对比

上表显示，我们提出的基于动作姿势的框架比基于图像检测的框架表现得好。由于非极大抑制，一些基于检测的框架，如Mask R-CNN无法处理大面积重叠的现象。即使目标物体能被分离，仍然有一部分无法算入其中。但是在这种新框架下，我们做到了让整个身体都被分离的结果。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

图像分割

图像分割

+关注

关注
4

文章
182

浏览量
18078
深度学习

深度学习

+关注

关注
73

文章
5527

浏览量
121832

原文标题：清华大学与腾讯AI合作推出Pose2Seg：无需目标检测即对人像进行分割

文章出处：【微信号：jqr_AI，微信公众号：论智】欢迎添加关注！文章转载请注明出处。

一种新的粘连字符图像分割方法

一种新的粘连字符图像分割方法针对监控画面采样图像中数字的自动识别问题，提出一种新的粘连字符

发表于 09-19 09:19

基于改进遗传算法的图像分割方法

基于改进遗传算法的图像分割方法提出一种应用于图像分割的改进遗传算法,算法中引入了优生算子、改进的

发表于 09-19 09:36

小人物

小人物看似大人物的心，却走不出小人物的路。

发表于 05-28 15:07

Unity 3D和Vuforia制作AR人物互动

还没开始谈的时候就已经通过某种渠道获得了人物模型和动画，花了差不多4天时间从零开始完成了AR识别到人物展示以及人物动作这几个过程，而经过一段

发表于 09-21 10:30

分享一种CameraCube新型图像传感技术

发表于 06-08 09:29

一种名片图像的文字区块分割方法

针对以手机摄像头作为图像采集器获得的名片图像，该文介绍一种文字区块的分割方法。对用手机摄像头获取的彩色名片

发表于 04-15 09:00 •24次下载

一种改进的图像分割算法分析

针对传统阈值分割算法的一些缺点，通过将数字形态学与阈值分割算法相互结合提出了一种改进的阈值分割算法来进行脊椎

发表于 11-03 09:47 •3次下载

<b class='flag-5'>一种</b>改进的<b class='flag-5'>图像</b><b class='flag-5'>分割</b>算法分析

一种新的彩色图像分割算法

本文提出一种新的结合分水岭与种子区域生成、区域合并的彩色图像分割算法。首先将RGB颜色空间转换成HSI间，应用分水岭算法对图像进行初始化分割

发表于 12-14 14:41 •1次下载

<b class='flag-5'>一种</b>新的彩色<b class='flag-5'>图像</b><b class='flag-5'>分割</b>算法

图像分割的基本方法解析

本文详细介绍了图像分割的基本方法有：基于边缘的图像分割方法、阈值

发表于 12-20 11:06 •11w次阅读

<b class='flag-5'>图像</b><b class='flag-5'>分割</b>的基本<b class='flag-5'>方法</b>解析

基于内容的图像分割方法综述

的方法、基于像素聚类的方法和语义分割方法这3种类型并分别加以介绍对每类方法所包含的典型算法，尤其

发表于 01-02 16:52 •2次下载

基于内容的<b class='flag-5'>图像</b><b class='flag-5'>分割</b><b class='flag-5'>方法</b>综述

一种视频流特定人物检测方法

为实现视频流特定人物检测，提出了一种两阶段检测方法，即基于稳健哈希签名的流级检测和基于子图局部特征的文件级检测。第一阶段利用签名快速发现与查询图像

发表于 03-05 16:38 •1次下载

基于视频深度学习的时空双流人物动作识别模型

深度学习被运用于图片分类、人物脸部识别和人物位置预测等识别领域。视频人物动作识别可看作随时间变化图片的分类问题，所以图片识别的深度学习方法也

发表于 04-17 10:46 •0次下载

一种开源的机器学习模型，可在浏览器中使用TensorFlow.js对人物及身体部位进行分割

人物分割有何用途？这项技术可广泛应用于多个多领域，包括增强现实、摄影编辑以及图像或视频的艺术效果等。具体应用由您决定！去年，当我们推出 PoseNet（首个能够在浏览器中使用简易网络摄像头估测身体

发表于 02-26 16:33 •5913次阅读

基于TensorFlow的开源JS库的网页前端人物动作捕捉的实现

。开发者可以根据项目需求，对获得到的人体各keypoint数据进行分析处理，实现程序功能。*在基本的原理中并不是必须的组成部分，但在下文中会简单介绍一种通过的图像绘制功能，提升人物捕捉精度的方

发表于 08-13 20:07 •1536次阅读

一种可用于生成动漫人物头像的改进模型

针对已有的动漫人物头像生成方法中生成结果的多样性较差，且难以准确地按照用户想法按类生成或按局部细节生成的问题，基于含辅助分类器的对抗生成网络（ ACGAN），结合互信息理论、多尺度判别等提出了一种

发表于 04-20 11:19 •3次下载

搜索历史

一种新型分割图像中人物的方法，基于人物动作辨认

评论