0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于ST-GCN的人体动作识别与生成

电子工程师 来源:DeepBlue深兰科技 作者:DeepBlue深兰科技 2021-03-15 09:50 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

ST-GCN: Spatial Temporal Graph Convolutional Networks时空图卷积网络,这个网络结构来源于2018年发表的一篇文章《Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition》,也就是基于时空图卷积网络来做人体动作识别。 今天,我们就来了解下,如何基于ST-GCN来实现人体动作的识别与生成。

Why:为什么要使用ST-GCN?

ST-GCN网络训练好之后要达到的效果就是:用户提供一段视频,网络会输出视频中人的动作分类。

类似于上图中的视频,如何来识别视频中的人在做什么动作呢? 视频其实就是一帧一帧的图片拼接而成的,而传统处理图像识别的网络最常用的就是CNN(卷积神经网络),那ST-GCN是否跟CNN有关系呢?为什么要使用这个网络呢?

可以从以下三点来理解:

(1) 输入数据有量级的差别。举个例子,数据为一段10秒左右的视频,大概300帧,像素1920*1080,分别输入两个网络中。传统CNN是将所有视频拆分为一帧一帧的图片输入网络,而ST-GCN则直接输入人体的骨架关节数据,CNN的输入数据量约为ST-GCN的83000倍。

(2) 输入数据纯净度高,噪声少。CNN是将视频数据直接输入网络,包括了视频的背景以及图片中的各种噪音,而ST-GCN是仅仅将人体骨架关节点的信息输入网络,只保留了主要的有效信息,噪声低。

(3) 考虑了空间和时间上的相邻关节,效果更好。ST-GCN不仅考虑了空间上的相邻节点,也考虑了时间上的相邻节点,将邻域的概念扩展到了时间上,实验效果表明精度也更高。

What:ST-GCN到底是什么?

ST-GCN是TCN与GCN的结合。TCN,对时间维度的数据进行卷积操作;GCN,则对空间维度的数据进行卷积操作。GCN属于GNN,而GNN的基础是图论。神经网络处理的传统数据都是欧式距离结构的数据,比如二维的图像、一维的声音等等。而对于非欧式距离结构的数据,比如社交网络、交通运输网等等,传统的网络结构无法直接处理,而GNN就是用来处理这类型数据的。所以要了解ST-GCN,就要先从图论的一些基本理论入手,然后再延伸到GNN、GCN、ST-GCN。

2.1 图论

这里的图并不是指我们日常所见的图片,图的广泛概念包含具体的事物,以及事物之间的联系。图论中的图由两部分构成,即点和边。

点:图上具体的节点。

边:连接图上点和点之间的东西,边分为有向边和无向边。

图:节点V(G)和边E(G)构成的集合就是图,可以表示为:G = {V(G), E(G)}。图可以简单分为有向图和无向图(如下图所示)。

2.2 GNN

GNN: Group Neural Network 图神经网络,即结合图论与深度学习的网络结构。目前主要包含:Graph Convolutional Networks (GCN)、Graph Attention Networks、Graph Auto-encoder、Graph Generative Networks、Graph Spatial-Temporal Networks。最初的GNN网络,就是将点和边的特征一起传入网络中学习。

2.3 GCN

GCN:Graph Convolutional Networks 图卷积神经网络,顾名思义,是将图与卷积结合起来。根据卷积核的不同,主要分为spectral method(频谱方法)和spatial method(空间方法)。二者的区别在于:频谱方法基于拉普拉斯矩阵,与图的关系紧密联系,可泛化能力弱;空间方法则直接在图上定义卷积,对有紧密关系的节点进行操作,分为点分类和图分类。ST-GCN中的GCN属于图分类,且采用的是空间方法。

2.4 ST-GCN

ST-GCN:Spatial Temporal Graph Convolutional Networks时空图卷积网络,是在GCN的基础上提出的。核心观点是将TCN与GCN相结合,用来处理有时序关系的图结构数据。网络分为2个部分:GCN_Net与TCN_Net。

GCN_Net对输入数据进行空间卷积,即不考虑时间的因素,卷积作用于同一时序的不同点的数据。TCN_Net对数据进行时序卷积,考虑不同时序同一特征点的关系,卷积作用于不同时序同一点的数据。

How:ST-GCN具体如何使用?

前部分讲了ST-GCN是什么,那我们回归到ST-GCN的具体应用上,首次提出ST-GCN是用来做人体动作识别,即通过一段视频来判断其中人的动作,也就是人体动作识别。

数据集:论文中使用的数据集为NTU-RGB+D,包含60种动作,共56880个样本,其中有40类为日常行为动作,9类为与健康相关的动作,11类为双人相互动作。数据集已经将视频中的人体动作转换为了骨架关节的数据,其中人体的骨架标注了25个节点,就是一种图结构的数据。

NTU-RGB+D数据集的分类

亮点:

(1) 邻接矩阵不采用传统的方式,采用一种新的方式,将邻接矩阵分为3个子集:根节点本身、向心力群,离心群。这一策略的灵感来自于身体部位的运动可以被广泛地归类为同心运动和偏心运动,通常距离重心越近,运动幅度越小,同时能更好地区分向心运动和离心运动。即下图中的(d)。

(2) 网络中加入可学习的边的权重,即加入attention机制。每层网络中邻接矩阵A都与可学习的权重相乘,这些权重在反向传播中更新。添加的原因是考虑到人体做不同的动作所侧重的关节点不同,而且添加了注意力机制更有利于提高网络的泛化能力。

整体效果:

使用ST-GCN的网络结构进行人体动作识别,论文中在NTU-RGB+D数据集的x_sub模式下识别精度达到81.5%,NTU-RGB+D数据集的x-view模式下识别精度达到88.3%,优于传统的人体动作识别网络。

团队工作亮点

ST-GCN的技术延展-动作生成

基于对ST-GCN在人体动作识别上的效果,我们将ST-GCN网络与VAE网络结合。目的在于获取人体动作的语义,进而生成人体的动作,最终可以应用于机器人动作模仿或者其他强化学习项目中。

目前项目已在进行中,下图展示的是真实的人体骨架节点3D图与网络生成的人体骨架节点3D图。具体的研究结果,之后再跟大家分享,敬请期待。

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4844

    浏览量

    108223
  • 图像识别
    +关注

    关注

    9

    文章

    535

    浏览量

    40200
  • 网络结构
    +关注

    关注

    0

    文章

    48

    浏览量

    12446

原文标题:探究 | 一文了解基于ST-GCN的人体动作识别与生成

文章出处:【微信号:kmdian,微信公众号:深兰科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    语音识别ic芯片分类工作原理,语音识别芯片分类

    设备执行相应动作。例如,在智能娃娃产品中,当用户说出“眨眨眼”,芯片识别指令后便会控制电机让娃娃完成眨眼动作。除了语音识别功能,现代语音识别
    的头像 发表于 04-24 15:14 185次阅读
    语音<b class='flag-5'>识别</b>ic芯片分类工作原理,语音<b class='flag-5'>识别</b>芯片分类

    ST6253C/ST6263C/ST6263B/ST6260C/ST6260B 8位MCU深度解析

    ST6253C/ST6263C/ST6263B/ST6260C/ST6260B 8位MCU深度解析 作为电子工程师,在设计中选择合适的微控制
    的头像 发表于 04-16 14:40 366次阅读

    【正点原子STM32N647开发板试用】--人体检测模型体验

    STM32N647芯片具有npu的,有0.6tops的算例,可以部署简单模型, 本次实验我们体验的是人体识别模型,该模型来源于:STM32 Model Zoo 工程文件分三部分,我们在线debug其中的FSBL部分才行, 提示,这个
    发表于 02-21 19:44

    瑞芯微(EASY EAI)RV1126B 人体关键点识别

    1.人体关键点识别简介人体关键点识别是一种基于深度学习的对人进行检测定位与姿势估计的模型,广泛应用于体育分析、动物行为监测和机器人等领域,帮助机器实时解读物理
    的头像 发表于 01-23 10:13 3894次阅读
    瑞芯微(EASY EAI)RV1126B <b class='flag-5'>人体</b>关键点<b class='flag-5'>识别</b>

    LAT1204+使用 NANOEDGE.AI 工具完成人体姿态识别应用

    NanoEdge™ AI 库是 Cartesiam 推出的人工智能静态库,它可以帮助客户直接生成可以运行在嵌入式 Arm Cortex 处理器上的.a 静态库文件。2021 年 ST 收购
    发表于 01-11 17:21 0次下载

    基于AIK-RA8D1的人识别的应用演示

    与Aizip人脸识别技术结合,实现高效且低功耗的人识别应用。人脸识别的优势传统的密码验证方式存在很多缺点。首先,密码容易泄露或被共享,可能导致未
    的头像 发表于 12-02 14:29 5686次阅读
    基于AIK-RA8D1<b class='flag-5'>的人</b>脸<b class='flag-5'>识别</b>的应用演示

    华中科技大学:研究面向水陆两栖人体运动识别的柔性多维肌肉形变磁传感阵列

    准确的人体运动识别对于控制可穿戴机器人及虚拟/增强现实等人机交互系统至关重要,而捕获人体运动特征的可穿戴传感设备是实现运动识别的基础(作为运动识别
    的头像 发表于 11-24 11:39 1047次阅读
    华中科技大学:研究面向水陆两栖<b class='flag-5'>人体</b>运动<b class='flag-5'>识别</b>的柔性多维肌肉形变磁传感阵列

    新品预告|能“看懂”静止人体的雷达模组

    读懂空间中的人。一、四大核心1.静态检测,人在即感知不仅能捕捉运动,更能识别微动、静止、甚至睡眠中的人体;采用FMCW调频连续波技术,更高的带宽支持更高的分辨率,
    的头像 发表于 10-20 17:11 1770次阅读
    新品预告|能“看懂”静止<b class='flag-5'>人体</b>的雷达模组

    ANSA人体模型姿态调整工具的使用案例

    中国体征人体数字模型(AC-HUMs)是中国汽研主持研发的人体有限元模型。BETA CAE Systems与中国汽研保持紧密合作,前、后处理软件(ANSA/META)会全面支持AC-HUMs系列模型。在软件中提供对应工具用于人体
    的头像 发表于 09-28 15:44 1501次阅读
    ANSA<b class='flag-5'>人体</b>模型姿态调整工具的使用案例

    ANSA人体模型姿态调整工具介绍

    ANSA的人体模型姿态调整工具(HBM Articulation Tool)通过网格变形技术实现基于人体不同部位进行调节,定位人体模型最终的姿态。
    的头像 发表于 09-28 15:40 1888次阅读
    ANSA<b class='flag-5'>人体</b>模型姿态调整工具介绍

    9米远距离高精准度24G人体存在感知雷达模块

    处理、精确人体感应算法,实现高灵敏度的人体存在状态感应,可识别运动和静止状态下的人体,并可计算出目标的距离等辅助信息。02模块优势人体存在感
    的头像 发表于 09-22 12:04 1399次阅读
    9米远距离高精准度24G<b class='flag-5'>人体</b>存在感知雷达模块

    XenG202G | 挥手手势识别参考设计(三维)

    WEMAKERFSMART-赋予万物感知的灵魂-矽典微ICLEGENDMICROXenG202G挥手手势识别(三维)毫米波传感器特征手势识别:非接触式控制,高精度手势动作识别,支持方向
    的头像 发表于 08-29 08:25 885次阅读
    XenG202G | 挥手手势<b class='flag-5'>识别</b>参考设计(三维)

    瑞芯微RK3576人体关键点识别算法(骨骼点)

    人体关键点识别是一种基于深度学习的对人进行检测定位与姿势估计的模型,广泛应用于体育分析、动物行为监测和机器人等领域,帮助机器实时解读物理动作。本算法具有运行效率高、实时性强的特点。
    的头像 发表于 08-27 10:07 1184次阅读
    瑞芯微RK3576<b class='flag-5'>人体</b>关键点<b class='flag-5'>识别</b>算法(骨骼点)

    【开发实例】基于BPI-CanMV-K230D-Zero开发板实现人体关键点的实时动态识别

    本文介绍了香蕉派CanMVK230DZero开发板通过摄像头实现人体关键点的实时动态检测识别的项目设计。https://bbs.elecfans.com/jishu_2493481_1_1.html
    的头像 发表于 07-08 08:04 1602次阅读
    【开发实例】基于BPI-CanMV-K230D-Zero开发板实现<b class='flag-5'>人体</b>关键点的实时动态<b class='flag-5'>识别</b>

    选择户外场景的人识别门禁一体机,需要具备哪些条件?

    我们常用于企业打卡或单位校园门禁的人识别身份核验终端、刷脸核验一体机、人脸识别门禁考勤机或人脸识别门禁一体机通常都是用于室内。但其实用于户外场景的身份证人脸
    的头像 发表于 06-09 10:26 1192次阅读
    选择户外场景<b class='flag-5'>的人</b>脸<b class='flag-5'>识别</b>门禁一体机,需要具备哪些条件?