基于ST-GCN的人体动作识别与生成-电子发烧友网

ST-GCN: Spatial Temporal Graph Convolutional Networks时空图卷积网络，这个网络结构来源于2018年发表的一篇文章《Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition》，也就是基于时空图卷积网络来做人体动作识别。今天，我们就来了解下，如何基于ST-GCN来实现人体动作的识别与生成。

Why：为什么要使用ST-GCN？

ST-GCN网络训练好之后要达到的效果就是：用户提供一段视频，网络会输出视频中人的动作分类。

类似于上图中的视频，如何来识别视频中的人在做什么动作呢? 视频其实就是一帧一帧的图片拼接而成的，而传统处理图像识别的网络最常用的就是CNN（卷积神经网络），那ST-GCN是否跟CNN有关系呢？为什么要使用这个网络呢？

可以从以下三点来理解：

(1) 输入数据有量级的差别。举个例子，数据为一段10秒左右的视频，大概300帧，像素1920*1080，分别输入两个网络中。传统CNN是将所有视频拆分为一帧一帧的图片输入网络，而ST-GCN则直接输入人体的骨架关节数据，CNN的输入数据量约为ST-GCN的83000倍。

(2) 输入数据纯净度高，噪声少。CNN是将视频数据直接输入网络，包括了视频的背景以及图片中的各种噪音，而ST-GCN是仅仅将人体骨架关节点的信息输入网络，只保留了主要的有效信息，噪声低。

(3) 考虑了空间和时间上的相邻关节，效果更好。ST-GCN不仅考虑了空间上的相邻节点，也考虑了时间上的相邻节点，将邻域的概念扩展到了时间上，实验效果表明精度也更高。

What：ST-GCN到底是什么？

ST-GCN是TCN与GCN的结合。TCN，对时间维度的数据进行卷积操作；GCN，则对空间维度的数据进行卷积操作。GCN属于GNN，而GNN的基础是图论。神经网络处理的传统数据都是欧式距离结构的数据，比如二维的图像、一维的声音等等。而对于非欧式距离结构的数据，比如社交网络、交通运输网等等，传统的网络结构无法直接处理，而GNN就是用来处理这类型数据的。所以要了解ST-GCN，就要先从图论的一些基本理论入手，然后再延伸到GNN、GCN、ST-GCN。

2.1 图论

这里的图并不是指我们日常所见的图片，图的广泛概念包含具体的事物，以及事物之间的联系。图论中的图由两部分构成，即点和边。

点：图上具体的节点。

边：连接图上点和点之间的东西，边分为有向边和无向边。

图：节点V(G)和边E(G)构成的集合就是图，可以表示为：G = {V(G), E(G)}。图可以简单分为有向图和无向图（如下图所示）。

2.2 GNN

GNN: Group Neural Network 图神经网络，即结合图论与深度学习的网络结构。目前主要包含：Graph Convolutional Networks (GCN)、Graph Attention Networks、Graph Auto-encoder、Graph Generative Networks、Graph Spatial-Temporal Networks。最初的GNN网络，就是将点和边的特征一起传入网络中学习。

2.3 GCN

GCN：Graph Convolutional Networks 图卷积神经网络，顾名思义，是将图与卷积结合起来。根据卷积核的不同，主要分为spectral method（频谱方法）和spatial method（空间方法）。二者的区别在于：频谱方法基于拉普拉斯矩阵，与图的关系紧密联系，可泛化能力弱；空间方法则直接在图上定义卷积，对有紧密关系的节点进行操作，分为点分类和图分类。ST-GCN中的GCN属于图分类，且采用的是空间方法。

2.4 ST-GCN

ST-GCN：Spatial Temporal Graph Convolutional Networks时空图卷积网络，是在GCN的基础上提出的。核心观点是将TCN与GCN相结合，用来处理有时序关系的图结构数据。网络分为2个部分：GCN_Net与TCN_Net。

GCN_Net对输入数据进行空间卷积，即不考虑时间的因素，卷积作用于同一时序的不同点的数据。TCN_Net对数据进行时序卷积，考虑不同时序同一特征点的关系，卷积作用于不同时序同一点的数据。

How：ST-GCN具体如何使用？

前部分讲了ST-GCN是什么，那我们回归到ST-GCN的具体应用上，首次提出ST-GCN是用来做人体动作识别，即通过一段视频来判断其中人的动作，也就是人体动作识别。

数据集：论文中使用的数据集为NTU-RGB+D，包含60种动作，共56880个样本，其中有40类为日常行为动作，9类为与健康相关的动作，11类为双人相互动作。数据集已经将视频中的人体动作转换为了骨架关节的数据，其中人体的骨架标注了25个节点，就是一种图结构的数据。

NTU-RGB+D数据集的分类

亮点：

(1) 邻接矩阵不采用传统的方式，采用一种新的方式，将邻接矩阵分为3个子集：根节点本身、向心力群，离心群。这一策略的灵感来自于身体部位的运动可以被广泛地归类为同心运动和偏心运动，通常距离重心越近，运动幅度越小，同时能更好地区分向心运动和离心运动。即下图中的（d）。

(2) 网络中加入可学习的边的权重，即加入attention机制。每层网络中邻接矩阵A都与可学习的权重相乘，这些权重在反向传播中更新。添加的原因是考虑到人体做不同的动作所侧重的关节点不同，而且添加了注意力机制更有利于提高网络的泛化能力。

整体效果：

使用ST-GCN的网络结构进行人体动作识别，论文中在NTU-RGB+D数据集的x_sub模式下识别精度达到81.5%，NTU-RGB+D数据集的x-view模式下识别精度达到88.3%，优于传统的人体动作识别网络。

团队工作亮点

ST-GCN的技术延展-动作生成

基于对ST-GCN在人体动作识别上的效果，我们将ST-GCN网络与VAE网络结合。目的在于获取人体动作的语义，进而生成人体的动作，最终可以应用于机器人动作模仿或者其他强化学习项目中。

目前项目已在进行中，下图展示的是真实的人体骨架节点3D图与网络生成的人体骨架节点3D图。具体的研究结果，之后再跟大家分享，敬请期待。

责任编辑：lq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4776

浏览量
100927
图像识别

图像识别

+关注

关注
9

文章
520

浏览量
38300
网络结构

网络结构

+关注

关注
0

文章
48

浏览量
11136

原文标题：探究 | 一文了解基于ST-GCN的人体动作识别与生成

文章出处：【微信号：kmdian，微信公众号：深兰科技】欢迎添加关注！文章转载请注明出处。

矽典微新品XenD101H人体生命存在感应参考设计

静止人体生命存在毫米波传感器采用FMCW调频连续波技术，对空间内的静止、微动、运动的人体目标进行探测，通过精确的生命存在感应和测距算法，即可独立配置区间感应灵敏度，也可以自动化生成传感器配置参数

发表于 12-30 15:29 •108次阅读

矽典微新品XenD101H<b class='flag-5'>人体</b>生命存在感应参考设计

ElfBoard开源项目|百度智能云平台的人脸识别项目

百度智能云平台的人脸识别项目，旨在利用其强大的人脸识别服务实现自动人脸识别。选择百度智能云的原因是其高效的API接口和稳定的服务质量，能够帮

发表于 12-24 10:54 •422次阅读

ElfBoard开源项目|百度智能云平台<b class='flag-5'>的人</b>脸<b class='flag-5'>识别</b>项目

ADS1293获取的人体心电信号，如何实现隔直？

1. ADS1293获取的人体心电信号，如何实现隔直？ECG信号没有隔直处理的话，基线会偏离0电压位置，并且不同的人在不同的时间，偏置的电压不尽相同。 2. ADS1293评估板手册上，波形十分

发表于 12-10 08:25

使用ADS1298测出的人体心电信号基准线不在Y=0轴,如何解决呢？

这是我采用加压单极左下肢导联实测出的人体心电信号，但是基准线不在Y=0轴上，而且每次飘忽不定，总需要重新调整坐标轴，大家有没有什么解决的办法呢？谢谢啦。

发表于 12-03 08:05

24G雷达模块LD2450 支持人体移动轨迹跟踪与手势识别

24G人体移动轨迹跟踪雷达模块TARGETTRAJECTORYTRACKINGRADARMODULE24GHz雷达传感器HLK-LD2450主要用来检测6米目标范围内的人体移动轨迹，支持检测区域内

发表于 10-27 08:03 •355次阅读

24G雷达模块LD2450 支持<b class='flag-5'>人体</b>移动轨迹跟踪与手势<b class='flag-5'>识别</b>

可穿戴设备的人体成分测量 (BCM)申请简介

电子发烧友网站提供《可穿戴设备的人体成分测量 (BCM)申请简介.pdf》资料免费下载

发表于 09-10 09:22 •0次下载

可穿戴设备<b class='flag-5'>的人体</b>成分测量 (BCM)申请简介

基于FPGA的人脸识别技术

基于FPGA（现场可编程逻辑门阵列）的人脸识别技术，是一种结合了高效并行处理能力和灵活可编程性的先进图像处理解决方案。这种技术在安全监控、身份认证、人机交互等领域具有广泛应用前景。以下将详细介绍基于FPGA的人脸

发表于 07-17 11:42 •1541次阅读

基于OpenCV的人脸识别系统设计

基于OpenCV的人脸识别系统是一个复杂但功能强大的系统，广泛应用于安全监控、人机交互、智能家居等多个领域。下面将详细介绍基于OpenCV的人脸识别系统的基本原理、实现步骤，并附上具体

发表于 07-11 15:37 •1.3w次阅读

Transformer模型在语音识别和语音生成中的应用优势

随着人工智能技术的飞速发展，语音识别和语音生成作为人机交互的重要组成部分，正逐渐渗透到我们生活的各个方面。而Transformer模型，自其诞生以来，凭借其独特的自注意力机制和并行计算能力，在

发表于 07-03 18:24 •1207次阅读

基于毫米波的人体跟踪和识别算法

准确的人类活动识别（HAR）是实现新兴的上下文感知应用程序的关键，这些应用程序需要了解和识别人类行为，例如监测独居的残疾人或老年人。传统上，HAR是通过环境传感器（例如，相机）或通过可穿戴设备（例如

发表于 05-14 18:40

毫米波雷达模块在高精度人体姿态识别的应用

的优势。本文将探讨毫米波雷达模块在高精度人体姿态识别中的应用场景、原理和技术挑战，旨在为推动人体姿态识别技术的发展提供技术支持和理论指导。人体

发表于 04-24 15:20 •744次阅读

英码科技EA500I基于昇腾Mind SDK实现实时人体关键点检测

在教育、体育、安防、交通、医疗等领域中，实时人体关键点检测应用发挥着至关重要的作用，比如在体育训练时，实时人体关键点检测可以精确、实时地捕捉运动员的动作，从而进行动作分析和优化；在安防

发表于 04-21 17:44 •1025次阅读

ST Motor Control Workbench不能生成代码怎么解决？

ST Motor Control Workbench不能生成代码

发表于 04-15 06:09

用ST MC Workbench生成代码时报错怎么解决？

用 ST MC Workbench生成代码时报错

发表于 04-11 07:08

巍泰技术人体存在感知雷达：精准捕捉移动、微动与静止状态信息

存在感知雷达WTR-860基于24GHz的人体存在感知检测方案灵敏度高，最远可在4.5米范围内感测到微动作和大动作，最远3米以内的静止人体信息（呼吸率等生命体征信号）探测。相较于传统

发表于 03-11 15:57 •1452次阅读

搜索历史

基于ST-GCN的人体动作识别与生成

评论