基于MMPose的姿态估计配置案例

前言

MMPose是一款基于PyTorch的姿态分析开源工具箱，是OpenMMLab项目成员之一，主要特性：

支持多种人体姿态分析相关任务：2D多人姿态估计、2D手部姿态估计、动物关键点检测等等

更高的精度和更快的速度：包括“自顶向下”和“自底向上”两大类算法

支持多样的数据集：支持了很多主流数据集的准备和构建，如 COCO、 MPII等

模块化设计：将统一的人体姿态分析框架解耦成不同的模块组件，通过组合不同的模块组件，可以便捷地构建自定义人体姿态分析模型

本文主要对动物关键点检测模型进行微调与测试，从数据集构造开始，详细解释各模块作用。对一些新手可能会犯的错误做一些说明

环境配置

mmcv的安装方式在我前面的mmdetection和mmsegmentation教程中都有写到。这里不再提

MMPose安装方法最好是使用git，如果没有git工具，可以使用mim install mmpose

最后在项目文件夹下新建checkpoint、outputs、data文件夹，分别用来存放模型预训练权重、模型输出结果、训练数据

from IPython import display
!pip install openmim
!pip install -q /kaggle/input/frozen-packages-mmdetection/mmcv-2.0.1-cp310-cp310-linux_x86_64.whl


!git clone https://github.com/open-mmlab/mmdetection.git
%cd mmdetection
!pip install -e .


%cd ..
!git clone https://github.com/open-mmlab/mmpose.git
%cd mmpose
!pip install -e .


!mkdir checkpoint
!mkdir outputs
!mkdir data
display.clear_output()

在上面的安装工作完成后，我们检查一下环境，以及核对一下安装版本

from IPython import display
import mmcv
from mmcv.ops import get_compiling_cuda_version, get_compiler_version
print('MMCV版本', mmcv.__version__)
%cd /kaggle/working/mmdetection
import mmdet
print('mmdetection版本', mmdet.__version__)
%cd /kaggle/working/mmpose
import mmpose
print('mmpose版本', mmpose.__version__)
print('CUDA版本', get_compiling_cuda_version())
print('编译器版本', get_compiler_version())

输出：

MMCV版本 2.0.1
/kaggle/working/mmdetection
mmdetection版本 3.1.0
/kaggle/working/mmpose
mmpose版本 1.1.0
CUDA版本 11.8
编译器版本 GCC 11.3

•为方便后续进行文件操作，导入一些常用库

import os
import io
import json
import shutil
import random
import numpy as np
from pathlib import Path


from PIL import Image
from tqdm import tqdm
from mmengine import Config

from pycocotools.coco import COCO

预训练模型推理

在进行姿态估计前需要目标检测将不同的目标检测出来，然后再分别对不同的目标进行姿态估计。所以我们要选择一个目标检测模型。

这里选择的是mmdetection工具箱中的RTMDet模型，型号选择RTMDet-l。配置文件位于mmdetection/configs/rtmdet/rtmdet_l_8xb32-300e_coco.py，我们复制模型权重地址并进行下载。

姿态估计模型选择RTMPose模型，打开mmpose项目文件夹projects/rtmpose/README.md文档，发现RTMPose模型动物姿态估计（Animal 2d (17 Keypoints)）仅提供了一个预训练模型。

配置文件位于projects/rtmpose/rtmpose/animal_2d_keypoint/rtmpose-m_8xb64-210e_ap10k-256x256.py，我们复制模型权重地址并进行下载。

将预训练权重模型全部放入mmpose项目文件夹的checkpoint文件夹下。

# 下载RTMDet-L模型，用于目标检测
!wget https://download.openmmlab.com/mmdetection/v3.0/rtmdet/rtmdet_l_8xb32-300e_coco/rtmdet_l_8xb32-300e_coco_20220719_112030-5a0be7c4.pth -P checkpoint
# 下载RTMPose模型，用于姿态估计
!wget https://download.openmmlab.com/mmpose/v1/projects/rtmposev1/rtmpose-m_simcc-ap10k_pt-aic-coco_210e-256x256-7a041aa1_20230206.pth -P checkpoint
display.clear_output()

MMPose提供了一个被称为MMPoseInferencer的、全面的推理API。这个API使得用户得以使用所有MMPose支持的模型来对图像和视频进行模型推理。此外，该API可以完成推理结果自动化，并方便用户保存预测结果。

我们使用Cat Dataset数据集中的一张图片作为示例，进行模型推理。推理参数说明：

det_model：mmdetection工具箱中目标检测模型配置文件

det_weights：mmdetection工具箱中目标检测模型对应预训练权重文件

pose2d：mmpose工具箱中姿态估计模型配置文件

pose2d_weights：mmpose工具箱中姿态估计对应预训练权重文件

out_dir：图片生成的文件夹

from mmpose.apis import MMPoseInferencer


img_path = '/kaggle/input/cat-dataset/CAT_00/00000001_012.jpg'
# 使用模型别名创建推断器
inferencer = MMPoseInferencer(det_model = '/kaggle/working/mmdetection/configs/rtmdet/rtmdet_l_8xb32-300e_coco.py',
                              det_weights = 'checkpoint/rtmdet_l_8xb32-300e_coco_20220719_112030-5a0be7c4.pth',
                              pose2d = 'projects/rtmpose/rtmpose/animal_2d_keypoint/rtmpose-m_8xb64-210e_ap10k-256x256.py',
                              pose2d_weights = 'checkpoint/rtmpose-m_simcc-ap10k_pt-aic-coco_210e-256x256-7a041aa1_20230206.pth')


# MMPoseInferencer采用了惰性推断方法，在给定输入时创建一个预测生成器
result_generator = inferencer(img_path, out_dir = 'outputs', show=False)
result = next(result_generator)
display.clear_output()

可视化推理结果

import matplotlib.pyplot as plt


img_og = mmcv.imread(img_path)
img_fuse = mmcv.imread('outputs/visualizations/00000001_012.jpg')


fig, axes = plt.subplots(1, 2, figsize=(15, 10))
axes[0].imshow(mmcv.bgr2rgb(img_og))
axes[0].set_title('Original Image')
axes[0].axis('off')


axes[1].imshow(mmcv.bgr2rgb(img_fuse))
axes[1].set_title('Keypoint Image')
axes[1].axis('off')
plt.show()

数据处理

数据内容详解

Cat Dataset包含9000多张猫图像。对于每张图像，都有猫头部的注释，有9个点，2个用于眼睛，1个用于嘴巴，6个用于耳朵。

注释数据存储在1个文件中，文件名是相应的图像名称，末尾加上“cat”。每张猫图像都有1个注释文件。对于每个注释文件，注释数据按以下顺序存储：

○Number of points （关键点数目）

○Left Eye（左眼）

○Right Eye（右眼）

○Mouth（嘴）

○Left Ear-1（左耳-1）

○Left Ear-2（左耳-2）

○Left Ear-3（左耳-3）

○Right Ear-1（右耳-1）

○Right Ear-2（右耳-2）

○Right Ear-3（左耳-3）

数据集最初在互联网档案馆中找到，网站（https://archive.org/details/CAT_DATASET）

数据层级目录如下所示：

- CAT_00
     - 00000001_000.jpg
     - 00000001_000.jpg.cat
     - 00000001_005.jpg
     - 00000001_005.jpg.cat
     - ...
 - CAT_01
     - 00000100_002.jpg
     - 00000100_002.jpg.cat
     - 00000100_003.jpg
     - 00000100_003.jpg.cat
 - CAT_02
 - CAT_03
 - CAT_04
 - CAT_05
 - CAT_06

总的来说，一共有7个文件夹，每个文件夹里面有若干.jpg格式的图片文件，且对应有.cat格式的注释文件，.cat文件可以看做是文本文件，内容示例：

9 435 322 593 315 524 446 318 285 283 118 430 195 568 186 701 81 703 267

除第1个数字9表示有9个关键点，后面每2个点表示1个部位的坐标(x,y)，所以一共有1 + 2 * 9 = 19个点

文件夹规整

我们将数据集中的7个文件夹中的图片与注释文件分开，分别存储在mmpose项目文件夹data文件夹中，并分别命名为images、ann

def separate_files(og_folder, trans_folder):
    image_folder = os.path.join(trans_folder, 'images')
    ann_folder = os.path.join(trans_folder, 'ann')
    os.makedirs(image_folder, exist_ok=True)
    os.makedirs(ann_folder, exist_ok=True)
    for folder in os.listdir(data_folder):
        folder_path = os.path.join(data_folder, folder)
        if os.path.isdir(folder_path):
            for file in os.listdir(folder_path):
                if file.endswith('.jpg'):
                    source_path = os.path.join(folder_path, file)
                    target_path = os.path.join(image_folder, file)
                    shutil.copy(source_path, target_path)
                elif file.endswith('.cat'):
                    source_path = os.path.join(folder_path, file)
                    target_path = os.path.join(ann_folder, file)
                    shutil.copy(source_path, target_path)


data_folder = '/kaggle/input/cat-dataset'
trans_folder = './data'


separate_files(data_folder, trans_folder)

构造COCO注释文件

本质上来说COCO就是1个字典文件，第1级键包含images、annotations、categories。

○其中images包含id（图片的唯一标识，必须要是数值型，不能有字符）、file_name（图片名字）、 height（图片高度）, width（图片宽度）这些信息

○其中annotations包含category_id（图片所属种类）、segmentation（实例分割掩码）、iscrowd（决定是RLE格式还是polygon格式）、image_id（图片id，对应images键中的id）、id（注释信息id）、bbox（目标检测框，[x, y, width, height]）、 area（目标检测框面积）、num_keypoints（关键点数量）, keypoints（关键点坐标）

○其中categories包含supercategory、id（类别id）、name（类别名）、keypoints（各部位名称）、skeleton（部位连接信息）

○更详细的COCO（https://zhuanlan.zhihu.com/p/29393415）注释文件解析推荐博客COCO数据集的标注格式、如何将VOC XML文件转化成COCO数据格式（https://www.cnblogs.com/marsggbo/p/11152462.html）

○构造read_file_as_list函数，将注释文件中的坐标变成[x,y,v]，v为0时表示这个关键点没有标注，v为1时表示这个关键点标注了但是不可见（被遮挡了），v为2时表示这个关键点标注了同时可见。因为数据集中部位坐标均标注且可见，所以在x,y坐标后均插入2。

def read_file_as_list(file_path):
    with open(file_path, 'r') as file:
        content = file.read()
        key_point = [int(num) for num in content.split()]
        key_num = key_point[0]
        key_point.pop(0)
        for i in range(2, len(key_point) + len(key_point)//2, 2 + 1):
            key_point.insert(i, 2)
    return key_num,key_point

构造get_image_size函数，用于获取图片宽度和高度。

def get_image_size(image_path):
    with Image.open(image_path) as img:
        width, height = img.size
    return width, height

因为数据集没有提供目标检测框信息，且图片中基本无干扰元素，所以将目标检测框信息置为[0, 0, width, height]即整张图片。相应的目标检测框面积area = width * height。

# 转换为coco数据格式
def coco_structure(ann_dir,image_dir):
    coco = dict()
    coco['images'] = []
    coco['annotations'] = []
    coco['categories'] = []
    coco['categories'].append(dict(supercategory = 'cat',id = 1,name = 'cat',
                               keypoints = ['Left Eye','Right Eye','Mouth','Left Ear-1','Left Ear-2','Left Ear-3','Right Ear-1','Right Ear-2','Right Ear-3'],
                               skeleton = [[0,1],[0,2],[1,2],[3,4],[4,5],[5,6],[6,7],[7,8],[3,8]]))
    ann_list = os.listdir(ann_dir)
    id = 0
    for file_name in tqdm(ann_list):
        key_num,key_point = read_file_as_list(os.path.join(ann_dir, file_name))
        if key_num == 9:
            image_name = os.path.splitext(file_name)[0]
            image_id = os.path.splitext(image_name)[0]
            height, width = get_image_size(os.path.join(image_dir, image_name))
            image = {"id": id, "file_name": image_name, "height": height, "width": width}
            coco['images'].append(image)
            key_dict = dict(category_id = 1, segmentation = [], iscrowd = 0, image_id = id, 
                    id = id, bbox = [0, 0, width, height], area = width * height, num_keypoints = key_num, keypoints = key_point)
            coco['annotations'].append(key_dict)
            id = id + 1
    return coco

写入注释信息，并将其保存为mmpose项目文件夹data/annotations_all.json文件

ann_file = coco_structure('./data/ann','./data/images')
output_file_path =  './data/annotations_all.json'
with open(output_file_path, "w", encoding="utf-8") as output_file:
    json.dump(ann_file, output_file, ensure_ascii=True, indent=4)

拆分训练、测试数据

按0.85、0.15的比例将注释文件拆分为训练、测试文件

def split_coco_dataset(coco_json_path: str, save_dir: str, ratios: list,
                       shuffle: bool, seed: int):
    if not Path(coco_json_path).exists():
        raise FileNotFoundError(f'Can not not found {coco_json_path}')


    if not Path(save_dir).exists():
        Path(save_dir).mkdir(parents=True)


    ratios = np.array(ratios) / np.array(ratios).sum()


    if len(ratios) == 2:
        ratio_train, ratio_test = ratios
        ratio_val = 0
        train_type = 'trainval'
    elif len(ratios) == 3:
        ratio_train, ratio_val, ratio_test = ratios
        train_type = 'train'
    else:
        raise ValueError('ratios must set 2 or 3 group!')


    coco = COCO(coco_json_path)
    coco_image_ids = coco.getImgIds()


    val_image_num = int(len(coco_image_ids) * ratio_val)
    test_image_num = int(len(coco_image_ids) * ratio_test)
    train_image_num = len(coco_image_ids) - val_image_num - test_image_num
    print('Split info: ====== 
'
          f'Train ratio = {ratio_train}, number = {train_image_num}
'
          f'Val ratio = {ratio_val}, number = {val_image_num}
'
          f'Test ratio = {ratio_test}, number = {test_image_num}')


    seed = int(seed)
    if seed != -1:
        print(f'Set the global seed: {seed}')
        np.random.seed(seed)


    if shuffle:
        print('shuffle dataset.')
        random.shuffle(coco_image_ids)


    train_image_ids = coco_image_ids[:train_image_num]
    if val_image_num != 0:
        val_image_ids = coco_image_ids[train_image_num:train_image_num +
                                       val_image_num]
    else:
        val_image_ids = None
    test_image_ids = coco_image_ids[train_image_num + val_image_num:]


    categories = coco.loadCats(coco.getCatIds())
    for img_id_list in [train_image_ids, val_image_ids, test_image_ids]:
        if img_id_list is None:
            continue


        img_dict = {
            'images': coco.loadImgs(ids=img_id_list),
            'categories': categories,
            'annotations': coco.loadAnns(coco.getAnnIds(imgIds=img_id_list))
        }


        if img_id_list == train_image_ids:
            json_file_path = Path(save_dir, f'{train_type}.json')
        elif img_id_list == val_image_ids:
            json_file_path = Path(save_dir, 'val.json')
        elif img_id_list == test_image_ids:
            json_file_path = Path(save_dir, 'test.json')
        else:
            raise ValueError('img_id_list ERROR!')


        print(f'Saving json to {json_file_path}')
        with open(json_file_path, 'w') as f_json:
            json.dump(img_dict, f_json, ensure_ascii=False, indent=2)


    print('All done!')

输出：

loading annotations into memory...
Done (t=0.13s)
creating index...
index created!
Split info: ====== 
Train ratio = 0.85, number = 8495
Val ratio = 0, number = 0
Test ratio = 0.15, number = 1498
Set the global seed: 2023
shuffle dataset.
Saving json to data/trainval.json
Saving json to data/test.json
All done!

可以看到训练集有8495张图片，测试集有1498张图片

模型配置文件

打开项目文件夹下的projects/rtmpose/rtmpose/animal_2d_keypoint/rtmpose-m_8xb64-210e_ap10k-256x256.py文件，发现模型配置文件仅继承_base_/default_runtime.py文件

需要修改主要有dataset_type、data_mode、dataset_info、codec、train_dataloader 、test_dataloader 、val_evaluator、base_lr、max_epochs、default_hooks。还有一些细节我在代码中有标注，可以参照着修改

修改完成后将文件写入./configs/animal_2d_keypoint/cat_keypoint.py中

custom_config = """
_base_ = ['mmpose::_base_/default_runtime.py']


# 数据集类型及路径
dataset_type = 'CocoDataset'
data_mode = 'topdown'
data_root = './data/'
work_dir = './work_dir'


# cat dataset关键点检测数据集-元数据
dataset_info = {
    'dataset_name':'Keypoint_cat',
    'classes':'cat',
    'paper_info':{
        'author':'Luck',
        'title':'Cat Keypoints Detection',
    },
    'keypoint_info':{
        0:{'name':'Left Eye','id':0,'color':[255,0,0],'type': '','swap': ''},
        1:{'name':'Right Eye','id':1,'color':[255,127,0],'type': '','swap': ''},
        2:{'name':'Mouth','id':2,'color':[255,255,0],'type': '','swap': ''},
        3:{'name':'Left Ear-1','id':3,'color':[0,255,0],'type': '','swap': ''},
        4:{'name':'Left Ear-2','id':4,'color':[0,255,255],'type': '','swap': ''},
        5:{'name':'Left Ear-3','id':5,'color':[0,0,255],'type': '','swap': ''},
        6:{'name':'Right Ear-1','id':6,'color':[139,0,255],'type': '','swap': ''},
        7:{'name':'Right Ear-2','id':7,'color':[255,0,255],'type': '','swap': ''},
        8:{'name':'Right Ear-3','id':8,'color':[160,82,45],'type': '','swap': ''}
    },
    'skeleton_info': {
        0: {'link':('Left Eye','Right Eye'),'id': 0,'color': [255,0,0]},
        1: {'link':('Left Eye','Mouth'),'id': 1,'color': [255,0,0]},
        2: {'link':('Right Eye','Mouth'),'id': 2,'color': [255,0,0]},
        3: {'link':('Left Ear-1','Left Ear-2'),'id': 3,'color': [255,0,0]},
        4: {'link':('Left Ear-2','Left Ear-3'),'id': 4,'color': [255,0,0]},
        5: {'link':('Left Ear-3','Right Ear-1'),'id': 5,'color': [255,0,0]},
        6: {'link':('Right Ear-1','Right Ear-2'),'id': 6,'color': [255,0,0]},
        7: {'link':('Right Ear-2','Right Ear-3'),'id': 7,'color': [255,0,0]},
        8: {'link':('Left Ear-1','Right Ear-3'),'id': 8,'color': [255,0,0]},
    }
}


# 获取关键点个数
NUM_KEYPOINTS = len(dataset_info['keypoint_info'])
dataset_info['joint_weights'] = [1.0] * NUM_KEYPOINTS
dataset_info['sigmas'] = [0.025] * NUM_KEYPOINTS


# 训练超参数
max_epochs = 100 
val_interval = 5
train_cfg = {'max_epochs': max_epochs, 'val_begin':20, 'val_interval': val_interval}
train_batch_size = 32
val_batch_size = 32
stage2_num_epochs = 10
base_lr = 4e-3 / 16
randomness = dict(seed=2023)


# 优化器
optim_wrapper = dict(
    type='OptimWrapper',
    optimizer=dict(type='AdamW', lr=base_lr, weight_decay=0.05),
    paramwise_cfg=dict(
        norm_decay_mult=0, bias_decay_mult=0, bypass_duplicate=True))


# 学习率
param_scheduler = [
    dict(type='LinearLR', start_factor=1.0e-5, by_epoch=False, begin=0, end=600),
    dict(
        type='CosineAnnealingLR',
        eta_min=base_lr * 0.05,
        begin=max_epochs // 2,
        end=max_epochs,
        T_max=max_epochs // 2,
        by_epoch=True,
        convert_to_iter_based=True),
]


# automatically scaling LR based on the actual training batch size
auto_scale_lr = dict(base_batch_size=1024)


# codec settings
# input_size可以换成128的倍数
# sigma高斯分布标准差，越大越易学，但进度低。高精度场景，可以调小，RTMPose 原始论文中为 5.66
# input_size、sigma和下面model中的in_featuremap_size参数需要成比例缩放
codec = dict(
    type='SimCCLabel',
    input_size=(512, 512),
    sigma=(24, 24),
    simcc_split_ratio=2.0,
    normalize=False,
    use_dark=False)


# 模型：RTMPose-M
model = dict(
    type='TopdownPoseEstimator',
    data_preprocessor=dict(
        type='PoseDataPreprocessor',
        mean=[123.675, 116.28, 103.53],
        std=[58.395, 57.12, 57.375],
        bgr_to_rgb=True),
    backbone=dict(
        _scope_='mmdet',
        type='CSPNeXt',
        arch='P5',
        expand_ratio=0.5,
        deepen_factor=0.67,
        widen_factor=0.75,
        out_indices=(4, ),
        channel_attention=True,
        norm_cfg=dict(type='SyncBN'),
        act_cfg=dict(type='SiLU'),
        init_cfg=dict(
            type='Pretrained',
            prefix='backbone.',
            checkpoint='https://download.openmmlab.com/mmdetection/v3.0/rtmdet/cspnext_rsb_pretrain/cspnext-m_8xb256-rsb-a1-600e_in1k-ecb3bbd9.pth'
        )),
    head=dict(
        type='RTMCCHead',
        in_channels=768,
        out_channels=NUM_KEYPOINTS,
        input_size=codec['input_size'],
        in_featuremap_size=(16, 16),
        simcc_split_ratio=codec['simcc_split_ratio'],
        final_layer_kernel_size=7,
        gau_cfg=dict(
            hidden_dims=256,
            s=128,
            expansion_factor=2,
            dropout_rate=0.,
            drop_path=0.,
            act_fn='SiLU',
            use_rel_bias=False,
            pos_enc=False),
        loss=dict(
            type='KLDiscretLoss',
            use_target_weight=True,
            beta=10.,
            label_softmax=True),
        decoder=codec),
    test_cfg=dict(flip_test=True))


backend_args = dict(backend='local')


# pipelines
train_pipeline = [
    dict(type='LoadImage', backend_args=backend_args),
    dict(type='GetBBoxCenterScale'),
    dict(type='RandomFlip', direction='horizontal'),
    # dict(type='RandomHalfBody'),
    dict(
        type='RandomBBoxTransform', scale_factor=[0.8, 1.2], rotate_factor=30),
    dict(type='TopdownAffine', input_size=codec['input_size']),
    dict(type='mmdet.YOLOXHSVRandomAug'),
    dict(
        type='Albumentation',
        transforms=[
            dict(type='ChannelShuffle', p=0.5),
            dict(type='CLAHE', p=0.5),
            # dict(type='Downscale', scale_min=0.7, scale_max=0.9, p=0.2),
            dict(type='ColorJitter', p=0.5),
            dict(
                type='CoarseDropout',
                max_holes=4,
                max_height=0.3,
                max_width=0.3,
                min_holes=1,
                min_height=0.2,
                min_width=0.2,
                p=0.5),
        ]),
    dict(type='GenerateTarget', encoder=codec),
    dict(type='PackPoseInputs')
]


val_pipeline = [
    dict(type='LoadImage', backend_args=backend_args),
    dict(type='GetBBoxCenterScale'),
    dict(type='TopdownAffine', input_size=codec['input_size']),
    dict(type='PackPoseInputs')
]


train_pipeline_stage2 = [
    dict(type='LoadImage', backend_args=backend_args),
    dict(type='GetBBoxCenterScale'),
    dict(type='RandomFlip', direction='horizontal'),
    dict(type='RandomHalfBody'),
    dict(
        type='RandomBBoxTransform',
        shift_factor=0.,
        scale_factor=[0.75, 1.25],
        rotate_factor=60),
    dict(type='TopdownAffine', input_size=codec['input_size']),
    dict(type='mmdet.YOLOXHSVRandomAug'),
    dict(
        type='Albumentation',
        transforms=[
            dict(type='Blur', p=0.1),
            dict(type='MedianBlur', p=0.1),
            dict(
                type='CoarseDropout',
                max_holes=1,
                max_height=0.4,
                max_width=0.4,
                min_holes=1,
                min_height=0.2,
                min_width=0.2,
                p=0.5),
        ]),
    dict(type='GenerateTarget', encoder=codec),
    dict(type='PackPoseInputs')
]


# data loaders
train_dataloader = dict(
    batch_size=train_batch_size,
    num_workers=2,
    persistent_workers=True,
    sampler=dict(type='DefaultSampler', shuffle=True),
    dataset=dict(
        type=dataset_type,
        data_root=data_root,
        metainfo=dataset_info,
        data_mode=data_mode,
        ann_file='trainval.json',
        data_prefix=dict(img='images/'),
        pipeline=train_pipeline,
    ))
val_dataloader = dict(
    batch_size=val_batch_size,
    num_workers=2,
    persistent_workers=True,
    drop_last=False,
    sampler=dict(type='DefaultSampler', shuffle=False, round_up=False),
    dataset=dict(
        type=dataset_type,
        data_root=data_root,
        metainfo=dataset_info,
        data_mode=data_mode,
        ann_file='test.json',
        data_prefix=dict(img='images/'),
        pipeline=val_pipeline,
    ))
test_dataloader = val_dataloader


default_hooks = {
    'checkpoint': {'save_best': 'PCK','rule': 'greater','max_keep_ckpts': 2},
    'logger': {'interval': 50}
}


custom_hooks = [
    dict(
        type='EMAHook',
        ema_type='ExpMomentumEMA',
        momentum=0.0002,
        update_buffers=True,
        priority=49),
    dict(
        type='mmdet.PipelineSwitchHook',
        switch_epoch=max_epochs - stage2_num_epochs,
        switch_pipeline=train_pipeline_stage2)
]


# evaluators
val_evaluator = [
    dict(type='CocoMetric', ann_file=data_root + 'test.json'),
    dict(type='PCKAccuracy'),
    dict(type='AUC'),
    dict(type='NME', norm_mode='keypoint_distance', keypoint_indices=[0, 1])
]


test_evaluator = val_evaluator
"""
config = './configs/animal_2d_keypoint/cat_keypoint.py'
with io.open(config, 'w', encoding='utf-8') as f:
    f.write(custom_config)

模型训练

使用训练脚本启动训练

!python tools/train.py {config}

因为训练输出太长，这里截取一段模型在测试集上最佳精度：

08/06 19:15:56 - mmengine - INFO - Evaluating CocoMetric...
Loading and preparing results...
DONE (t=0.07s)
creating index...
index created!
Running per image evaluation...
Evaluate annotation type *keypoints*
DONE (t=0.57s).
Accumulating evaluation results...
DONE (t=0.03s).
 Average Precision  (AP) @[ IoU=0.50:0.95 | area=   all | maxDets= 20 ] =  0.943
 Average Precision  (AP) @[ IoU=0.50      | area=   all | maxDets= 20 ] =  0.979
 Average Precision  (AP) @[ IoU=0.75      | area=   all | maxDets= 20 ] =  0.969
 Average Precision  (AP) @[ IoU=0.50:0.95 | area=medium | maxDets= 20 ] = -1.000
 Average Precision  (AP) @[ IoU=0.50:0.95 | area= large | maxDets= 20 ] =  0.944
 Average Recall     (AR) @[ IoU=0.50:0.95 | area=   all | maxDets= 20 ] =  0.953
 Average Recall     (AR) @[ IoU=0.50      | area=   all | maxDets= 20 ] =  0.987
 Average Recall     (AR) @[ IoU=0.75      | area=   all | maxDets= 20 ] =  0.977
 Average Recall     (AR) @[ IoU=0.50:0.95 | area=medium | maxDets= 20 ] = -1.000
 Average Recall     (AR) @[ IoU=0.50:0.95 | area= large | maxDets= 20 ] =  0.953
08/06 19:15:56 - mmengine - INFO - Evaluating PCKAccuracy (normalized by ``"bbox_size"``)...
08/06 19:15:56 - mmengine - INFO - Evaluating AUC...
08/06 19:15:56 - mmengine - INFO - Evaluating NME...
08/06 19:15:57 - mmengine - INFO - Epoch(val) [60][47/47]    coco/AP: 0.943453  coco/AP .5: 0.979424  coco/AP .75: 0.969202  coco/AP (M): -1.000000  coco/AP (L): 0.944082  coco/AR: 0.953471  coco/AR .5: 0.987316  coco/AR .75: 0.977303  coco/AR (M): -1.000000  coco/AR (L): 0.953471  PCK: 0.978045  AUC: 0.801710  NME: 0.121770  data_time: 0.101005  time: 0.435133
08/06 19:15:57 - mmengine - INFO - The previous best checkpoint /kaggle/working/mmpose/work_dir/best_PCK_epoch_55.pth is removed
08/06 19:16:01 - mmengine - INFO - The best checkpoint with 0.9780 PCK at 60 epoch is saved to best_PCK_epoch_60.pth.

可以看到模型PCK达到了0.978，AUC达到了0.8017，mAP也都挺高，说明模型效果非常不错！

模型精简

mmpose提供模型精简脚本，模型训练权重文件大小减少一半，但不影响精度和推理

将在验证集上表现最好的模型权重进行精简

import glob
ckpt_path = glob.glob('./work_dir/best_PCK_*.pth')[0]
ckpt_sim = './work_dir/cat_pose_sim.pth'
# 模型精简
!python tools/misc/publish_model.py 
        {ckpt_path} 
        {ckpt_sim}

模型推理

这里和上面的模型推理使用相同的思路，使用RTMDet模型进行目标检测，使用我们自己训练的RTMPose模型进行姿态估计。

不过pose2d参数是我们上面保存的配置文件./configs/animal_2d_keypoint/cat_keypoint.py，pose2d_weights为最佳精度模型精简后的权重文件glob.glob('./work_dir/cat_pose_sim*.pth')[0]。

img_path = '/kaggle/input/cat-dataset/CAT_00/00000001_012.jpg'


inferencer = MMPoseInferencer(det_model = '/kaggle/working/mmdetection/configs/rtmdet/rtmdet_l_8xb32-300e_coco.py',
                              det_weights = 'checkpoint/rtmdet_l_8xb32-300e_coco_20220719_112030-5a0be7c4.pth',
                              pose2d = './configs/animal_2d_keypoint/cat_keypoint.py',
                              pose2d_weights = glob.glob('./work_dir/cat_pose_sim*.pth')[0])


result_generator = inferencer(img_path, out_dir = 'outputs', show=False)
result = next(result_generator)
display.clear_output()

可视化训练结果

img_og = mmcv.imread(img_path)
img_fuse = mmcv.imread('outputs/visualizations/00000001_012.jpg')


fig, axes = plt.subplots(1, 2, figsize=(15, 10))
axes[0].imshow(mmcv.bgr2rgb(img_og))
axes[0].set_title('Original Image')
axes[0].axis('off')


axes[1].imshow(mmcv.bgr2rgb(img_fuse))
axes[1].set_title('Keypoint Image')
axes[1].axis('off')
plt.show()

编辑：黄飞

阅读全文

姿态估计(2111) 姿态估计(2111)
人体姿态识别(1542) 人体姿态识别(1542)
pytorch(12788) pytorch(12788)

基于PoseDiffusion相机姿态估计方法

介绍一般意义上，相机姿态估计通常依赖于如手工的特征检测匹配、RANSAC和束调整（BA）。在本文中，作者提出了PoseDiffusion，这是一种新颖的相机姿态估计方法，它将深度学习与基于对应关系

2023-07-23 15:22:29

731

姿态融合算法是什么

作者：Joy Yang1.什么是姿态融合算法简单来说，姿态融合算法就是融合多种运动传感器数据（一般需要3轴加速度， 3轴陀螺仪或者3轴地磁感应传感器），通过数字滤波算法容错补偿，实现当前姿态检测

2019-07-19 06:47:49

姿态解算算法模块理解

了解或想开发无人机的朋友肯定绕不过姿态解算这茬，花点时间去了解它们原理并不难，这里提供两个原理链接供大家参考：四元数表示旋转的理解四旋翼姿态解算原理而在代码实现方面，我这里写好了姿态解算算法模块供大家学习和参考。

2022-01-11 07:06:21

AHRS姿态结算的yaw不准确

是这样的，本人最近在移植ahrs的姿态结算，程序是网上的，不过很奇怪结算出来的姿态pitch，roll 是准确的，但是yaw不准确，具体表现为，假如我轻轻转动几度，它算出来的的yaw角可能要100多度了

2019-05-08 04:51:12

MPU6050姿态解算的原理是什么

MPU6050姿态解算的原理是什么？MPU6050姿态解算的程序该如何去是实现呢？

2021-12-17 07:14:26

Pixhawk之姿态解算篇（1）_入门篇（DCM Nomalize）精选资料推荐

一、开篇慢慢的、慢慢的、慢慢的就快要到飞控的主要部分了，飞控飞控就是所谓的飞行控制呗，一个是姿态解算一个是姿态控制，解算是解算，控制是控制，各自负责各自的任务，我也不懂，还在学习中~~~~最近看姿态

2021-08-09 07:23:32

Pixhawk代码分析-姿态解算篇A 精选资料推荐

姿态解算篇A基本知识1、如何实现控制一个无人机系统的算法主要有两类：姿态检测算法、姿态控制算法。姿态控制、被控对象、姿态检测三个部分构成一个闭环控制系统。被控对象的模型是由其物理系统决定，设计无人机

2021-08-09 08:09:27

【CANNON申请】姿态解算

申请理由：這款开发板的硬件非常适合我现在在做姿态解算设计，再加上自有的mpu6050 gps，可以用来测试姿态解算的准确性项目描述：利用陀螺仪，加速度计，磁力计等做一个了定高定位的姿态解算，检验算法的正确性

2016-01-26 13:58:39

【HarmonyOS HiSpark AI Camera】运动身体姿态分析

项目名称：运动身体姿态分析试用计划：项目计划通过摄像头或传感器捕获人体在运动器械中运动中的姿态，通过AI分析身体状态，时时对运动器械做出相应的调整，对无器械运动对形体的分析，给出矫正方案预计成果捕捉人体的姿态

2020-11-19 20:48:03

【先楫HPM5361EVK开发板试用体验】06-基于MPU9250的姿态解算

的姿态信息，因此需要进行姿态解算以获取设备的准确姿态。姿态解算常用的方法有互补滤波和卡尔曼滤波。 1、卡尔曼滤波简介卡尔曼滤波是一种利用状态估计和观测数据的最优估计滤波方法。其优点在于能够处理系统噪声

2024-01-17 14:55:27

【爱芯派 Pro 开发板试用体验】人体姿态估计模型部署前期准备

部署模型的整体架构。接下来就回到最开始定的主线上了——人体姿态估计。这篇文章就是记录对一些轻量化人体姿态估计模型的调研，和前期准备。 1、人体姿态估计任务介绍下面对人体姿态估计任务做一个简单的介绍

2024-01-01 01:04:09

四轴姿态解算

mpu6050姿态解算，内部DMP输出。上位机为匿名的上位机。

2015-06-14 17:15:48

基于无迹卡尔曼滤波的四旋翼无人飞行器姿态估计算法_朱岩

2020-06-04 08:48:36

嵌入式姿态测量系统的姿态参数怎么计算？

传统的姿态测量系统采用捷联式惯导系统(SINS)，相比平台式惯导系统而言，其具有体积相对更小，成本相对更低，易于安装和维护并且可靠性更高的有点，因此，捷联惯导系统在飞行器导航和姿态测量中得到了广泛

2019-08-22 07:27:31

嵌入式姿态测量系统的结构是什么？

传统的姿态测量因为采用高精度陀螺仪和加速度计等姿态传感器，体积庞大并且价格昂贵。当前MEMS产品因其体积小、价格低、功耗低，被称为是传统的惯性测量组合的一次重大改革，越来越多地应用于姿态测量应用中

2020-04-15 07:12:20

怎样去设计全姿态指引仪图形显示系统？

全姿态指引仪的功能与原理是什么？怎样去设计全姿态指引仪图形显示系统？

2021-05-07 07:29:02

新手求助如何去设计全姿态指引仪？

全姿态指引仪的功能与原理是什么？怎样去设计全姿态指引仪系统的硬件？

2021-05-07 06:01:43

无人机设计中姿态检测算法、姿态控制算法有什么区别 ?

无人机设计中姿态检测算法、姿态控制算法有什么区别 ?推荐课程：张飞四旋翼飞行器视频套件，76小时吃透四轴算法http://t.elecfans.com/topic/40.html?elecfans_trackid=bbs_post

2018-07-14 12:12:37

机器人姿态监控

想弄一个vi可以动态显示机器人的姿态，但不知道有什么函数可以引入机器人的模型，帮帮忙，谢谢。

2012-02-11 17:25:22

蒙特卡罗模拟估计

[em57]《我国银行业操作风险的蒙特卡罗模拟估计》樊欣，杨晓光（中国科学院数学与系统科学研究院系统科学研究所）摘要：利用从公开媒体报道中搜集到的中国银行业操作风险损失事件，分别对损失事件发生频率

2009-03-25 11:50:27

请问MPU6050的软件解算姿态和DMP解算姿态各自的优缺点是什么？

MPU6050有软件解算姿态和DMP解算姿态，他们各自的优缺点是什么呢？因为大家都知道的是DMP可以减轻MCU的负担，但我看了好几个微型四轴开源飞控的选择都是用软件解算，什么理由呢？

2019-05-29 04:36:05

请问一下end-to-end的人脸姿态估计器开发流程有哪些

请问一下end-to-end的人脸姿态估计器开发流程有哪些？

2022-02-16 07:25:25

请问四轴姿态结算该怎么学习？

有谁会四轴的姿态结算吗?最近要做四轴了，也查了有关姿态结算的资料，但是看的那些资料好难，该怎么学习啊？求大神助我

2019-04-28 05:16:26

陀螺仪姿态矫正问题

目前正在做超声波测风速风向的项目，所测风速风向为水平二维面内的数据，为防止仪器抖动偏转造成测量误差，现在想用陀螺仪进行校准，陀螺仪测得的为仪器姿态角，想通过姿态角和坐标系转换矩阵，将仪器直接测得

2019-05-31 04:36:04

光照变化情况下的静态头部姿态估计

针对图像光照的变化对静态头部姿态估计的影响，该文提出一种基于有向梯度直方图和主成分分析的姿态特征，并利用SVM分类器进行分类。该算法分别在CMU姿态、光照、表情数据库

2009-04-22 09:34:44

基于MEMS的姿态测量系统

基于MEMS 的姿态测量系统A MEMS2Ba sed Attitude Reference System 载体的姿态测量是载体进行预计轨迹运动的基础。姿态测量有多种方式,其中采用磁场传感器测量大地磁场确定航向的

2009-06-08 20:37:03

卫星姿态测量系统中模糊神经网络的应用

为了提高卫星姿态测量系统的姿态估计精度，研究设计了一个模糊神经网络，对各姿态传感器的输出信号进行综合处理。研究表明：此方法可以使测量精度得以很大提高。关

2009-07-13 11:34:05

飞行体姿态角测试技术

研究飞行体姿态角测试技术，提出了一种姿态角测试方法，给出了可行的实现方案和实测曲线，用卡尔丹角结合测试曲线对被测体姿态进行了分析。通过实际测试，证明了该测试方

2010-12-23 10:02:51

什么是运动估计

什么是运动估计运动估计基本思想是将图像序列的每一帧分成许多互不重叠的宏块，并认为

2008-08-25 13:11:53

3353

微型存储测试系统在飞行体姿态测量中的设计应用

　　摘要：本文主要介绍了微型存储测试系统在姿态测量中的设计，结合飞行体在飞行时各种变化姿态的采集，编

2010-11-07 10:54:15

917

[9.2.1]--9.2姿态估计(1)

无人机

李开鸿发布于 2022-11-10 02:09:00

[9.2.1]--9.2姿态估计(2)

无人机

李开鸿发布于 2022-11-10 02:10:16

基于姿态校正的人脸检测方法

本人提出了一种基于姿态校正的人脸检测方法，在此基础上，提出姿态角度估计目标函数，并讨论了2种寻优方法，该方法在自拍的视频序列中进行姿态估计和人脸检测试验

2011-04-13 17:24:03

基于Kalman滤波的俯仰角速度估计

直升机的姿态角速度不容易准确获得，本文提出了一种采用Kalman滤波理论对直升机俯仰角速度进行估计的方法，建立俯仰角速度方程，给出估计参数的Kalman滤波算法，实验证明该方法能

2011-06-21 16:37:06

滤波在飞行器姿态获取系统中的实现

滤波在飞行器姿态获取系统中的实现滤波在飞行器姿态获取系统中的实现滤波在飞行器姿态获取系统中的实现

2016-06-08 17:29:36

姿态解算理解

姿态解算理解，感兴趣的小伙伴们可以瞧一瞧。

2016-08-23 17:56:00

基于磁强计和MEMS陀螺的弹箭全姿态探测

2016-12-17 16:33:39

姿态控制中的散开现象_何朕

2017-01-08 12:03:28

基于MEMS的捷联姿态系统的设计与试验_胡佳兴

2017-01-12 20:03:43

仿真姿态识别电路原理图

姿态识别电路原理图

2017-04-25 18:02:04

基于梯度下降法和互补滤波的航向姿态参考系统

针对微型无人机航向姿态参考系统低成本、小型化的工程实现需求，基于三轴陀螺仪、加速度计和磁力计，提出了一种在线实时姿态估计算法。该算法采用四元数描述系统模型，采用改进的梯度下降法预处理加速度计和磁力计

2017-11-16 10:29:24

一种改进扩展卡尔曼的四旋翼姿态估计算法

为了提高标准扩展卡尔曼姿态估计算法的精确度和快速性，将运动加速度抑制的动态步长梯度下降算法融入扩展卡尔曼中，提出一种改进扩展卡尔曼的四旋翼姿态估计算法。该算法在卡尔曼测量更新中采用梯度下降法进行

2017-12-04 11:31:26

基于四元数和扩展卡尔曼滤波器的姿态解算与外力加速度同步估计算法

针对惯性导航应用中，姿态解算与外力加速度估计互相干扰的问题，提出一种基于四元数和扩展卡尔曼滤波器的姿态解算与外力加速度同步估计算法。首先，利用估计的外力加速度修正传感器加速度数据得到准确的反向

2017-12-19 14:11:57

基于STM32的四旋翼飞行姿态串级控制的设计与实现

本文主要介绍了基于STM32的四旋翼飞行姿态串级控制的设计与实现，行器控制器通过处理微型MEMS惯性器件和三维地磁传感器采集的数据，计算飞行器的姿态角，并根据飞行指令，结合相应的控制律给出适当的控制信号，控制飞行器姿态和位置。能够实现飞行姿态的稳定控制，达到了设计的目的。

2017-12-23 15:24:36

7254

基于MPU6050的四轴硬件姿态解算研究

针对四轴飞行器姿态信息的实时准确获取问题，对四轴飞行器的姿态解算方面进行了研究。在分析姿态表示的四元数法和欧拉角法基础上，以成熟的Mahony互补滤波算法为例比较了软件姿态解算和基于MPU6050

2018-03-08 09:19:54

mpu6050姿态解算原理_mpu6050姿态解算程序

mpu6050常用作提供飞控运行时的姿态测量和计算。本文首先介绍了MPU6050姿态解算的原理，其次详细的介绍了mpu6050姿态解算程序。

2018-03-09 09:15:24

41963

一种基于六自由度IMU和动力学的车身姿态和侧向速度估计方法

如前文所述，本文建立了三个估计器，在小侧向激励工况下，可通过基于动力学模型的估计器估计出侧向车速，进一步使用该侧向车速估计出由于平动产生的侧向加速度，加速度传感器测量值剔除该平动加速度后，余下的部分即为由于姿态角导致的重力在加速度传感器测量值中的分量。

2018-07-31 14:26:31

8987

AlphaPose是一个实时多人姿态估计系统

新系统采用 PyTorch 框架，在姿态估计（Pose Estimation）标准测试集COCO validation set上，达到 71mAP的精度（比 OpenPose 相对提升17

2018-09-08 09:11:05

7987

一种基于深度神经网络的迭代6D姿态匹配的新方法

在本文工作中，作者提出了DeepIM——一种基于深度神经网络的迭代6D姿态匹配的新方法。给定测试图像中目标的初始6D姿态估计，DeepIM能够给出相对SE(3)变换符合目标渲染视图与观测图像之间

2018-09-28 10:23:12

3474

UC Berkeley大学的研究人员们利用深度姿态估计和深度学习技术

给定一段视频，我们用基于视觉的动作估计器预测每一帧演员的动作qt。该动作预测器是建立在人类网格复原这一工作之上的（akanazawa.github.io/hmr/），它用弱监督对抗的方法训练动作估计

2018-10-12 09:06:29

2561

针对姿态传感器的姿态估计方法的详细资料说明免费下载

针对姿态传感器提供不同采样率和时延的矢量测量离散时间样本的情况，提出了一种姿态估计方法。所提出的方法基于输出预测器和姿态观测器或滤波器的级联组合。该预测器补偿矢量测量中的采样和延迟的影响，并提供输出

2018-12-11 08:00:00

微软、中科大开源基于深度高分辨表示学习的姿态估计算法

作者在官网指出，深度高分辨率网络不仅对姿态估计有效，也可以应用到计算机视觉的其他任务，诸如语义分割、人脸对齐、目标检测、图像分类中，期待更多具有说服力的结果公布。

2019-03-05 09:55:55

2611

一份深度学习“人体姿势估计”全指南，从DeepNet到HRNet

一个部件表示目标对象某部分图形的模板。“弹簧”显示部件之间的连接方式，当部件通过像素位置和方向进行参数化后，其所得到的结构可以对与姿态估计非常相关的关节进行建模。（结构化预测任务）

2019-05-08 17:10:43

15954

基于增强通道和空间信息的人体姿态估计网络

字节跳动和东南大学组成的团队提出了基于增强通道和空间信息的人体姿态估计网络，论文《Multi-Person Pose Estimation with Enhanced Channel-wise

2019-07-18 11:19:05

3772

姿态传感器的工作原理_姿态传感器作用

姿态传感器是基于MEMS技术的高性能三维运动姿态测量系统。它包含三轴陀螺仪、三轴加速度计，三轴电子罗盘等运动传感器，通过内嵌的低功耗ARM处理器得到经过温度补偿的三维姿态与方位等数据。利用基于四元数的三维算法和特殊数据融合技术，实时输出以四元数、欧拉角表示的零漂移三维姿态方位数据。

2019-12-25 10:36:08

17574

腾讯优图实验室在人体2D姿态估计中获得了创新技术突破

近日，腾讯优图实验室在人体2D姿态估计任务中获得创新性技术突破，其提出的基于语义对抗的数据增强算法Adversarial Semantic Data Augmentation (ASDA)，刷新

2020-10-26 14:12:42

2357

3D姿态估计时序卷积+半监督训练

在这项工作中，视频中的3D姿态可以通过全卷积模型来估计，具体是在二维关键点上通过空洞时间卷积的模型得到3D姿态。我们还介绍了一种不...

2020-12-08 22:54:05

651

一种采用深度残差网络的头部姿态估计方法

为提高真实场景下头部姿态估计的准确性，提出一种采用深度残差网络的头部姿态估计方法。将深度残差网络 Restnetl01作为主干网络，引入优化器提高深层卷积网络训练时的梯度稳定性，使用RGB图像并采用

2021-03-16 11:27:44

基于深度学习的二维人体姿态估计方法

基于深度学习的二维人体姿态估计方法通过构建特定的神经网络架构，将提取的特征信息根据相应的特征融合方法进行信息关联处理，最终获得人体姿态估计结果，因其具有广泛的应用价值而受到研究人员的关注。从数据

2021-03-22 15:51:15

硬件Kalman滤波器的航拍云台姿态如何获取

航拍云台姿态获取是航空摄影中相机姿态校正的基本依据，介绍了一种基于硬件Kalman滤波器的航拍云台姿态获取的实

2021-04-08 15:55:28

2042

收藏！姿态估计开源项目汇总资料下载

电子发烧友网为你提供收藏！姿态估计开源项目汇总资料下载的电子资料下载，更有其他相关的电路图、源代码、课件教程、中文资料、英文资料、参考设计、用户指南、解决方案等资料，希望可以帮助到广大的电子工程师们。

2021-04-21 08:43:06

基于深度学习的二维人体姿态估计算法

近年来人体姿态估计作为计算机视觉领域的热点，在视频监控、人机交互、智慧校园等领域具有广泛的应用前景。随着神经网络的快速发展，采用深度学习方法进行二维人体姿态估计，相较于传统需要人工设定特征的方法

2021-04-27 16:16:07

基于Bagging-SVM集成分类器的头部姿态估计方法

针对现有常用分类器性能不能满足头部姿态估计对准确率的要求，以及光照变化影响头部姿态估计准确率的问题，提出了一种基于 Bagging-SVM集成分类器的头部姿态估计方法。首先，通过图片预处理

2021-05-07 10:11:14

基于面部特征点定位的图像人脸姿态估计方法

针对目前基于学习的姿态估计方法对训练样本及设备要求较高的问题，提出一种基于面部特征点定位的无需训练即能估计单幅图像中人脸姿态的方法。通过 Adrian bulat人脸特征点定

2021-05-24 15:43:38

基于编解码残差的人体姿态估计方法

人体姿态估计尤其是多人姿态估计逐渐渗透到教育、体育等各个方面，精度高、轻量级的多人姿态估计更是当下的研究热点。自下而上的多人姿态估计方法的实时性较强，但是精度一般不高，网络结构也比较庞大。对于

2021-05-28 16:35:28

基于视点与姿态估计的视频监控行人再识别

行人再识别是视频监控中一项极具挑战性的仼务。图像中的遮挡、光照、姿态、视角等因素，会对行人再识别的准确率造成极大影响。为了提高行人再识别的准确率，提出一种融合视点机制与姿态估计的行人再识别方法。首先

2021-05-28 16:41:15

基于自抗扰解耦模型的四旋翼姿态控制器

2021-07-01 16:28:55

基于单片机的云台姿态测量系统设计（一）

本课题针对人们对安防系统的迫切需求，设计一种基于单片机的云台姿态测量系统。运行该测量系统后，可以较精确并实时获取云台姿态的数据，进而为云台姿态控制提供准确的输入信息。该技术方法可以广泛应用

2021-11-18 09:51:03

移动和嵌入式人体姿态估计

转载自：移动和嵌入式人体姿态估计(Mobile and Embedded Human Pose Estimation)作者：Arrow背景现有的大部分模型都是在PC(带有超级强大...

2022-01-26 18:25:06

人脸姿态检测|Fine Grained Head Pose Estimation Without Keypoint

人脸姿态估计算法，主要用以估计输入人脸块的三维欧拉角。一般选取的参考系为相机坐标系，即选择相机作为坐标原点。姿态估计可用于许多...

2022-02-07 11:44:36

如何使用COCO数据集训练和优化二维姿态估计模型

　　PAFs 是一种用自下而上的方法表示关联分数的方法。有关详细信息，请参阅基于部分相似域的实时多人二维姿态估计。它由一组二维向量场组成，对肢体的位置和方向进行编码。这与热图相关联，用于在后处理期间通过执行二部匹配和关联身体部位候选来构建骨架。

2022-04-10 09:30:11

2606

用NVIDIA迁移学习工具箱如何训练二维姿态估计模型

　　本系列的第一篇文章介绍了在 NVIDIA 迁移学习工具箱中使用开源 COCO 数据集和 BodyPoseNet 应用程序的如何训练二维姿态估计模型。

2022-04-10 09:41:20

1445

深部目标姿态估计的不确定性量化研究

　　FastUQ 是一种新的用于深部目标姿态估计的快速不确定性量化方法，具有高效、即插即用的特点，支持一类通用的姿态估计任务。这项研究在自主驾驶和一般自主性方面具有潜在的重大影响，包括更稳健和安全的感知，以及不确定性感知控制和规划。

2022-04-26 16:18:24

944

iNeRF对RGB图像进行类别级别的物体姿态估计

NeRF来应用无网格、纯RGB的6DoF姿态估计的分析合成法：给定一个图像，找到摄像机相对于三维物体或场景的平移和旋转。

2022-08-10 11:37:52

1100

基于OnePose的无CAD模型的物体姿态估计

基于CAD模型的物体姿态估计：目前最先进的物体6DoF姿态估计方法可以大致分为回归和关键点技术。第一类方法直接将姿势参数与每个感兴趣区域（RoI）的特征进行回归。相反，后一类方法首先通过回归或投票

2022-08-10 11:42:22

1249

一种基于去遮挡和移除的3D交互手姿态估计框架

与被充分研究的单手姿态估计任务不同，交互手3D姿态估计是近两年来刚兴起的学术方向。现存的工作会直接同时预测交互手的左右两手的姿态，而我们则另辟蹊径，将交互手姿态估计任务，解耦成左右两手分别的单手姿态估计任务。这样，我们就可以充分利用当下单手姿态估计技术的最新进展。

2022-09-14 16:30:23

676

将不确定性感知和姿态回归结合用于自动驾驶车辆定位

提出了一种联合训练姿态估计和不确定性的方法，其具有可靠的不确定性估计和改进的训练稳定性。

2023-01-30 11:30:28

1193

一种使用2D激光雷达在室内场景下估计机器人姿态的方法

确定移动机器人的状态是机器人导航系统中重要的组成部分。在本文中，我们提出了一种使用2D激光雷达在室内场景下估计机器人姿态的方法，并探讨了如何将新型的场景表示模型整合到标准蒙特卡罗定位（MCL）系统中。

2023-02-08 09:46:06

1230

ImPosing：用于视觉定位的隐式姿态编码

先通过图像编码器计算表示图像向量。然后通过评估分布在地图上的初始姿态候选来搜索相机姿态。姿态编码器对相机姿态进行处理以产生可以与图像向量相匹配的潜在表示，每个候选姿态都会有一个基于到相机姿态的距离的分数。高分提供了用于选择新候选者的粗略定位先验。

2023-04-03 09:51:27

320

Meta研究：基于头显摄像头进行姿态估计的方法和优缺点

AR/VR体验需要由用户姿态的显式表征所驱动。特别地，其需要从设备的角度估计用户的姿态，这隐含地对应于以自我为中心的角度，亦即与用户3D头部和身体姿态相应对的“Egopose/自我姿态”。自我姿态驱动着在AR和VR中构建自然体验所需的必要输入。

2023-05-31 14:49:22

450

飞行器姿态计算

在飞行器的控制中，姿态计算是至关重要的一步。姿态计算的目标是确定飞行器相对于参考坐标系的姿态，通常以欧拉角（滚转、俯仰和偏航）或四元数的形式表示。

2023-06-14 10:41:40

1253

姿态传感器详解

文章详细介绍了姿态传感器的硬件设计、软件设计和应用领域，姿态传感器也可以称为航姿参考系统（AHRS），是如今航模无人机，机器人，天线云台，聚光太阳能，地面及水下设备，虚拟现实，人体运动分析等需要低成本、高动态三维姿态测量的产品设备等领域常用的一款传感器。

2022-01-05 14:30:09

2421

九轴姿态传感器的介绍和应用

姿态传感器介绍及应用

2021-11-01 10:22:32

1334

硬件加速人体姿态估计开源分享

电子发烧友网站提供《硬件加速人体姿态估计开源分享.zip》资料免费下载

2023-06-25 10:27:00

利用opencv+openpose实现人体姿态检测

利用opencv+openpose实现，接着我又开始找一些资料，在pycharm上部署。前言人体姿态估计的一个有趣应用是 CGI（computer graphic image，一种电影制造技术）应用。如果

2023-06-26 10:15:04

2081

AI技术：一种联合迭代匹配和姿态估计框架

由于噪声和退化，并非所有正确匹配都能给出良好的姿态。之前的操作仅保证具有判别性高的描述子的特征点有更高的匹配分数，并且首先被识别以参与姿态估计，但忽略了鲁棒姿态估计所需的几何要求。

2023-07-18 12:58:56

313

AI深度相机-人体姿态估计应用

我们非常高兴地发布一个新的代码示例，展示虹科AI深度相机SDK的惊人功能。只需6行源代码，您就可以实时准确地估计和跟踪人体姿态！我们最新的代码示例使用AI机器学习技术来识别和跟踪人体的关键点，使您能

2023-07-31 17:42:26

553

3d人体姿态估计用什么实现的原理为什么要先进行2D估计再进行3D估计？

3D姿态数据集是依靠适合室内环境的动作捕捉（MOCAP）系统构建的。MOCAP系统需要带有多个传感器和紧身衣裤的复杂装置，在室外环境使用是不切实际的

2023-08-03 11:40:46

744

基于飞控的姿态估计算法作用及原理

姿态估计的作用？姿态估计是飞控算法的一个基础部分，而且十分重要。为了完成飞行器平稳的姿态控制，首先需要精准的姿态数据作为控制器的反馈。飞控姿态估计的难点？姿态估计的一个难点

2023-11-13 11:00:40

280

一个用于6D姿态估计和跟踪的统一基础模型

今天笔者将为大家分享NVIDIA的最新开源方案FoundationPose，是一个用于 6D 姿态估计和跟踪的统一基础模型。只要给出CAD模型或少量参考图像，FoundationPose就可以在测试时立即应用于新物体，无需任何微调，关键是各项指标明显优于专为每个任务设计的SOTA方案。

2023-12-19 09:58:19

309

使用爱芯派Pro开发板部署人体姿态估计模型

部署模型的整体架构。接下来就回到最开始定的主线上了——人体姿态估计。这篇文章就是记录对一些轻量化人体姿态估计模型的调研，和前期准备。

2024-01-09 09:50:44

425

已全部加载完成

搜索历史

基于MMPose的姿态估计配置案例

评论