看奶爸如何自己开发系统用AI「驯服」人类幼崽-电子发烧友网

为了能安心看几集 Netflix 剧，技术宅奶爸都做了些什么……

长期以来，「奶爸」+「萌娃」一直是一个不被看好的组合，甚至有人说，「父爱如山体滑坡」。

众所周知，人类幼崽似乎是台永动机，在一天 24 小时任何时间段里都有可能向你发难。你能让自己睡个安稳觉的方法看来是在白天消耗他们的精力，因此人们想出了各种各样的方法。当然，并不是所有的奶爸都这么不靠谱，也有人带起娃来挺正常的，Agustinus Nalwan 就是其中之一。 Agustinus Nalwan 是 Medium 上的一位博主，曾经从事计算机视觉、3D / 动画、游戏开发等方面的工作，目前供职于澳洲最大的汽车交易平台 carsale.com.au。他有一个两岁半的儿子，名叫 Dexie。Dexie 非常活泼，喜欢动物，尤其是老鹰，经常学老鹰在家里飞来飞去。

孩子的这种举动一般也就引起家长的「哈哈」一笑（有的会拍成短视频发网上），但 Nalwan 可不是一般的家长，他一直在尝试用技术增添带娃的乐趣。去年三月份，Nalwan 就开发过一款具有玩具识别能力的系统，可以和儿子互动并根据他手里的玩具播放相关视频。

‍ 这个项目帮他拿到了英伟达「Jetson Project of the Month: Qrio – an interactive AI bot」活动的大奖，奖品是一台英伟达 Jetson AGX Xavier。

Jetson AGX Xavier 的配置信息。这是一种算力不小的开发者套件，曾被京东、美团、菜鸟的无人快递车用作计算核心。鉴于 Jetson AGX Xavier 配置还不错，Nalwan 决定用它来帮儿子做一个新玩具，实现他「展翅高飞」的梦想。新玩具名叫 Griffin（神话中的狮鹫），最终实现效果是这样的：

当然，奶爸也可以跟着一起玩或者自己玩。

这么好的带娃经验当然要分享出来。在最近的一篇博客中，Nalwan 完整地介绍了他打造 Griffin 的完整过程，手头有娃的可以参考一下。

传说中狮身鹰首的 griffin。《哈利波特》中的 Gryffindor 学院意为金色的 griffin。以下是 Nalwan「从零开始」构建整套姿态识别游戏的历程。物料准备要实现上图中的效果，Griffin 需要具备以下模块：

3D 游戏引擎：借助一个用 OpenGL 写成的飞行模拟器生成带有山脉、天空和 Griffin 的 3D 魔幻世界。

人体姿态估计：使用 OpenPose 姿态估计模型和 SSD 目标检测模型来持续检测玩家的身体姿态，作为系统的输入，以控制 Griffin。

动作映射和手势识别：将身体姿态转化为有意义的动作和手势，如抬起左 / 右翅膀、左右翻滚身体、起飞等。

通信系统：使用 socket 将姿态输入送进 3D 游戏引擎。

以下是整个系统所需要的硬件：

NVIDIA Jetson AGX Xavier：这是一个 GPU 驱动的小型嵌入式设备，用来运行以上所有模块。它可以通过一个简单的 HDMI 接口支持音视频输出。此外，他还有一个以太网接口，方便联网。你甚至可以插入鼠标和键盘在该设备上进行开发和调试，因为它有一个功能齐全的 Ubuntu 18.04 OS。

TV（带有 HDMI 输入和内置扬声器）：作为游戏引擎的显示器。

摄像头：我用的是 Sony IMX327。其实这里只需要 224x224 的图像分辨率，因此也可以选低端一点的摄像头。

Blu-Tack：把所有硬件拼接在一起。

Jetson AGX Xavier、 IMX327 摄像头和 Blu Tack。实现构建 3D 游戏引擎为了更好地模拟飞行体验，Griffin 系统将以第三人称视角渲染 3D 世界。想象一下在 Griffin 正后方有一个摄像头看着他所看的地方。为什么不用飞行模拟器那样的第一人称视角呢？因为看到鹰的翅膀并同步移动自己的手臂，可以帮助 Dexie 快速学习如何控制这个游戏，并拥有一个更沉浸式的体验。自行构建 3D 游戏引擎并非易事，可能需要好几周的时间。现在大多数开发者只使用专门的游戏引擎，如 Unity 或 Unreal。但是很遗憾，我找不到可以在 Ubuntu OS/ARM 芯片组上运行的游戏引擎。一种替代方法是找到在 OpenGL 上运行的开源飞行模拟器。这可以保证游戏引擎能在 AGX 上运行，因为它支持 OpenGL ES（OpenGL 的轻量级版本）并且得到硬件加速。如果你不想游戏引擎以龟速运行的话，则这是必要的条件。幸运的是，我找到了一个满足标准的 C++ 开源飞行模拟器，并做了以下修改：

我用基于目标的系统替换了基于按键的飞行控制系统。这样我就可以不时地设置 Griffin 身体的目标旋转角度，之后这一旋转目标将通过手势识别模块自行设置，该模块可以映射 Dexie 胳膊的方向。

我增强了静态 3D 模型管理，以支持层级结构。原始的飞机模型是作为一个刚体移动的，它没有移动的身体部位。但是 Griffin 有两个翅膀，需要独立于身体单独运动。为此，我添加了两个翅膀，使之作为身体之上的单独 3D 模型。我可以单独旋转每个翅膀，也可以移动 Griffin 的身体，间接移动两个翅膀。实现该目标的一种恰当方式是构建骨骼动画系统，将身体部位组织为树结构的形式。但是，由于我要处理的身体部位只有三个（身体和两个翅膀），因此我可以选择一种简便的方式。为了编辑鹰和树 3D 模型，我使用了一个免费易用的 3D 编辑工具 Blender。

在 Blender 中编辑鹰的 3D 模型。

我添加了 Griffin 起飞状态的树模型，以及无需重启应用即可重启游戏的游戏状态。Griffin 有两种状态：站立（站在树枝上）和飞翔。

我利用 libSFML 添加音效播放：当 Griffin 起飞时，会出现鹰的尖啸和风声。

构建人体姿态估计模块该模块旨在检测来自摄像头输入的人体姿态。具体而言，我们需要知道左 / 右手肘、左 / 右肩膀、脖子和鼻子的位置，才能驾驭 Griffin 的翅膀和身体，并触发特定的姿势。OpenPose 是一个流行的开源库，并具备大量估计人体姿态、手部姿势和面部特征的 AI 模型。我使用的是人体姿态估计 COCO 模型，以 resnet18 作为骨干特征提取器。该模型可以实时检测 18 个关节点，包括上述我们所需的 6 个点。

COCO 关节点图。这里存在一个大问题：OpenPose 基于 PyTorch 框架构建，在 NVIDIA AGX Xavier 中运行速度很慢（4FPS），因为它无法利用重度优化的 TensorRT 框架。幸运的是，还有一个厉害的工具 torch2trt，它可以自动将 PyTorch 模型移植到 TensorRT 框架中！具体步骤是：安装 OpenPose，将 PyTorch 转换为 TensorRT，下载预训练 resnet18 骨干模型。为了获取来自摄像头的视频内容，我使用另一个库 Jetcam。只需要四行代码，就可以运行。

人体姿态估计。这样就得到了可以 100FPS 速度运行的人体姿态估计模块！经过一些测试后，我发现有时候这个模型会将随机对象错误地识别为关节点（假正例，如下图所示），这会给 Griffin 的动作控制带来麻烦。

使用 Amazon SageMaker JumpStart 构建目标检测模型解决该问题的一种方式是添加一个辅助 AI 模型，用目标检测模块来提供人体边界框，这样就可以排除掉在边界框以外检测到的人体关节点了。此外，这些边界框还可以帮助在一堆人中识别主要玩家，距离摄像头最近的人应该是主要玩家。在之前的项目中，我手动训练过 SSDMobileNetV2 目标检测模型。这次我选择使用 Amazon SageMaker JumpStart，只需一键操作就可以从 TensorFlowHub 和 PyTorchHub 部署 AI 模型。这里有 150 多个可选的模型，其中就有经过完全预训练的 SSDMobileNetV2。

从 Amazon SageMaker Studio 中启动 JumpStart。在 Amazon JumpStart 中选择 SSDMobileNetV2 后，只需一键操作就可以部署模型。有了目标检测模型后，我可以为边界框以外的关节点添加 exclusion logic，这样假正例就会少很多！

在人体边界框以外的关节点被排除在外。构建动作映射和手势识别模块该模块对于将人体姿态估计模块检测到的 6 个关节点动作转换为更具意义的输入至关重要。这包括三种直接的动作映射：

飞行时的身体转动：用于控制 Griffin 飞行时的方向。身体转动可以通过横轴和左右手肘向量之间的夹角进行计算（下图上）。在飞行时，两只翅膀基于这一转动角度同步移动。选择手肘而不是手腕是为了最大化可见度，因为手腕经常会掉出摄像头视角或被其他身体部位遮挡住。

站立时的翅膀旋转：这纯粹是出于美观，为了让游戏更具趣味性，给人一种站立的时候可以单独控制每个翅膀的印象。这通过横轴与肩膀 - 手肘向量之间的夹角进行计算（下图下）。最终的翅膀旋转角度会添加 15 度，以加大翅膀的动作，毕竟人长时间举高胳膊会很累。

身体转动和翅膀旋转时的动作映射。

蹲伏：这是另一个美观动作，可以让人感受到能够控制 Griffin 起飞前的蹲伏姿势。这通过脖子 - 鼻子向量和肩膀向量之间的长度比进行计算。蹲伏得越深，脖子和鼻子之间的距离越短，而左右肩膀之间的距离保持不变，因此长度比变小。

蹲伏动作映射。

起飞姿势：当左右肩膀之间的中心点在一秒内上下移动的幅度超过阈值时，则该动作会被识别为起飞姿势。阈值是肩膀之间的长度。当这一动作被触发时，Griffin 会跳下树枝，开始飞翔。

游戏复位姿势：当左右肩膀的水平位置反转时则为游戏复位姿势，如玩家背对摄像头。游戏将复位，Griffin 回到站在树上的姿势，准备下一次飞行。

起飞和复位手势识别。通信系统现在，我们完成了三个主要组件，只需要将它们粘合在一起就行了。我们需要将姿态估计模块检测到的人体关节点发送至手势识别模块，这个任务比较简单。但是，将动作和姿势映射结果发送至 3D 游戏引擎就不那么简单了，因为游戏引擎是用 C++ 写的。你可能会疑惑为什么不用 Python 构建 3D 游戏引擎，原因在于没有靠谱的方式来使用 Python 访问 OpenGL。此外，即使可能，我也不想花费好几周时间将 C++ 转换为 Python 代码。此时我需要以最小花销高效地在这二者之间传递信息。对于游戏引擎而言，最小花销是非常重要的因素，输入控制器和动作发生之间出现 100ms 的延迟都会导致玩家失去沉浸式体验。因此，两个单独应用之间的最好通信媒介是 socket。由于这两个应用在同一台计算机内，因此延迟会在 5ms 以内。在 C++ 中，我们简单地使用 sys/socket 库，而在 Python 中，我们可以使用 socket 框架。从现在开始，我把手势识别和姿态估计模块称作 Python app，该客户端发送五种信息：roll_target、lwing_target、rwing_target、body_height 和 game_state。把 3D 游戏引擎称为 C++ app，充当监听并不断接收上述信息的服务器。为了将这五种信息 / 变量正确地从 Python 映射到 C++ 上，在发送之前我们需要将其放置在 Python C-like 结构中。

class Payload(Structure): _fields_ = [(“roll_target”, c_int32), (“lwing_target”, c_int32), ("rwing_target", c_int32), ("body_height", c_int32), ("game_state", c_int32)] 在 C++ app 中，它们以本机 C 结构形式接收。

typedef struct payload_t { int32_t roll_target; int32_t lwing_target; int32_t rwing_target; int32_t body_height; int32_t game_state;} payload; 从下面的架构图可以看出，通信层由一个位于 Python app 中的客户端模块和一个位于 C ++ app 中的服务器模块组成。

Griffin 的整体架构图。校准与测试准备就绪后，我设置了 Griffin 系统以执行校准和测试。这套系统的性能要比我预测的好很多，在执行所有实时 3D 渲染和姿态估计时一直都保持在 60FPS 的帧率，看来英伟达的 Jetson AGX Xavier 性能强大不是说说而已。在下面的视频中，你可以看到校准和测试的过程。这个视频帧率较低，是因为我在 Ubuntu 桌面上以 15FPS 录屏，尽量减少对 Griffin 的影响。

Griffin 系统的校准与测试。起飞最后，是时候让 Dexie 用 Griffin 尝试第一次飞行了，这才是真正的大考。我在客厅里架设好了系统，我儿子一直在不耐烦地等待行动。

Dexie 使用 Griffin 飞行的经历。我只演示了一遍如何控制 Griffin 系统，跳一下就是起飞，展开手臂依靠姿势控制翅膀，Dexie 就学会了。由于游戏是第三人称视角，所以他很快就发现画面中翅膀的运动是直接和自己姿势同步的。随后他就开始享受自己的飞行体验了。没有什么是比你自己更好的游戏控制器了——记住乔布斯在发布第一代 iPhone 时嘲笑手写笔时所说的话。有意思的是，Dexie 有次快要撞山时，他奋力扬起手臂想要来个急转弯，但由于我设置了最大旋转角度限制，Griffin 不允许他飞特别极限的角度，随后他就撞了山…… 当时是这个样子：

Dexie 在 Griffin 上的首飞。他上来就玩了半小时，发疯似地挥舞着手臂，直到疲倦袭来。最重要的是，那天晚上他睡得很香，对我们来说这是一次胜利！我有更多时间看 Netflix 了 :)

总结构建这样一套系统让我学到了很多，同时获得的乐趣也很多。总体来说我学到了：

Torch2trt 是一个很强大的工具，可以自动将 PyTorch 模型转化为 TensorRT 版，让 AI 模型在 Jetson AGX Xavier 上运行地更快。很多最先进的 AI 模型都是用 PyTorch 构建起来的，但手动将它们移植到 TensorFlow 上可不是好的体验。

英伟达 Jetson AGX Xavier 的性能非常强大！很多人说它可以实时处理 30 个 1080p 视频流的计算机视觉模型处理任务，看来的确是这样。

亚马逊 SageMaker JumpStart 提供了大量流行的 AI 模型，并让它们非常易于部署。

构建 3D 游戏引擎的经历让我重拾之前作为游戏和电影 SFX 开发人员的经历，再次用起了生疏的 OpenGL、C++ 和三角学方面的技能。

说到动作识别游戏，人们自然会想到 Xbox——我本可以用 Unity 引擎和 Kinect 传感器在 Xbox 上构建一个 Griffin，但是这样不就没有太大意义了吗？有时从头构建一套系统才是乐趣所在。

扮演老鹰是一个很累的工作，尤其是长时间抬起手臂这件事。不过真正的老鹰是通过上升气流获得帮助并滑翔在天空中的。

不知这样的一段经历，是否能给你一些启发？最后，作者计划在近期将项目代码开源出来。

原文标题：用AI「驯服」人类幼崽：这个奶爸找到了硬核带娃的乐趣

文章出处：【微信公众号：人工智能与大数据技术】欢迎添加关注！文章转载请注明出处。

责任编辑：haq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
32491

浏览量
271701
人工智能

人工智能

+关注

关注
1800

文章
48097

浏览量
242235

原文标题：用AI「驯服」人类幼崽：这个奶爸找到了硬核带娃的乐趣

文章出处：【微信号：TheBigData1024，微信公众号：人工智能与大数据技术】欢迎添加关注！文章转载请注明出处。

【书籍评测活动NO.59】零基础开发AI Agent——手把手教你用扣子做智能体

把握科技大势。 ▊《零基础开发AI Agent——手把手教你用扣子做智能体》叶涛管锴张心雨著不懂编程也可以开发Agent Agent（智能体）是大模型落地的重要方向，是

发表于 03-10 16:29

10分钟快速打造爆款AI硬件！涂鸦产品AI功能和智能体开发平台重磅上新

在智能化浪潮的推动下，AI与智能设备的深度融合，不仅重塑了人类的生活方式，更为开发者带来了无限想象空间。例如AI陪伴机器人、AI玩具、

发表于 03-06 18:59 •258次阅读

10分钟快速打造爆款<b class='flag-5'>AI</b>硬件！涂鸦产品<b class='flag-5'>AI</b>功能和智能体<b class='flag-5'>开发</b>平台重磅上新

《AI Agent 应用与项目实战》----- 学习如何开发视频应用

再次感谢发烧友提供的阅读体验活动。本期跟随《AI Agent 应用与项目实战》这本书学习如何构建开发一个视频应用。AI Agent是一种智能应用，能够根据用户需求和环境变化做出相应响应。通常基于深度

发表于 03-05 19:52

启明智显AI解决方案，用AI生活助手角度打开AI智能体的一天

启明智显AI解决方案打造AI生活助手，用AI智能体的角度看AI解决方案能实现哪些功能

发表于 02-26 14:43 •272次阅读

启明智显<b class='flag-5'>AI</b>解决方案，<b class='flag-5'>用</b><b class='flag-5'>AI</b>生活助手角度打开<b class='flag-5'>AI</b>智能体的一天

奶泡棒专用芯片详细解析

发表于 02-24 11:23 •83次阅读

《AI Agent 应用与项目实战》第1-2章阅读心得——理解Agent框架与Coze平台的应用

Agent各司其职又紧密配合，大大提升了分析效率和质量。这种分布式智能的理念启发我们思考：在构建AI系统时，不应该追求单一模型的全能性，而是要设计合理的分工机制，让每个Agent都能在自己擅长的领域发挥

发表于 02-19 16:35

AI开发平台模型怎么用

AI开发平台极大地简化了AI应用的开发流程，从环境搭建、模型训练到部署集成，每一步都提供了丰富的工具和资源。那么，AI

发表于 02-11 09:53 •129次阅读

名单公布！【书籍评测活动NO.55】AI Agent应用与项目实战

日程预测性地调整了今天的工作安排。在近日的Agent OpenDay上，智谱AI展示了在AI Agent（智能体）方面最新成果，发布了用AI替代人

发表于 01-13 11:04

马斯克预言：AI将全面超越人类智力

近日，科技巨头马斯克作出了一个关于人工智能(AI)的大胆预测。他断言，AI的发展速度将超乎人类的想象，并将在不久的将来全面超越人类的智力。马斯克在X平台上明确表示，

发表于 12-28 14:23 •424次阅读

怎么用Clion开发APM32

APM32 官方 SDK 中提供了三种开发环境：Keil、IAR 和 Eclipse。不否认这三种环境的强大，但是在 AI 时代做嵌入式开发，用这三种环境就显得有点不够优雅了。本篇文章

发表于 12-17 09:19 •1185次阅读

云端AI开发者工具怎么用

云端AI开发者工具通常包括代码编辑器、模型训练平台、自动化测试工具、代码管理工具等。这些工具不仅降低了AI开发的门槛，还极大地提高了开发效率

发表于 12-05 13:31 •252次阅读

AI项目管理平台怎么用

AI项目管理平台是一种集成了项目管理工具、AI开发环境和数据分析能力的综合性平台。接下来，AI部落小编为您梳理AI项目管理平台怎么

发表于 11-13 09:38 •367次阅读

如何训练自己的AI大模型

和训练AI大模型之前，需要明确自己的具体需求，比如是进行自然语言处理、图像识别、推荐系统还是其他任务。二、数据收集与预处理数据收集根据任务需求，收集并准备好足够的数据集。可以选择公开数据集、自有数据集或者通过数据标

发表于 10-23 15:07 •3947次阅读

平衡创新与伦理：AI时代的隐私保护和算法公平

机制，还包括了数据的来源、处理方式以及使用目的的明确披露。这样不仅有助于监管机构进行审查，也让普通用户能够理解AI系统的决策依据，从而减少因“黑箱操作”带来的不信任和误解。例如，在AI辅助医疗诊断中

发表于 07-16 15:07

开发者手机 AI - 目标识别 demo

功能简介该应用是在Openharmony 4.0系统上开发的一个目标识别的AI应用，旨在从上到下打通Openharmony AI子系统，展

发表于 04-11 16:14

搜索历史

看奶爸如何自己开发系统用AI「驯服」人类幼崽

评论

【书籍评测活动NO.59】零基础开发AI Agent——手把手教你用扣子做智能体

10分钟快速打造爆款AI硬件！涂鸦产品AI功能和智能体开发平台重磅上新

《AI Agent 应用与项目实战》----- 学习如何开发视频应用

启明智显AI解决方案，用AI生活助手角度打开AI智能体的一天

奶泡棒专用芯片详细解析

《AI Agent 应用与项目实战》第1-2章阅读心得——理解Agent框架与Coze平台的应用

AI开发平台模型怎么用

名单公布！【书籍评测活动NO.55】AI Agent应用与项目实战

马斯克预言：AI将全面超越人类智力

怎么用Clion开发APM32

云端AI开发者工具怎么用

AI项目管理平台怎么用

如何训练自己的AI大模型

平衡创新与伦理：AI时代的隐私保护和算法公平

开发者手机 AI - 目标识别 demo