单凭一张照片就能把片中人随意摆成任何姿势一键健身就要出现了？-电子发烧友网

和一键换妆、一键美颜一样，我们可能离“一键健身”不远了。

怎么说？

近日，MIT（麻省理工学院）的研究人员发明了一项新技术，单凭一张照片，就能把片中人，随意摆成任何姿势。AI的想象力和脑补力，竟然能达到窥一片而知全貌了？

没错，让人惊喜的是，这项技术的合成效果还非常好，颇有以假乱真的气势——

穿着瑜伽服打棒球？

又穿着瑜伽服打高尔夫？

棒球比赛期间突然做起瑜伽？

可能你也猜到，后面这些图都是假象，在MIT中了今年CVPR Oral的论文Synthesizing Images of Humans in Unseen Poses中，研究人员提出一种模块化的生成神经网络，用从人类运动视频中提取的成对图像和姿势训练之后，它能够为一个人合成出没做过的新姿势。

更有趣的是，这个模型在没有经过刻意训练的情况下，还能生成一段连续的视频。

只用一张照片，就能将照片中人像皮影戏一样操控，并且在被遮挡的情况下，人物和背景合成都非常自然，这到底是如何做到的？

步骤拆解

单凭一张照片合成人物姿势不是易事。姿势变换带来身体的移动，影响着人物周围的阴影变化和背景露出，若人物肢体若被遮挡，还需自行想象脑补身体边界……

总之两个字：麻烦。

对人类来说这尚且还是个繁琐复杂的工作，对AI来说更是如此。怎么办？

MIT小伙伴们用260多段视频中截取出来的成对图片和姿势，训练了一个监督学习模型。

将源图像和它对应的2D姿势信息，以及目标姿势输入到这个模型中，它就能合成出一张输出图像，把源图像上的人物形象和目标姿势结合在一起。

这个方法的精髓，就在于把这个艰巨的大任务分成四块简单的、模块化的子任务，大概如下图所示：

制造新姿势的流程分五步。

第一步得表示姿势，研究人员将2D的姿势Ps和Pt表示成3D形式RH×W×J，其中H代表输入图像的高度，W代表宽度，每个J通道都包含一个以不同节点(x,y)为中心的高斯凸起。这种方法能快速利用姿态输入的空间特性，而不仅仅是个扁平、密集的表示。

表示完动作后，就需要对图像整体大局进行原图分割，为合成动作做准备了。

运动时身体每个部分轨迹不同通常会分段仿射运动场出现，通过将原图Is分割成前景层和背景层，并将前景的身体部位分割成头、上臂、下臂、大腿、小腿和躯干等部分，基于UNet-style架构将原图分割。

之后进行前景空间变形，将这些被拆分的身体重新组合起来。

之后进行前景合成，将转换后的主体部分合并，进一步细化外观。下图显示了这个阶段的Mask Mt(第3列)和yfg(第4列)的几个输出示例。

可以看出，即使一开始是很夸张的姿势，合成出效果看起来也很真实。可惜的是，高尔夫球杆、网球拍等持有物，在合成后不会被保留。

此时，完事具备，就差背景了。背景合成也就是填补前景动作中开始被遮挡的部分，如上图第五列所示~

整个网络的架构就是这样了，接下来我们去看看研究人员具体是如何训练它的。

精挑细选的数据集

模型准备就绪，还欠数据。

于是，他们从YouTube上寻找了一些视频。其中包括136段打高尔夫的、60段练瑜伽或者健身的、70段打棒球的。

他们挑选的视频有个共同特点：背景基本静止、只有人在动。这样，模型才能更好地完成任务。

把它们混在一起，再经过一些缩放、旋转、反转之类的扩增操作，就形成了要用的数据集，从中留出10%，用作测试集。

就是用这些数据，几位科学家检验了他们模型的合成能力。

花式秀能力，开始

测试方法很简单，从视频里选一帧提取出人物的动作，找另一帧图像，让模型把里面的人扭成这个动作，看看效果如何。

作者们在论文里说：显然是我们的效果比较好嘛，有图为证。

和同行前辈UNet相比，这种新方法合成出来的图像更不容易出错。比如说上图第一行，UNet合成出来的网球少年衣服已经泛黄；第4行，健身小姐姐身后出现了重重重影。

从数据上看，这种新方法也取得了比UNet更低的错误率、更好的SSIM得分。

但这显然还不是这个模型的全部实力。

上图展示的，都是从一个网球动作到另一个网球动作，从一个健身动作到另一个健身动作，而且，还都是，静止的图像。

你大概还记得文章开头展示的那些。当然没骗你，给模型一张图片和一系列目标姿势，生成视频当然也没问题啦~

视频里的系列动作拆解开来，就是上图这样。考验眼力的时刻到了：你能猜出哪两行是真实的、哪两行是合成的吗？

答案是，1、3行是合成的动作，2、4行是真实的。

连贯起来，就是这样：

腻害~撒花！假装运动这么轻松，有视频都不一定有真相了~

Wait，这依然不是它的全部实力。

开头展示的穿着瑜伽服打棒球，当然也是它的杰作。

这个模型，可以为画中人合成不同类别的姿势。输入分别来自不同类别的源图像和目标动作，结果虽说充满违和感，但还是那么令人信服。

网球场上做瑜伽，瑜伽垫上打高尔夫……

别忘了，他们训练这个模型只用了3类运动、260多段视频，要是训练数据在充足一点，怕是真能一键假装去运动了。

传送门

这篇Synthesizing Images of Humans in Unseen Poses，被CVPR 2018作为oral论文接收，论文一作，是MIT博士后Guha Balakrishnan，他的硕士和博士学位都来自MIT。

研究团队全体成员都来自MIT，包括研究生Amy Zha、博士后Adrian V. Dalca，以及Balakrishnan的硕士和博士导师：John Guttag和Fredo Durand。

团队的另外两位成员也来自MIT，一位是研究生Amy Zhao，另一位是博士后Adrian V. Dalca。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
31493

浏览量
270190
MIT

MIT

+关注

关注
3

文章
253

浏览量
23481

原文标题：只需一张照片，运动视频分分钟伪造出来 | MIT新算法

文章出处：【微信号：cas-ciomp，微信公众号：中科院长春光机所】欢迎添加关注！文章转载请注明出处。

AVR一键下载升级了！

AVR一键下载升级了！多线程1拖N量产型AVR USB ISP一键下载(USBASP生产型)生产型1拖多AVR USB一键下载AVR单片机是目前市面上流行的主流单片机，它使用精简指令集

发表于 04-27 12:20

一键还原系统

电脑，打开老毛桃一键还原程序即可看到程序自动检测到刚刚备份了系统。以后当系统中毒或是出现其它问题时点击（请在还原之前提前备份好系统盘的个人资料，还原时将对C盘原有数据进行覆盖。）即可将系统恢复到之前备份

发表于 06-18 20:41

刺绣机器人——只要你拍张照就能绣出你的脸

` 大连的一家企业，生产一种刺绣机器人，这种机器人能快速地进行彩绣，8股彩线自由切换，根本不用人操心。另外这个刺绣机器人还有个独门绝活，只要给它一张照片，从数码相机里导入系统，它就能绣

发表于 01-22 15:08

如何读取某文件夹内第几张照片

各位大神，一个文件夹内有数量未知的好多张照片，我想做个程序首先能统计此文件夹内有多少张照片，然后可以选择读取此文件夹内第几张照片，例如读取第三张

发表于 09-06 16:06

一张图看懂阿里云智能媒体管理产品

数据，更好支撑内容检索。近日，阿里云发布了智能媒体管理（Intelligent Media Managemen）服务，通过离线处理能力关联授权的云存储，提供便捷的海量多媒体数据一键分析，并通过该分析过程构建价值元数据，更好支撑内容检索。通过

发表于 01-09 12:04

【PHYTEC开发板试用体验】3 通过开发板拍一张照片

还是挺全的，可以看的出来我们的摄影头驱动已经装好了。3. 应用程序3.1 简介嗯，接下来我们就可以写一个上层应用程序，来验证一下这个驱动是不是好的？功能很简单，我们按照我们的想法来拍一张照片，因为有

发表于 06-12 14:43

一张照片就可识别用户身份准确率达99.5%

有研究表明利用一张照片就可以轻松识别用户的身份和用户使用的智能手机型号，类似于一种PRNU指纹。据悉测试的准确率达到了99.5%，这种识别技术将会被用于身份验证。

发表于 12-18 10:58 •1.3w次阅读

华为推出便携照片打印机采用了Zink无墨打印技术可实现一键打印

华为便携照片打印机的机身尺寸十分小巧，该产品内置500mAh电池，一次充电可以打印23张照片。基于Zink无墨打印技术，使用华为便携照片打印机时仅需1分钟即可打印整

发表于 12-30 10:00 •1.5w次阅读

你社交网站上的照片也许已经被用来训练人工智能了

在他看来，这意味着使用照片就要得到照片中人物的明确同意。

发表于 04-25 14:44 •2283次阅读

三星开发新技术用一张照片就能做出Deepfakes音视频剪辑

据国外媒体报道，通常制作出令人信服的Deepfakes音视频剪辑需要大量的数据集对模型进行反复训练。目前三星人工智能中心的研究人员已经设计出一种方法，在有限训练数据集的情况下就能制作出栩栩如生的假视频，有时只需要一张特定的

发表于 05-27 16:42 •3267次阅读

一张照片进行AI“换脸”之后，可以突破刷脸支付的安全系统吗？

对于引起广泛争议的用户个人隐私和支付安全等问题，“ZAO”运营团队称，“ZAO”所呈现的“换脸”效果，是根据用户提交的头像照片，通过后期技术叠加所实现的虚构图像，并没有采集任何个人生物识别特征；刷脸支付安全门槛极高，仅通过一张照片

发表于 09-12 14:20 •5367次阅读

一张照片揭示了即将推出的Realme X9的纤薄外形

今天，该品牌在印度和欧洲的首席执行官Madhav Sheth在其Twitter上分享了一张照片。它揭示了即将推出的Realme X9的纤薄外形。根据图片，新的智能手机将厚达六张信用卡，

发表于 01-27 15:02 •2475次阅读

如何通过一张照片来获取ip地址？

接着我还想说明一下如何使用SQLi来获取ip地址。其实使用照片来盗取ip地址十分快捷，我们没有理由去使用SQLi这种方法，但是为了让读者获取到更多的知识，我还是说明一下吧：

发表于 12-14 10:31 •5280次阅读

一张照片定制自己的3D数字化身？

。仅需一张图片甚至一句文字描述，RODIN 扩散模型就能秒级生成 3D 化身，让低成本定制 3D 头像成为可能，为 3D 内容创作领域打开了更多想象空间。相关论文“RODIN: A

发表于 03-22 00:15 •567次阅读

百度文心一言支持一键生成专属数字分身

百度文心一言APP正式上线了一项令人瞩目的新功能：用户只需一张照片、录制三句话，就能轻松拥有一个

发表于 02-03 09:33 •855次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

单凭一张照片就能把片中人随意摆成任何姿势一键健身就要出现了？

评论

AVR一键下载升级了！

一键还原系统

刺绣机器人——只要你拍张照就能绣出你的脸

如何读取某文件夹内第几张照片

一张图看懂阿里云智能媒体管理产品

【PHYTEC开发板试用体验】3 通过开发板拍一张照片

一张照片就可识别用户身份准确率达99.5%

华为推出便携照片打印机采用了Zink无墨打印技术可实现一键打印

你社交网站上的照片也许已经被用来训练人工智能了

三星开发新技术用一张照片就能做出Deepfakes音视频剪辑

一张照片进行AI“换脸”之后，可以突破刷脸支付的安全系统吗？

一张照片揭示了即将推出的Realme X9的纤薄外形

如何通过一张照片来获取ip地址？

一张照片定制自己的3D数字化身？

百度文心一言支持一键生成专属数字分身