0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

麻省大学研发MakeItTalk:如何让图片开口“说话”

如意 来源:新智元 作者:佚名 2020-10-20 16:21 次阅读

最近,麻省大学Amherst分校的Yang Zhou博士和他的团队提出了一种具有深度结构的新方法「MakeItTalk」。给定一个音频语音信号和一个人像图像作为输入,模型便会生成说话人感知的有声动画图。

富有表现力的动画谁都想要!

面部动画在很多领域都是一项关键技术,比如制作电影、视频流、电脑游戏、虚拟化身等等。

尽管在技术上取得了无数的成就,但是创造逼真的面部动画仍然是计算机图形学的挑战。

一是整个面部表情包含了完整面部各部分之间的相互关系,面部运动和语音之间的协同是一项艰巨的任务,因为面部动态在高维多重影像中占主导地位,其中头部姿势最为关键。

二是多个说话人会有不同的说话方式,控制嘴唇一致,不足以了解说话的人的性格,还要表达不同的个性。

针对上述问题,Yang Zhou博士和他的团队提出了一种具有深度结构的新方法「 MakeItTalk」。

这是一种具有深度架构的新方法,只需要一个音频和一个面部图像作为输入,程序就会输出一个逼真的「说话的头部动画」。

下面,我们就来看看,MakeItTalk的是如何让图片「说话」的。

都给我开口说话!神奇的 MakeItTalk 是什么?

MakeItTalk是一个新的深度学习为基础的架构,能够识别面部标志、下巴、头部姿势、眉毛、鼻子,并切能够通过声音的刺激使嘴唇发生变化。

模型以LSTM 和 CNN 为基础,可以根据说话人的音调和内容,让面部表情和头部产生随动。

本质上, MakeItTalk将输入音频信号中的内容和说话人分离出来,从产生的抽象表示中提取出对应的动画。

而嘴唇和相邻面部的协同也尤为重要。说话者的信息被用来获取其他面部表情和头部动作,而这些对于生成富有表现力的头部动画是必需的。

MakeItTalk模型既可以生成逼真的人脸说话图像,也可以生成非逼真的卡通说话图像。

声音+图像=「开口说话」?MakeItTalk是如何做到的?

下面的图表显示了生成逼真的说话头像的完整方法和途径:

(1)一个音频剪辑和一个单一的面部图像可以制作一个与音频协调的,能感知说话者的头部动画。

(2)在训练阶段,使用现成的人脸检测器对输入的视频进行预处理,提取标记,从输入的音频中训练基础模型,实现语音内容转动画和标记的精确提取。

(3)为了获得高精度的运动,通过对输入音频信号的分离内容和说话人嵌入来检测标记点的估计。为此,采用语音转换神经网络对语音内容进行提取,发现语音内容。

(4)内容与说话者无关,并且捕获了嘴唇和相邻部位的常见运动,其中说话内容调节了动作的特征和说话者头部动作的剩余部分。

(5)嘴唇的大小和形状随着眼睛、鼻子和头部的运动而扩大,这取决于谁说了这个词,也就是说话人身份。

(6)最后,为了生成转换后的图像,MakeItTalk采用了两种算法进行标记到图像的合成:

对于非真实感的图像,如画布艺术或矢量艺术,一个特定的畸变方法是在 Delaunay triangulation 的基础上部署;

对于真实感图像,构建一个图像到图像的转换网络(与 pix2pix 相同) ,直接转换自然人脸。

最后,混合所有的图像帧和音频共同生成头部动画。

作者简介

该项目的作者本科毕业于上海交通大学电子工程系,然后在乔治亚理工学院获得了硕士学位,现在是马萨诸塞大学阿默斯特分校计算机图形学科学研究小组的一名计算机科学博士生。

Yang Zhou在计算机图形学和机器学习领域工作。主要致力于用深度学习技术来帮助艺术家、造型师和动画师做出更好的设计。

如果也想给你的设计加点AI的基因,Yang Zhou的论文列表绝对是个不错的选择,有很多关于动画生成和多模态深度学习的研究。
责编AJX

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 音频
    +关注

    关注

    29

    文章

    2831

    浏览量

    81298
  • 模型
    +关注

    关注

    1

    文章

    3140

    浏览量

    48673
  • 图片
    +关注

    关注

    0

    文章

    203

    浏览量

    15892
收藏 人收藏

    评论

    相关推荐

    现代起亚联合大学设立机器人研发实验室

    据外媒报道,现代汽车集团旗下的现代汽车和起亚汽车于当地时间周三共同宣布,他们已经携手首尔大学、浦项科技大学以及韩国科学技术研究院,共同创立了一个专注于机器人技术研发的实验室。
    的头像 发表于 10-25 16:00 275次阅读

    开口式互感器好不好 开口电流互感器有什么缺点

    安科瑞徐赟杰18706165067 开口式互感器是一种常用于测量电流的传感器。它通过将导线穿过一个开口,利用线圈中的磁场感应原理来测量电流的强度。本文将以“开口式互感器好不好”和“开口
    的头像 发表于 09-27 09:22 371次阅读
    <b class='flag-5'>开口</b>式互感器好不好 <b class='flag-5'>开口</b>电流互感器有什么缺点

    安科瑞AKH-0.66系列开口式电流互感器

    概述:‌[AKH开口式电流互感器]‌是一种专门设计用于低压电力测量的设备,它属于[开口式电流互感器]的一种,具有高安全性和方便的安装特性。这种互感器由一个闭合的璧式铁芯组成,中间开有一个口,用于容纳
    发表于 09-26 10:37

    2024年芯片行业有多难?用数据说话

    2024年芯片行业有多难?用数据说话
    的头像 发表于 08-10 18:20 3153次阅读

    日本大学研发出新极紫外(EUV)光刻技术

    近日,日本冲绳科学技术大学大学(OIST)发布了一项重大研究报告,宣布该校成功研发出一种突破性的极紫外(EUV)光刻技术。这一创新技术超越了当前半导体制造业的标准界限,其设计的光刻设备能够采用更小巧的EUV光源,并且功耗仅为传
    的头像 发表于 08-03 12:45 845次阅读

    未来的眼睛: 南京大学团队研发出眼动追踪隐形眼镜

    近日,中国南京大学联合江苏省人民医院、南京航空航天大学的研究团队研发出 一种具有眼动追踪功能的隐形眼镜,外观和普通隐形眼镜无异
    的头像 发表于 05-20 10:18 477次阅读

    智慧场馆解决方案,场馆“会说话”!

    在十四五规划文件和数字经济发展报告中,都有明确指出加快建设数字城市,数字中国,旨在深化改革,持续推进我国场馆事业高质量发展。从传统场馆管理到智慧场馆,数字化的发展让我们实现了场馆“会说话”的完美转型
    的头像 发表于 04-25 15:34 316次阅读

    HarmonyOS开发案例:【图片编辑】

    基于canvas组件、图片编解码,介绍了图片编辑实现过程。
    的头像 发表于 04-22 16:42 827次阅读
    HarmonyOS开发案例:【<b class='flag-5'>图片</b>编辑】

    未来之声 | 人形机器人说话篇:无声!

    随着一个个有关人形机器人的“核弹式”新闻的出现,机器人技术肉眼可见地快速发展。或许,与人们预想的“像人一样说话”不同,未来人形机器人说话方式是:无声!
    的头像 发表于 04-13 08:00 207次阅读
    未来之声 | 人形机器人<b class='flag-5'>说话</b>篇:无声!

    清华大学研发成功大规模干涉-衍射异构集成芯片——太极

    4月12日公布,清华大学研发出太极芯片,实现了每瓦160TOPS的高性能通用智能计算,这是该校电子工程系与自动化系共同攻克的难题。
    的头像 发表于 04-12 15:50 403次阅读

    鸿蒙开发教学-图片的引用

    该接口通过图片数据源获取图片,支持本地图片和网络图片的渲染展示。其中,src是图片的数据源。
    的头像 发表于 02-01 17:36 632次阅读
    鸿蒙开发教学-<b class='flag-5'>图片</b>的引用

    触觉智能正式成为吉林大学实习实践基地

    近日,触觉智能与吉林大学正式达成了实习实践基地合作,这个合作的达成标志着双方在教育与企业之间搭建了一座连接的桥梁,高校老师科研项目更贴近市场需要,优秀的科研成果得到有效转化,优秀
    的头像 发表于 01-12 08:32 319次阅读
    触觉智能正式成为吉林<b class='flag-5'>大学</b>实习实践基地

    同济大学晶体产业(无锡)研发中心揭牌

    据悉,这个研发中心是由同济大学著名教授徐军领导的国家级创新技术团队牵手多方巨头合作成立的,其中包括全球知名的半导体设备制造商连城数控、以及半导体晶体材料领域的翘楚青岛嘉星。
    的头像 发表于 12-27 13:49 692次阅读

    一文详解smt钢网开口要求

    一文详解smt钢网开口要求
    的头像 发表于 12-04 15:51 2941次阅读

    如何用平行双线开口解释天线辐射的基本原理

    但是好多微波理论计算的起点却是从平行双线开始的,我们用平行双线的开口来解释天线辐射的基本原理;也利用平行双线模型来推导传输线的路模型。
    发表于 11-20 09:39 1699次阅读
    如何用平行双线<b class='flag-5'>开口</b>解释天线辐射的基本原理