0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

人机交互的未来 搜狗联合清华天工研究院推出ChoreoNet模型

脑极体 来源:脑极体 作者:脑极体 2020-08-24 11:13 次阅读

声音与AI行为搭配在一起,会发生怎样的化学反应呢?这一话题,正在成为国内外AI研究比较热衷的新方向。

比如卡内基·梅隆大学和CMU机器人研究所,就在研究声音和机器人动作之间的相互作用;国内则从数字人入手,搜狗分身技术团队联合清华大学天工智能计算研究院贾珈老师团队,率先展开了音频驱动身体动作的研究。

近日二者共同发表的数字人技术论文《ChoreoNet: 基于舞蹈动作单元的音乐-舞蹈合成框架》,就被2020国际顶级盛会ACM Multimedia录用为长文。

作为计算机领域诺贝尔奖——图灵奖的评选机构,ACM(国际计算机学会Association for Computing Machinery)的业界地位不用赘述,旗下的ACM Multimedia也被认为是多媒体技术领域奥运级别的顶级盛会,论文接受率很低。

那么,能得到顶会的认可,这一新技术究竟有哪些开创性呢?

闻声起舞,“乐舞合成”是怎样实现的?

让数字人根据文本语义做出相对应的面部表情及肢体动作,目前已经有不少成熟的应用,比如AI合成主播。如果再能够跟随音频做出同步、自然的肢体反应,无疑会在多种场景中产生奇妙的化学反应。

不过,随声而动这件事的难度在于,背后需要解决的技术问题不少,比如:

传统音乐与舞蹈合成的方式是基线法,通过人体骨骼关键点的映射,但许多关键点难以捕捉和预测,就会出现高度冗余和噪声,导致合成结果的不稳定、动作节衔接不像真人。

后来,雅尔塔等学者也提出要通过AI的弱监督学习来解决上述问题,但由于缺乏对人类舞蹈经验知识的了解,依然会出现合成不够自然、情感表达不够流畅的问题。

另外,由于音乐片段比较长,背后伴随着成千上万的动作画面,需要智能体记住并映射这种超长的序列也是一大挑战。

搜狗及清华天工院研究团队所做的突破,就是将人类专业知识融入算法,提出了一个模仿人类舞蹈编排的程序ChoreoNet,来根据音乐生成动态优美连贯、非线性高度拟真的舞蹈。

简单来说,ChoreoNet是将专业舞者的各个动作单元与音乐旋律捕捉并数据化,然后让AI在其中寻找规律,知道在怎样的音乐节拍、旋律风格中应该做出怎样的舞蹈动作,进而形成连贯的动作轨迹。

其中,研究人员共突破了两个环节:

1.舞蹈知识化。用动作捕捉采集专业的人类舞者是如何根据音乐的节奏、旋律来编排动作的。研究人员收集了4种不同类型(恰恰、华尔兹、伦巴和探戈)的舞蹈数据,数个音乐节拍裁剪出一个编舞动作单元(CAUs) 相对应的片段,形成一个动作控制单元(CA),形成一个音乐与动作的映射序列。

2.之前采集的舞蹈动作只是人体骨骼关键点数据,怎样让它们之间的连续过渡更加自然呢?研究人员借助NLP语义理解,让AI可以根据积累的知识进行实时反应。利用GAN设计了一个运动生成模型,让AI可以绘制一些舞蹈动作,补上缺失的数据,从而实现舞蹈的平滑过渡,产生自然的效果。

实验结果证明,与基线法相比,ChoreoNet性能更好,可以生成持续时间较长的结构化控件,来生成与音乐匹配的动作,并使其自然连接、情感流畅。

在这一突破中,搜狗对音频驱动身体动作这一课题的敏锐感知,以及AI分身技术在身体动作及姿态生成方面的加成,无疑是领先技术能力与创新意识的绝佳组合。

持续领跑,搜狗与分身技术的不解之缘

可以看到,ChoreoNet的出现,既带来了人机交互能力的提升,也给机器学习融入了知识元素。这可以看做是搜狗“分身技术”的一次进阶,也侧面印证了搜狗以“自然交互+知识计算”为核心的AI技术版图,正在持续狂奔,也得以积蓄起不断引领技术方向的势能。

从2018年首创分身技术之后,搜狗的研发脚步从未停止,持续专注于如何以文本及音频更好驱动数字人的面部表情及唇动进行研究。相继在2D/3D数字人领域构建了音画同步、逼真的面部表情唇动生成及驱动能力。

如何能够让数字人更加自然并且富有表现力也是搜狗分身的重点研究方向,其中身体动作以及姿态的表达至关重要。在对数字人的面部驱动达到较高标准后,搜狗将研究重点从面部为主的驱动转到面部+动作的驱动,重点攻关如何让肢体动作更具自然表现力。如在今年5月推出的3D AI合成主播身上,不仅有经得起高清镜头考验的面部表现,同时实现了以文本语义为驱动的自如行走。

如今,ChoreoNet更进一步,实现了以音频对AI数字人进行实时驱动。搜狗在业内率先尝试并取得突破性研发结果的这一举动,更是一改只能由文本、语义驱动AI分身面部+动作的现状,为行业带来了更多的创新可能,搜狗的分身技术理想与实力也跃然纸上。

不断打造可视化、能自然交互的AI数字人,搜狗到底想做什么?

人机交互的未来,与搜狗的技术远景

回归到企业战略层面,搜狗的AI理念是让AI赋能于人。通过人机协作,把人从重复性工作中解放出来,更好地解放社会生产力。比如AI主播,就可以让主持人不再困于朗读既定内容,可以投身于更具创造性的工作。当然,这一切都要从更自然的人机交互开始,完成一次次交流与触碰。

而此次ChoreoNet让数字人跟随音乐起舞,这个创意的突破不仅仅是技术上够炫酷,应用空间也非常巨大。

不出意外,搜狗很大可能会将该技术同3D数字人相结合,因为相较2D数字人,3D数字人的肢体灵活性、可塑性驱动更强,从而有更广泛的应用空间。音频驱动技术的加入,不仅能丰富搜狗3D数字人在新闻播报、外景采访的场景,更直接有助于突破融媒体领域、向娱乐、影视等领域落地进军。可以看到,基于视觉的人机交互会越来越成为主流,比如当前流行的智能客服、虚拟偶像等等,往往需要大量文本、语义的输入来进行推理与交互,虚拟偶像的动作也需要捕捉后由人工逐帧进行制作,而改为音频驱动可以更为直接地实现语音交流,节省制作/计算的步骤与成本。

此外,人类知识体系与机器学习的结合,让AI能力有极大的提升。通过垂直领域的知识数据进行训练和学习,从而提供更精准、可靠的服务,大大提升AI客服的接受度。

当然,音频驱动也可以生成更具人性化的个人秘书,帮助人减轻工作负担、提高效率的同时,通过音频识别与判断来实时反应,表现力更加丰富,让智能家居、服务机器人等更好地融入生活环境,在老人关怀、私人助理、儿童陪伴等等场景之中,扮演更积极的角色。

业内有个共识,一般情况下只有对日常生活和技术突破具有巨大影响潜力的研究项目,才会被ACM Multimedia通过和录取。从这个角度看,搜狗与清华天工院所做的工作,远远不只是学术上的突破那么简单。当全球科技巨头都在探索如何用多模态交互缔造新玩法、新功能的时候,搜狗已经向前迈出了让人眼前一亮的步伐。

让数字人更像人,就能更早地与人类达成亲密无间的配合与协作,对于人类和AI来说,同样重要。也正由于此,世界顶级盛会才会投注认可与鼓励。下一次,搜狗会为数字人集齐怎样的能力呢?我们拭目以待。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人机交互
    +关注

    关注

    12

    文章

    1199

    浏览量

    55265
  • 搜狗
    +关注

    关注

    0

    文章

    90

    浏览量

    13907
  • 3D
    3D
    +关注

    关注

    9

    文章

    2851

    浏览量

    107260
  • 数字
    +关注

    关注

    1

    文章

    1693

    浏览量

    51250
  • 清华
    +关注

    关注

    0

    文章

    15

    浏览量

    18703
收藏 人收藏

    评论

    相关推荐

    具身智能对人机交互的影响

    在人工智能的发展历程中,人机交互一直是研究的核心领域之一。随着技术的进步,人机交互的方式也在不断演变。从最初的命令行界面,到图形用户界面,再到现在的自然语言处理和语音识别,每一次技术的突破都极大
    的头像 发表于 10-27 09:58 212次阅读

    字节跳动与清华AIR成立联合研究中心

    近日,清华大学智能产业研究院(AIR)与字节跳动共同宣布成立“可扩展大模型智能技术联合研究中心”(SIA Lab),并在
    的头像 发表于 10-12 15:24 305次阅读

    基于传感器的人机交互技术

    基于传感器的人机交互技术是现代科技发展的重要领域之一,它极大地推动了人机交互的便捷性、自然性和智能性。本文将详细探讨基于传感器的人机交互技术,包括其基本原理、关键技术、应用领域以及未来
    的头像 发表于 07-17 16:52 595次阅读

    人机交互界面是什么_人机交互界面的功能

    人机交互界面(Human-Computer Interaction Interface,简称HCI或HMI),也被称为人机界面(MMI)、操作员界面终端(OIT)、本地操作员界面(LOI)或操作员
    的头像 发表于 06-22 11:03 1985次阅读

    香港城市大学与富士康鸿海研究院成立联合研究中心

    计算等领域的创新研究项目。 近日,联合研究中心的揭幕仪式举行。主礼嘉宾包括城大校长梅彦昌教授、鸿海研究院执行长兼资通安全研究所所长利瓦伊斌博
    的头像 发表于 06-21 14:37 365次阅读
    香港城市大学与富士康鸿海<b class='flag-5'>研究院</b>成立<b class='flag-5'>联合</b><b class='flag-5'>研究</b>中心

    易华录无锡数据湖与清华大学苏州汽车研究院(吴江)合作挖掘智能驾驶数据新价值

    6月15日,易华录无锡数据湖与清华大学苏州汽车研究院(吴江)数字工业中心就“聚焦汽车智能驾驶领域,共同挖掘智驾数据新价值”举行了签约仪式。清华大学苏州汽车研究院顾问、数字工业中心主任王
    的头像 发表于 06-18 15:00 851次阅读

    人机交互的三个阶段 人机交互的常用方式

    交互经历的三个阶段:命令行界面交互阶段、图形用户界面交互阶段、自然和谐的人机交互阶段。
    的头像 发表于 03-13 17:25 2655次阅读

    DEKRA Stan Zurkiewicz拜访清华大学苏州汽车研究院,探讨汽车行业安全发展

    3月12日,DEKRA德凯集团董事会主席兼首席执行官Stan Zurkiewicz先生一行拜访清华大学苏州汽车研究院,探讨汽车行业安全发展。
    的头像 发表于 03-13 16:46 986次阅读

    人机交互技术有哪几种 人机交互技术的发展趋势

    人机交互技术是指人与计算机之间通过各种交互方式进行信息传递、操作和控制的技术。随着科技的进步,人机交互技术也在不断发展创新。以下将介绍人机交互技术的几种常见形式以及当前的发展趋势。 一
    的头像 发表于 01-22 17:47 3298次阅读

    院士专家齐聚!京彩未来联合重点研究院创建数字空间联合实验室

    1月6日,京彩未来与北京大学数字中国研究院华南分院暨广东省数字广东研究院共同创建的“数字空间共同体联合室验室”正式挂牌运营。著名经济学家管清友博士、北京大学数字中国
    的头像 发表于 01-08 18:15 320次阅读
    院士专家齐聚!京彩<b class='flag-5'>未来</b><b class='flag-5'>联合</b>重点<b class='flag-5'>研究院</b>创建数字空间<b class='flag-5'>联合</b>实验室

    基于人机交互界面的石墨烯传感器研究进展

    石墨烯传感器由于具有包括柔性、重量轻、易于集成和出色的电学性能等优点,在元宇宙研究中展现出优势。在过去10年里,清华大学任天令教授团队专注于开发面向人机交互和医疗健康的先进石墨烯传感器,积累了丰富的经验,做出了优秀的成果。
    发表于 11-30 17:47 507次阅读
    基于<b class='flag-5'>人机交互</b>界面的石墨烯传感器<b class='flag-5'>研究</b>进展

    新华社研究院:商汤“商量”获评中国大模型市场未来领袖

    SenseChat ” 在定量实测的情商维度上,位居全部10款大模型第一 , 并在定性评估中入选大模型市场未来领袖象限 。此外,商汤赋能电力AI平台智能化升级的实践,也入围新华社研究院
    的头像 发表于 11-29 18:30 469次阅读
    新华社<b class='flag-5'>研究院</b>:商汤“商量”获评中国大<b class='flag-5'>模型</b>市场<b class='flag-5'>未来</b>领袖

    把ChatGPT塞进副驾驶!清华、中科、MIT联合提出Co-Pilot人机交互框架

    作为本年度人工智能领域最重要的突破之一,大语言模型相关研究始终是各大相关领域的关注焦点。 近日,来自清华大学、中国科学院、MIT的科研人员对于大语言模型
    的头像 发表于 11-20 09:10 592次阅读
    把ChatGPT塞进副驾驶!<b class='flag-5'>清华</b>、中科<b class='flag-5'>院</b>、MIT<b class='flag-5'>联合</b>提出Co-Pilot<b class='flag-5'>人机交互</b>框架

    情感语音识别在人机交互中的应用与挑战

    一、引言 情感语音识别是近年来人工智能领域的研究热点之一,它能够通过分析人类语音中的情感信息实现更加智能化和个性化的人机交互。本文将探讨情感语音识别在人机交互中的应用、面临的挑战以及未来
    的头像 发表于 11-15 15:42 516次阅读

    情感语音识别技术在人机交互中的应用与挑战

     一、引言 随着人工智能技术的不断发展,人机交互已经成为了研究的热点之一。情感语音识别技术作为人机交互中的重要组成部分,能够通过识别人的语音情感,实现更加智能化和个性化的交互体验。本文
    的头像 发表于 11-09 15:27 771次阅读