浅谈声音人机交互技术-电子发烧友网

如果你同时保留着看电视和听广播这两个习惯——或者，看视频网站的同时会去找些播客节目听听，那么你一定会注意到一个显著的区别：视频节目的丰富程度和制作上的复杂度远高于音频节目。例如，《新闻联播》的片头20多年换了四五次，体现了电视技术的最新进步，但片头音乐一直不变，人们也能接受。电视节目的摄影棚几年就得来一次大翻新，但现在的广播电台依然可以使用十几年前的音频制作系统来播出节目，直播间里的时光仿佛停滞一般。

人类在同一时刻用眼睛可以接收的信息量远高于用耳朵能接收到的，视觉可以判别空间位置、形状和颜色叠加起来的丰富信息，比听觉高了不止一个维度。在看到人说话的时候，我们接收到的不只是话语内容，还包括人的面部特征和表情的细微变动，这都对氛围和情绪有着潜移默化的影响。相应的，听觉接收到的话语内容可以用手语或者字幕替代，但视觉附加的更多信息却难以转化回音频。

历史上，图书和报纸已经给了人们在视觉信息接收方面的训练，人们将排版经验延伸到电影和电视上。尽管留声机和电影技术几乎处于同一时代，但人们却宁愿忍受很多年没有同期声的无声电影时代，宁愿用随便什么音乐放一下做背景了事。可见，人们习惯上对图像比对声音重视得多。

同样，信息时代的到来也毫不例外的优先偏爱图像。90年代电脑同时具备独立的显卡和声卡，技术进步之后，人们对声卡抱着无所谓的态度，却追求独立显卡和屏幕的画质，以至于追求手机摄像头的精度。在交互方面，大家非常注重GUI(图形用户界面)，而对于声音的设计处理一般比较马虎，还停留在很多年前的水平。

随着智能手机带来的趋势，一块巨大的触屏成为人们交互的全部载体，跑在上面的应用也随着一股奇怪的扁平化风潮而变得越来越样式单一，设计师为了与众不同又好用的界面而绞尽脑汁。对于音频而言，它终于迎来了走出冷宫的机会。人机交互的下一波趋势，将很可能在声音——而不是图像——方面迎来突破。

声音不重要，还是人们没发现它的重要？

“在汽车出现之前，人们都以为自己想要一台更快的马车。”这句话大家也许都很熟悉。在iOS 7和微软Metro界面出现之后，一夜之间各种UI设计都趋向于扁平，而流行多年的拟物化设计很快就退潮了。这表明，人们的审美态度是可以因为外界的强力驱动而受到很大的改变的，并不是一成不变。所以对音频交互也是如此：并不是说声音相对于图像而言不重要，而是需求没有得到很好的引导。

声音有什么好处？它是否有足够潜力成为不可替代的载体呢(为什么我们获得的是相反的信号，比如交通广播电台即将被打车软件的抢单声埋葬)？

首先，习惯声音交互可以让我们的感觉器官均衡利用，换句话说就是保护眼睛。长期使用手机，比如在地铁盯着屏幕或者睡觉之前刷屏，会出现很多健康问题，其实不仅限于眼睛，手持阅读介质的姿势不同，全身都可能受影响。

而且，作为必须全神贯注进行的活动，阅读(包括观看视频)需要完全沉浸进去，和外界隔离，引发的心理问题也不容忽视。不管是阅读长文还是碎片化消息，眼睛接受的信息量通常过大，人们接受了过量的信息，以至于形成信息过载而不自觉。

使用声音可以让人们强制减少信息摄入量，并更自如的利用碎片时间。对孩子而言，声音(不使用耳机)也是一种亲切自然的交互方式，有助于让孩子早期就接触电脑，而不用担心用眼，孤独等副作用。

此外，随着我们使用智能设备的“户外场景”增多，就像这个年头智能手表终于迎来了春天一样，为短信息和免提式交互量身定制的声音也会派上更大用场。户外场景其实主要就是开车或者是提着东西走路。在这种情况下，显然眼睛就只是拿来看路才更合适。

一个例子是，交通电台提交路况信息，从原来的短信平台改为用微信公众号发送语音，电台会直接播出上传的语音。这样，司机可以不停车，用蓝牙耳机播报路况，让整个交流过程更像是真正的无线电台一样。

最后，声音可以极大的帮助视障人士走入信息化。如果不是亲身接触，你根本无法想象视觉在如今的交互中占有如何举足轻重的地位。完全不用眼睛的网页浏览，必须忍受读屏软件以飞快到基本听不清的速度给你播报每一个文字和图片信息，而很多图片都没有妥当的文本标签，在没有充分无障碍化的页面，比如淘宝店铺，使用者就会完全陷入迷茫。

在帮助文本信息转语音，方便视障人士方面，腾讯可能是国内公司中尝试时间最长的公司，QQ2010正式支持读屏软件并延续至今，其他应用如QQ音乐也增加了支持。随着语音命令可用范围进一步扩大，电脑之门将会更广阔地对盲人朋友敞开。

让基于声音的人机交互变得更自然

拟人的声音交互现在来到一个艰难的瓶颈期。著名的“恐怖谷理论”认为，当机器人与人类相像超过一定程度的时候，哪怕与人类有一点点的差别，都会显得非常显眼刺目，让整个机器人显得非常僵硬恐怖，让人有面对行尸走肉的感觉。

在厂商跟风推进语音助手成为所有手机、手表的标准配置之后，它正逐步降低人们的心理障碍，培养使用习惯。如上所述，对待机器我们很自然的操作方式是“动手不动口”，对着机器说话会感觉很奇怪。但是调戏Siri或者小娜，已经一定程度上在帮我们克服这种障碍。

这就给语音助手进一步提升智能程度赢得了宝贵的时间。等到一个真正如人类一般智能的声音出现时，人们对于对着电脑倾诉，侃侃而谈，就不会太排斥，电影《Her》当中出现的恋上机器声音的情节，也会获得更多用户的共鸣。

如果一个虚拟的人类声音始终会让人心生抗拒，那最理想的办法是机器直接执行人类短促简单的语音命令。比如说你走到家门说开门，那么就只是把门打开，不会有什么多余的回应说“好的，我这就把门打开”。

另一种可行的办法是让机器用“显然不是普通人类”的声音与人交互，比如现在还有点“单字蹦”的Siri和谷歌娘，或者故意用萌化的声音说“主人回家了喵”，类似这样的方法其实就是在智能不到位的时候用装傻卖萌来补充。既然不像真人，也就没有必要感到不舒服了。

技术进步和概念创新可以互相驱动

当我们站在现在回顾iPhone出现之前的手机市场，我们会发现，现在的应用形态有很多是当年不可想象的。这当中很多更新都基于硬件交互方式的改进，比如多点触摸，GPS、NFC/RFID和各种感应器的协同作用。所以我们有同样的信心认为，只要用心去开发语音的交互功能，就会出现更多我们现在无法想象的新的交互方式。

有时候，当新的交互到来的时候，我们才会惊奇的发现为其铺垫的技术因素已经成熟；而只要出现一个合理的产品，它起到的标志性作用就会引导业界进行自主革新，提升性能和降低成本。

在声音交互方面，Siri就是一个很好的例子。它需要输入和输出技术——语音识别和文字转语音共同配合。而Siri出现的时候，这两种技术都已经到了接近能用的程度——就中文而言，语音播报不再那么“单字蹦”了，而多种第三方语音引擎的识别率更可以在安静环境下达到90%以上，并顺理成章成为众多山寨Siri的选择。它的结果就是厂商跟风推进语音助手成为所有手机、手表的标准配置。

不管是可穿戴设备，还是普通的电脑，是家庭游戏机或客厅的机顶盒，以至于智能家居和汽车，声音交互都是非常有用的。但是截至目前，人们对于它的探索还是非常被动。比如说，只有当智能手表在输入上出现障碍的时候才想到用语音输入，而并非主动的探索用语音作为屏幕显示的替代方案。所以，如果进一步整合现有技术，能够给我们带来一个具有示范作用的应用，就会显著加速业界对声音交互场景的研究。

编辑：jq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

RFID

RFID

+关注

关注
387

文章
6109

浏览量
237417
gps

gps

+关注

关注
22

文章
2886

浏览量
166053
nfc

nfc

+关注

关注
59

文章
1617

浏览量
180409

新的人机交互入口？大模型加持、AI眼镜赛道开启百镜大战

电子发烧友网报道（文/莫婷婷）随着智能眼镜的出现，加之AI技术的应用，AI智能眼镜被认为是下一代人机交互的入口。在今年，不少品牌厂商都推出了AI智能眼镜新品，包括李未可推出的Meta Lens

发表于 11-21 00:57 •2249次阅读

新的<b class='flag-5'>人机交互</b>入口？大模型加持、AI眼镜赛道开启百镜大战

具身智能对人机交互的影响

在人工智能的发展历程中，人机交互一直是研究的核心领域之一。随着技术的进步，人机交互的方式也在不断演变。从最初的命令行界面，到图形用户界面，再到现在的自然语言处理和语音识别，每一次技术的

发表于 10-27 09:58 •273次阅读

DJN人机交互解决方案

技术是智能化中不可或缺的重要组成元素，是人机交互的重要媒介，能有效将智能化终端的运行状态通过显示屏直观的反馈给人，同时通过触控显示屏将人类的操作直接精确的传达给智能化终端。帝晶HMI智慧屏解决方案，旨在提供专业的触控

发表于 10-12 09:29 •1086次阅读

聚徽-工控一体机是如何实现人机交互的

工控一体机实现人机交互的方式是多种多样的，结合搜索结果，我们可以归纳出以下几种主要的实现方式：

发表于 09-10 09:31 •291次阅读

基于传感器的人机交互技术

基于传感器的人机交互技术是现代科技发展的重要领域之一，它极大地推动了人机交互的便捷性、自然性和智能性。本文将详细探讨基于传感器的人机交互技术

发表于 07-17 16:52 •674次阅读

人机界面交互方式的介绍

人机界面（Human-Computer Interaction, HCI）是研究人与计算机之间交互方式的学科。随着计算机技术的发展，人机交互方式也在不断地演变和创新。以下是对各种

发表于 07-01 14:22 •684次阅读

人机交互界面是什么_人机交互界面的功能

人机交互界面（Human-Computer Interaction Interface，简称HCI或HMI），也被称为人机界面（MMI）、操作员界面终端（OIT）、本地操作员界面（LOI）或操作员

发表于 06-22 11:03 •2213次阅读

工业平板电脑在人机交互中的应用

工业平板电脑在人机交互（Human-Machine Interaction，HMI）中扮演着至关重要的角色，它们通过直观的界面和强大的计算能力，极大地提升了工业环境下的操作效率和用户体验。以下是工业平板电脑在人机交互中的具体应用：

发表于 06-18 12:00 •265次阅读

人机交互与人机界面的区别与联系

随着信息技术的飞速发展，人机交互（Human-Computer Interaction，HCI）已成为现代社会不可或缺的一部分。人机交互技术，作为实现人与计算机之间有效通信的桥梁，不仅

发表于 06-07 15:29 •841次阅读

高精度多通道低功耗|芯海科技“压容二合一SoC”打造极致人机交互体验

采用创新的“压力+容式”触控按键技术。在科技日新月异的今天，传统物理按键正在逐渐被电阻、电容等触控技术所替代。该项技术打破了传统物理按键的外观设计，为用户带来了更加美观、便捷和极具科技感的人

发表于 05-11 18:22 •348次阅读

芯海科技“压容二合一SoC”系列芯片打造极致人机交互体验

5月7日晚，苹果春季新品发布特别活动推出全新升级的Apple Pencil Pro，持续深度布局压力触控人机交互领域。

发表于 05-11 10:00 •456次阅读

人机交互的三个阶段 人机交互的常用方式

机交互经历的三个阶段：命令行界面交互阶段、图形用户界面交互阶段、自然和谐的人机交互阶段。

发表于 03-13 17:25 •2825次阅读

人机交互系统的发展史及过程步骤

人机交互系统还包括用户界面（UI），它是用户与系统之间进行信息交流和控制活动的载体。用户界面可以是软件系统界面，通过显示器呈现系统信息，并接收来自用户的视觉、听觉等感官的输入。

发表于 03-11 17:15 •2194次阅读

人机交互技术有哪几种 人机交互技术的发展趋势

人机交互技术是指人与计算机之间通过各种交互方式进行信息传递、操作和控制的技术。随着科技的进步，人机交互技

发表于 01-22 17:47 •3431次阅读

荣耀发布MagicOS 8.0，首次实现意图识别人机交互

在科技圈掀起一股热潮的荣耀正式发布了其自主研发的全新操作系统——MagicOS 8.0，并赋予其一个富有魔法的中文名字：魔法OS 8.0。这款新操作系统凭借其独创的平台级AI使能的意图识别人机交互，重新定义了智能终端的交互方式。

发表于 01-12 14:50 •869次阅读

搜索历史

浅谈声音人机交互技术

评论

新的人机交互入口？大模型加持、AI眼镜赛道开启百镜大战

具身智能对人机交互的影响

DJN人机交互解决方案

聚徽-工控一体机是如何实现人机交互的

基于传感器的人机交互技术

人机界面交互方式的介绍

人机交互界面是什么_人机交互界面的功能

工业平板电脑在人机交互中的应用

人机交互与人机界面的区别与联系

高精度多通道低功耗|芯海科技“压容二合一SoC”打造极致人机交互体验

芯海科技“压容二合一SoC”系列芯片打造极致人机交互体验

人机交互的三个阶段人机交互的常用方式

人机交互系统的发展史及过程步骤

人机交互技术有哪几种人机交互技术的发展趋势

荣耀发布MagicOS 8.0，首次实现意图识别人机交互

搜索历史

浅谈 声音人机交互技术

评论

浅谈声音人机交互技术