0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

有关设计对语音用户界面的一些挑战和最佳做法

星星科技指导员 来源:嵌入式计算设计 作者:Jeff LeBlanc 2022-12-02 11:47 次阅读

语音交互是21世纪最具颠覆性的技术之一。每天都有越来越多的设备通过语音用户界面(VUI)组件进入市场。虽然语音支持设备的许多技术挑战已经得到解决,但让最终用户满意地使用设备的体验仍然是一个悬而未决的问题。本文介绍了有关设计对用户有效、自然且引人入胜的 VUI 的一些挑战和最佳做法,包括设计置信度阈值、适应插入、使用 n 最佳列表,以及如何在实际对话中与用户交谈(而不是在用户处)。

虽然语音用户界面(VUI)自1968年以来一直处于公众心态的边缘,当时HAL和Dave Bowman存在分歧,但直到Tony Stark在2008年开始与J.A.R.V.I.S.开玩笑,有用的语音控制“智能家居”的概念才开始成为焦点。

这款大获成功的Amazon Echo设备于2014年发布,将最新语音识别技术与强大的基于云的计算相结合,提供几乎可与电影中描绘的相媲美的家庭体验。打开灯或音响系统从未如此简单。

从那以后,谷歌、苹果和其他科技公司加入了这场争斗,并相互绊倒,为您的家庭、工作场所和汽车提供最佳的交互式语音体验。

这项技术已经有很长一段时间了。贝尔实验室和IBM早在1950年代就致力于语音系统。但是,直到 1990 年代后期,Dragon‘s NaturalSpeak 软件才获得了足够的吸引力,将语音识别带入了消费者的集体意识。虽然在当时是革命性的,但NaturalPeaks需要最终用户进行相当多的“培训”才能达到90%的准确率,这使得语音识别作为一种人机交互形式可行。因此,这项技术并不像它可能的那样自然。

多年来,开发人员、设计师和技术人员一直在努力工作,试图“解决语音问题”。然而,我们在识别准确率方面只增加了5%。

那么,为什么设计更准确、更像人类的语音界面如此困难呢?

在设计VUI时,必须解决两个关键方面。首先是确保界面能够将声音识别为人类语音。这被称为自动语音识别 (ASR),是语音转文本软件引擎的核心。ASR 可以在现代消费类硬件上以合理的处理速度执行。但是,ASR 通常在云中完成。像Amazon Echo这样的设备只做足够的本地处理来找到它们的“唤醒词”,而其余的工作则由远程计算资源完成。所以,是的,Alexa正在听你说的一切。但她只在乎你说她的名字。

语音体验的第二个也是更困难的方面是确保设备在识别语音后知道如何处理语音。自然语言理解(NLU)结合了包括语言学,认知科学和人工智能在内的各种学科,多年来一直挑战着计算机科学家。尽管一些专家认为ASR是开发VUI的“困难部分”,但我不同意。多年来,我们一直保持稳定在95%左右的准确率 - 可与人与人之间的交流相媲美。是的,即使是人与人之间的交流也不是100%准确的。想想你在和另一个人说话时说多少次“嗯?”或“什么?”。然而,这些对话很容易理解。

作为UX设计师,我们面临的挑战是弄清楚如何创建卓越的交互式语音体验,尽可能接近模仿人与人之间的体验。

这称为自然用户界面或 NUI。让简单的命令正常工作很简单 - 主要是从话语中提取正确的关键字。例如,让您的智能家居正确响应“打开餐厅灯”并不太复杂。它只涉及创建一个界面,该界面可以识别所需的操作(“打开”)以及执行该操作的内容(“餐厅灯”)。

但仍然存在挑战。由于我们的语音识别准确度略低于 100%,因此设备可能无法理解你的确切话语。也许语音助手听到你说“打开餐厅的灯”。虽然人类可以轻松地从餐厅跳到餐厅,但在计算机的二进制世界中并非如此。“用餐”不等于“用餐”,因此您的语音助手无法理解您在问什么。你最终会感到沮丧,在黑暗中进食。

幸运的是,我们可以围绕这一点进行设计。解决方案在于超越简单的话语和命令,让我们的用户参与对话。

在我们的例子中,智能家居理解你的意图——你想打开餐厅的灯——但它没有得到足够的信息来执行任务。因此,我们对VUI进行编程,以执行人与人交互中的典型操作:要求澄清。我们的智能家居可以回应“对不起,我没有完全理解。你想打开什么?

这种互动建立在置信度的概念之上——你的智能家居有多确定它真的理解了你的要求?如果智能家居非常确定它理解你的请求 - 比如说超过75%的准确率 - 它可以执行它。如果只是有点确定,设备可以要求澄清。通过利用置信度和参与对话,您可以澄清您的请求,而无需从唤醒词重新启动整个命令交互。

N-最佳名单

下一个设计技术建立在这种对话方法的基础上,试图根据先前对话的预期响应来预测你可能会说什么。您的智能家居听到“用餐”而不是“用餐”并非不合理。甚至是其他听起来相似的词,如“潜水”。

通过将这些险些失误收集到称为N-best列表中的东西中,您的智能家居可以捕获可能的可能性。现在,您家的VUI可以要求您确认列表中的单词,或者继续执行该命令。让你的家回答说:“我想你让我打开餐厅的灯。是吗?“表明你的家足够聪明,(很可能)弄清楚你说了什么,但又足够礼貌地仔细检查,以防万一它不能100%完全理解这个要求。

流程图

流程图允许VUI设计人员绘制出在简单交互中发现的可能分支。继续关于餐厅灯光的对话,为了确保流畅、自然的对话,VUI 设计师必须考虑您可能的反应。您可以用简单的“是”来回答有关开灯的澄清请求。在这种情况下,智能家居应该打开灯。

但是,如果你听人与人对话的录音,它们通常不会那么干涸。如果你回答“是”而不是“是”怎么办?或者“没错”或“让它这样”或任何数量的肯定?如果你的回答是否定的怎么办?不。不。呃。你的智能房子知道该怎么做吗?

这种情况正是为什么检查列表而不是简单的关键字匹配至关重要的原因。这是实现最自然交互的最佳方式。

驳船

人与人交流的另一个值得一提的方面是中断。有时我们是不礼貌的——我们不会等谈话中的对方说完才开始说话。其他时候,打断是及时推进对话的唯一方法。在这两种情况下,中断的能力使对话更加自然。

下面是一个示例。您进入了挡泥板弯曲机并致电您的保险公司提出索赔。在公司的自动电话系统上收听一长串选项时,只要听到“按 3 到达理赔部门”,您就会打断。你急切地点击“3”键,不要费心去听列表的其余部分。

这种闯入和中断对话的能力是VUI设计人员需要结合的东西,以便创建类似人类的语音交互。(如果你的服务员正在阅读沙拉酱清单,而你说“停下,我想要那个,油醋汁”,而他继续列出沙拉酱,事情会变得有点尴尬。亚马逊Echo在支持闯入方面做得很好,让用户随时说“Alexa,取消”。

外卖

设计一个引人注目的、听起来像人类的语音助手当然是可能的。例如,谷歌的新Duplex电话机器人配备了大多数人常见的会话抽搐,包括贯穿整个对话的“ahs”和“ums”。有些人甚至对人工智能和人类语音之间的界限变得越来越模糊表示担忧。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语音识别
    +关注

    关注

    38

    文章

    1721

    浏览量

    112535
  • 语音交互
    +关注

    关注

    3

    文章

    283

    浏览量

    27979
收藏 人收藏

    评论

    相关推荐

    MCT8316A-设计挑战和解决方案应用说明

    电子发烧友网站提供《MCT8316A-设计挑战和解决方案应用说明.pdf》资料免费下载
    发表于 09-13 09:52 0次下载
    MCT8316A-设计<b class='flag-5'>挑战和</b>解决方案应用说明

    MCF8316A-设计挑战和解决方案应用说明

    电子发烧友网站提供《MCF8316A-设计挑战和解决方案应用说明.pdf》资料免费下载
    发表于 09-13 09:51 0次下载
    MCF8316A-设计<b class='flag-5'>挑战和</b>解决方案应用说明

    TMCS110x 布局挑战和最佳实践

    电子发烧友网站提供《TMCS110x 布局挑战和最佳实践.pdf》资料免费下载
    发表于 09-12 09:23 0次下载
    TMCS110x 布局<b class='flag-5'>挑战和</b><b class='flag-5'>最佳</b>实践

    人机交互界面是什么_人机交互界面的功能

    终端(OT),是指人与计算机系统之间的通信媒体或手段,是人与计算机之间进行各种符号和动作的双向信息交换的平台。   人机交互界面的主要作用是将人类的意图转化为计算机能够理解和处理的形式,同时将计
    的头像 发表于 06-22 11:03 2160次阅读

    IIoT可以通过多种方式实现智能工厂(还有一些挑战

    )集成以创建智能工厂,制造商可以实现这种“工业物联网”(IIoT)的全部好处,推动其行业向前发展。 IIoT可以通过多种方式实现智能工厂(还有一些挑战)。然而,在探索这些之前,值得回顾下智能工厂与传统工厂的区别特征。 智能
    的头像 发表于 04-29 11:15 564次阅读

    细谈SolidWorks教育版的一些基础知识

    SolidWorks教育版是款广泛应用于工程设计和教育领域的三维建模软件。它具备直观易用的操作界面和强大的设计功能,为学生提供了个学习和实践的平台。在本文中,我们将详细探讨SolidWorks教育版的
    的头像 发表于 04-01 14:35 313次阅读

    一些有关通信电路的资料?

    有关嵌入式之间DSP、ARM、FPGA三者之间和这三款芯片和外部电路之间通信的一些资料,比如说芯片之间的并行通信和芯片和外部电路之间的串行通信,MODBUS、DP、CAN等,一些一些
    发表于 03-03 18:53

    汽车网络安全-挑战和实践指南

    汽车网络安全-挑战和实践指南
    的头像 发表于 02-19 16:37 492次阅读
    汽车网络安全-<b class='flag-5'>挑战和</b>实践指南

    语音数据集在智能语音助手中的应用与挑战

    。本文将详细介绍语音数据集在智能语音助手中的应用、面临的挑战以及未来的发展趋势。 二、语音数据集在智能语音助手中的应用
    的头像 发表于 01-18 15:46 359次阅读

    语音数据集在智能语音搜索中的应用与挑战

    、引言 随着互联网的普及和移动设备的兴起,智能语音搜索已经成为人们获取信息的重要方式之。智能语音搜索通过语音交互的方式,为
    的头像 发表于 01-18 15:09 515次阅读

    有关通信协议时一些问题?

    工业上应用到许多种协议,按通信同时刻发送的数据位数分为串行通信和并行通信,首先我见并行通信多在芯片之间进行通信,而串行通信则在外部设备和芯片之间进行的一些通信,对于常见的串行通信,比如
    发表于 01-14 00:58

    如何在资源有限的 MCU 上实现语音用户界面

    系统,并且出于隐私问题,人们对持续的云连接越来越不舒服。 然而,强大且安全的语音用户界面 (VUI) 通常需要强大的硬件和复杂的软件来进行语音识别。任何不足都可能导致性能不佳和
    的头像 发表于 01-01 14:11 624次阅读
    如何在资源有限的 MCU 上实现<b class='flag-5'>语音</b><b class='flag-5'>用户</b><b class='flag-5'>界面</b>

    HDI 布线的挑战和技巧

    HDI 布线的挑战和技巧
    的头像 发表于 12-07 14:48 488次阅读

    情感语音识别的挑战与未来趋势

    、引言 情感语音识别是种通过分析和理解人类语音中的情感信息来实现智能交互的技术。尽管近年来取得了显著的进步,但情感语音识别仍然面临着诸多
    的头像 发表于 11-30 11:24 504次阅读

    情感语音识别的应用与挑战

    、引言 情感语音识别是种通过分析人类语音中的情感信息实现智能化和个性化人机交互的技术。本文将探讨情感语音识别的应用领域、优势以及所面临的
    的头像 发表于 11-30 10:40 617次阅读