关于有屏设备的语音交互体验实验研究-电子发烧友网

第二届百度AI 开发者大会在北京举行，百度AI交互设计院在首次举办的AI设计分论坛上，分享了《AI时代的人因工程》主题演讲，他们认为：在AI时代，全新的设计将会重构我们身边的工具、生产力、生活甚至心理学。AI时代的人因工程，是关于人的能力、行为、限制的特点，也关于人的社会、文化、心理，是真正以人类为中心的系统工程。他们还将脑电、肌电和眼动等生理测量方法引入了人因工程研究中，将研究方法进行创新迭代，不断助力百度的AI产品进行“重构”。百度开发者大会刚刚结束，百度AI交互设计院又随即推出了最新的研究报告《多维对话——走向视听融合的语音交互新体验研究》，进一步用扎实的研究彰显了他们在AI交互设计领域的专业实力。

过去四十年，人与机器的交互方式在不断进化，几乎每十年就会有一次重大革新。来到人工智能时代，生活中越来越多的设备开始支持语音交互，语音交互逐渐成为人们传达意图和与设备交流的优先选择（Voice First）。与传统交互相比，语音交互解放了双手和双眼，人们可以低成本与设备互动；而且，语音是多维的，除了言语本身的信息，言语中还蕴含着丰富情感，允许人们与设备进行更充分的互动。

语音交互也有局限性。语音交互是非可视化的，容易增加人们的记忆负担，设想语音查询信息的场景，你可能需要集中精力听，如果不留神就容易错过一些内容。鉴于此，正如人工智能专家吴恩达提到的，人与机器交流最高效的方式是语言，而机器与人最高效的交流方式是语言加上视觉，即需要在听觉基础上融入视觉信息弥补语音交互的不足。从语音向视觉延伸，在语音交互中融入可视化信息，已经是业界探索下一代语音交互范式的重要趋势。以智能音箱为例，除了无屏音箱以外，市场上开始出现带屏幕的音箱。

百度人工智能交互设计院本期以有屏智能设备为研究对象，聚焦语音交互反馈和内容输出环节的体验。考虑到屏幕尺寸差异可能对反馈和内容输出体验的影响，研究选择了两种不同屏幕尺寸的设备，分别是智能音箱（7英寸）和智能电视（55英寸）。本期的主要研究问题包括：

1）有屏设备的指令上屏反馈体验，主要指用户输入语音指令后，文本指令上屏的延迟时间以及文本指令在屏幕上呈现的合理时间；

2）有屏设备内容输出的音量干扰体验，主要指用户在特定场景下（如听音乐/看视频），插入其它任务后（如查询百科），不同内容输出时的音量合理设置。

关于有屏设备的语音交互体验实验研究

有屏设备的指令上屏体验研究

与无屏设备相比，显示屏的融入使语音交互过程有更丰富的反馈形式。以语音识别阶段为例，在无屏设备上，用户通常无法直接知道输入指令的识别结果。而有屏设备直接在屏幕上显示指令的识别结果，用户可以方便的查看识别结果的正确或错误情况，例如上屏后的指令"我要听周杰伦的青花瓷"。然而，目前很多设备在指令上屏时存在一定程度的延迟现象，本实验对指令上屏合理的延迟时间和呈现时间进行研究。

1、指令上屏延迟时间实验

由于市场上的有屏设备多数采用实时上屏方式，即用户输入语音指令的同时就开始在屏幕上呈现识别结果，因此，本实验只研究实时上屏。在实验中我们使用实时逐字上屏的方式，并以控制首字上屏延迟时间为主要变量（注：首字上屏延迟时间指从用户开始说到第一个字上屏的时间间隔），我们设置了不同的首字延迟时间，以此获取用户对指令上屏速度的满意度评价（5点量表：1-非常不满意，2-比较不满意，3-一般，4-比较满意，5-非常满意）。在实验中，我们分别提供了3种不同长度的指令。

实验结果表明，首字延迟时间越短，用户的满意度越高，不同屏幕尺寸设备的首字延迟时间满意度略有差异，我们将"4-比较满意"看做用户满意的得分下限，将"3-一般"看做用户可接受的得分下限，不同设备间用户满意和可接受的上屏时间如下：

1）对于有屏音箱，用户满意的首字延迟时间下限在500ms左右，可接受的首字延迟时间下限在1500-1600ms左右；

2）对于智能电视，用户满意的首字延迟时间下限在600-700ms左右，可接受的首字延迟时间下限在1100-1200ms左右；

结合对市场上其它设备的研究发现，部分设备的首字上屏时间明显比用户满意的时间下限长，少数甚至比可接受的下限还要长。关于指令上屏速度，产品仍有改善和优化的空间，即语音识别ASR（Automatic Speech Recognition）技术除了在不断提升识别准确率以外，同时也需要关注识别速度指标的提升。

2、指令上屏呈现时间实验

除了指令上屏时间，我们进一步对指令上屏后合理的呈现时间进行研究，以避免指令呈现时间太短导致用户无法看清，或者呈现时间太长导致整个交互过程拖沓冗余。在实验中，我们以文字呈现时间为主要变量（注：文字呈现时间指文本指令最后一个字上屏后到全部指令消失的时间间隔），获取用户对不同呈现时间的满意度评价。由于语音识别涉及语言模型技术，实际的指令上屏并不是逐字的方式，因此，本部分实验我们也模拟了逐块上屏的方式，以指令"我想看刘德华2010年以前主演的香港电影"为例，"刘德华"被整体识别后才上屏。在实验中，我们也分别提供了3种不同长度的指令。

实验结果表明，存在最优的文字上屏呈现时间，不同屏幕尺寸设备之间，最优的文字上屏呈现时间无显著差异。不同上屏方式间存在差异，逐字上屏和逐块上屏的最优呈现时间分别如下：

1）逐字上屏方式下，最优的指令呈现时间为200-500ms的区间；

2）逐块上屏方式下，最优的指令呈现时间为400-700ms的区间。

关于有屏设备的语音交互体验实验研究

由于逐块上屏方式更接近真实产品的上屏方式，因此建议主要参考400-700ms的呈现时间。需要说明的是，由于实时上屏的方式允许用户在输入语音指令过程中就可以查看已经上屏的文字，这与整体识别后上屏的方式明显不同，因此，如果产品采用的是整体识别后上屏的方式，不建议参考本部分实验的结论。

有屏设备的音量干扰体验研究

有屏设备除了使语音交互有更丰富的反馈以外，屏幕的引入也扩展了设备过去不具备的功能，例如视频内容消费和视频通讯能力等。同时设备的使用也在经历从过去单一任务到多个任务的变化，当看视频时，你可以随时插入任务查找信息，例如看电视剧《扶摇》时查询演员杨幂的信息。本部分实验主要研究用户插入任务后，前景内容和背景内容间的音量干扰体验，如当前景内容正在语音播报信息时，背景视频或音乐的合理音量范围，以避免过高的背景音对用户获取信息产生干扰。

1、音量干扰实验

在实验中，用户被要求分别在看视频和听音乐两种场景下进行信息查询。我们设置了两种初始音量（注：初始音量是用户看视频/听音乐的音量）：60和65分贝，用户查询人物或百科信息后，通过设置不同的背景音量（注：此时前景内容为语音播报信息，背景内容为视频或音乐），获取用户对背景音量的满意度评价。同时结合实验后问卷了解用户对前景和背景信息展示的态度。由于不同设备间音量刻度范围存在差异，实验中对有屏音箱和智能电视的背景音量进行了分别设置。

实验结果发现，无论背景是视频还是音乐，用户都不喜欢背景完全静音（注：下图中"0"代表背景完全静音）。针对有屏音箱和智能电视，当初始音量约为60分贝时，背景音量舒适范围略有差异，具体结果如下：

1）针对有屏音箱，背景视频音量下降至36-53分贝范围，背景音乐音量下降至39-56分贝范围时，用户主观感觉较舒适；

关于有屏设备的语音交互体验实验研究

2）针对智能电视，背景视频音量下降至39-53分贝范围，背景音乐音量下降至36-53分贝范围时，用户主观感觉较舒适。

关于有屏设备的语音交互体验实验研究

实验中我们同时研究了初始音量为65分贝时背景音量的舒适范围，因实验结果与上述趋势基本一致，篇幅所限，暂不一一展开。

此外，结合实验后的问卷调研结果发现，关于背景的播放状态，背景为音乐时用户更倾向继续播放，而背景为视频时有屏音箱端倾向视频暂停的用户更多。主要是由于有屏音箱端背景视频被完全覆盖，因此，用户认为背景视频暂停较好，以避免错过感兴趣的视频内容。

关于有屏设备的语音交互体验实验研究

关于前景内容的播放状态，无论屏幕尺寸差异和背景媒体类型，多数用户希望能够对前景信息进行语音播报，而不仅仅是在屏幕上以文字或图文的形式展示。

关于有屏设备的语音交互体验实验研究

本文针对有屏设备的语音交互体验进行研究，重点探索整合视觉系统后交互反馈和内容输出环节的体验问题。对指令上屏的延迟时间和指令呈现时间给出了我们的研究结果和设计建议，以及不同内容输出时前景和背景的合理音量设置等。

从语音向视觉的延伸，语音交互的边界和外延仍将不断变化。语音交互与传统的交互方式并不是互斥的、非此即彼的关系，未来的人机交互将融入听觉、视觉、触觉、味觉、嗅觉等多模态的交互方式。未来的交互范式必然不是这些交互方式的简单堆砌和罗列，而是在考虑特定场景、人的因素、环境条件等因素后有序的、合理的组合和设计。百度人工智能交互设计院也将会持续的关注多模态交互领域的研究和设计，并不断输出我们的研究成果和观点。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
31079

浏览量
269413
智能电视

智能电视

+关注

关注
9

文章
1388

浏览量
95688
语音交互

语音交互

+关注

关注
3

文章
286

浏览量
28036
智能音箱

智能音箱

+关注

关注
31

文章
1783

浏览量
78654

原文标题：走向视听融合的语音交互新体验研究

文章出处：【微信号：WW_CGQJS，微信公众号：传感器技术】欢迎添加关注！文章转载请注明出处。

RK3568国产处理器实验平台：语音识别控制实验

）GUI的设计实现：LCD显示界面以及与用户的交互；（3）编辑控制代码；（4）编译程序；（5）运行程序。CI122模组根据原理图，可知本实验中使用的语音控制模块是

发表于 01-02 19:04 •94次阅读

RK3568国产处理器<b class='flag-5'>实验</b>平台：<b class='flag-5'>语音</b>识别控制<b class='flag-5'>实验</b>

【「嵌入式系统设计与实现」阅读体验】+ 基于语音识别的智能杯垫

语音命令Q 识别，适用于智能家居控制、玩具、人机交互等多个领域。该模块以其高识别率、低功耗和易于集成的特点受到广大开发者的青睐。主要技术及功能有：磁力搅拌、重量采集、语音识别、IPS显示

发表于 01-02 18:15

解锁个性化语音交互新时代：九芯智能语音云平台，让创意声音触手可及！

九芯智能语音云平台提供全面高效安全的智能语音服务，支持自定义语音内容，简化烧录流程，依托AI技术，助力各行业智能化升级，引领语音交互革命。

发表于 01-02 16:51 •103次阅读

解锁个性化<b class='flag-5'>语音</b><b class='flag-5'>交互</b>新时代：九芯智能<b class='flag-5'>语音</b>云平台，让创意声音触手可及！

基于语音识别的智能会议系统具备哪些交互功能

标贝科技专注智能语音交互领域多年，在语音识别和语音合成领域有着多项大型企业合作案例，标贝与多个智能会议系统厂商合作，成功将语音识别技术在智能

发表于 12-20 10:35 •142次阅读

语音芯片赋能可穿戴设备：开启个性化音频新体验

语音芯片与可穿戴设备合作，带来定制化音效、智能降噪、个性化推荐、语音交互及跨设备共享等，引领个性化音频时代，提升用户听觉体验。

发表于 12-14 15:44 •449次阅读

基于智能语音交互的智能呼叫中心工作机制

作为实现智能呼叫中心的关键技术之一的智能语音交互技术，它通过集成自然语言处理（NLP）、语音识别（ASR）和语音合成（TTS）等先进技术，实现了与客户的智能

发表于 12-03 16:44 •317次阅读

基于智能<b class='flag-5'>语音</b><b class='flag-5'>交互</b>的智能呼叫中心工作机制

智能语音的驱动力：揭秘8脚语音芯片在智能设备中的非凡角色

语音技术渗透生活，8脚语音芯片以微缩体积、低功耗、卓越性能成智能设备语音功能核心，集成识别、合成、压缩解码等功能，实现精准语音

发表于 12-02 14:23 •175次阅读

人工智能教学实验箱_国产处理器：5-29 语音识别控制实验

的设计实现：LCD显示界面以及与用户的交互；（3）编辑控制代码；（4）编译程序；（5）运行程序。根据原理图，可知本实验中使用的语音控制模块是基于启英泰伦CI122模组的， CI112X

发表于 10-15 17:09

语音集成电路有哪些特点

各种应用中都非常有用，包括智能手机、智能音箱、汽车导航系统、医疗设备和安全系统等。以下是关于语音集成电路特点的分析：集成度高：语音集成电路将多个功能集成在一个芯片上，这样可以减少

发表于 09-30 15:43 •301次阅读

聆思CSK6视觉语音大模型AI开发板入门资源合集（硬件资料、大模型语音/多模态交互/英语评测SDK合集）

与硬件外设的开发板，采用具备丰富组件生态的 Zephyr RTOS作为操作系统，官方提供了十几种开源SDK，包含大模型语音交互、大模型拍照识图、文生图、人脸识别、头肩追踪、手势识别、坐姿提醒等。聆思科

发表于 06-18 17:33

智能语音交互技术如何助力设备实现人机自然对话

随着现代人工智能在各行业的普及，智能语音交互技术也越来越多的在日常工作、生活中应用，智能语音交互的出现不仅仅大量节省了人工的工作时间提高了工作效率，为人们工作生活带来便利的同时，也改变

发表于 05-23 15:16 •733次阅读

智能<b class='flag-5'>语音</b><b class='flag-5'>交互</b>技术如何助力<b class='flag-5'>设备</b>实现人机自然对话

智能语音交互技术如何助力设备实现人机自然对话

智能语音交互技术是指通过语音识别、语音合成和自然语言理解等技术，实现人与机器之间自然语言的交流和互动。随着现代人工智能在各行业的普及，智能语音

发表于 05-23 15:14 •389次阅读

WTK6900G语音识别芯片在车载语音交互氛围灯上的应用案例解析

随着智能汽车的快速发展，车载语音交互技术逐渐成为提升驾驶体验的关键技术之一。传统的车载灯光控制系统往往依赖于手动操作，不仅操作繁琐，而且在驾驶过程中容易分散驾驶员的注意力。因此，开发一种高效、便捷

发表于 05-17 13:57 •428次阅读

人机交互技术有哪几种人机交互技术的发展趋势

的几种形式：图形用户界面（GUI）：图形用户界面是目前最为常见的人机交互技术形式。它通过图形化的方式展示信息，用户可通过鼠标、键盘等设备进行操作。GUI简单直观，易于学习使用，适用于大众用户。语音

发表于 01-22 17:47 •3791次阅读

让设备更聪明 |离线自然说，开启智能语音交互新体验！

，导致用户只能使用固定的词条来控制设备，大大降低了用户与设备之间的语音交互体验。用户A通过传统离线语音交

发表于 01-10 08:15 •1057次阅读

搜索历史

关于有屏设备的语音交互体验实验研究

评论

RK3568国产处理器实验平台：语音识别控制实验

【「嵌入式系统设计与实现」阅读体验】+ 基于语音识别的智能杯垫

解锁个性化语音交互新时代：九芯智能语音云平台，让创意声音触手可及！

基于语音识别的智能会议系统具备哪些交互功能

语音芯片赋能可穿戴设备：开启个性化音频新体验

基于智能语音交互的智能呼叫中心工作机制

智能语音的驱动力：揭秘8脚语音芯片在智能设备中的非凡角色

人工智能教学实验箱_国产处理器：5-29 语音识别控制实验

语音集成电路有哪些特点

聆思CSK6视觉语音大模型AI开发板入门资源合集（硬件资料、大模型语音/多模态交互/英语评测SDK合集）

智能语音交互技术如何助力设备实现人机自然对话

智能语音交互技术如何助力设备实现人机自然对话

WTK6900G语音识别芯片在车载语音交互氛围灯上的应用案例解析

人机交互技术有哪几种人机交互技术的发展趋势

让设备更聪明 |离线自然说，开启智能语音交互新体验！