0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

关于有屏设备的语音交互体验实验研究

传感器技术 来源:未知 作者:工程师郭婷 2018-07-28 12:15 次阅读

第二届百度AI开发者大会在北京举行,百度AI交互设计院在首次举办的AI设计分论坛上,分享了《AI时代的人因工程》主题演讲,他们认为:在AI时代,全新的设计将会重构我们身边的工具、生产力、生活甚至心理学。AI时代的人因工程,是关于人的能力、行为、限制的特点,也关于人的社会、文化、心理,是真正以人类为中心的系统工程。他们还将脑电、肌电和眼动等生理测量方法引入了人因工程研究中,将研究方法进行创新迭代,不断助力百度的AI产品进行“重构”。百度开发者大会刚刚结束,百度AI交互设计院又随即推出了最新的研究报告《多维对话——走向视听融合的语音交互新体验研究》,进一步用扎实的研究彰显了他们在AI交互设计领域的专业实力。

过去四十年,人与机器的交互方式在不断进化,几乎每十年就会有一次重大革新。来到人工智能时代,生活中越来越多的设备开始支持语音交互,语音交互逐渐成为人们传达意图和与设备交流的优先选择(Voice First)。与传统交互相比,语音交互解放了双手和双眼,人们可以低成本与设备互动;而且,语音是多维的,除了言语本身的信息,言语中还蕴含着丰富情感,允许人们与设备进行更充分的互动。

语音交互也有局限性。语音交互是非可视化的,容易增加人们的记忆负担,设想语音查询信息的场景,你可能需要集中精力听,如果不留神就容易错过一些内容。鉴于此,正如人工智能专家吴恩达提到的,人与机器交流最高效的方式是语言,而机器与人最高效的交流方式是语言加上视觉,即需要在听觉基础上融入视觉信息弥补语音交互的不足。从语音向视觉延伸,在语音交互中融入可视化信息,已经是业界探索下一代语音交互范式的重要趋势。以智能音箱为例,除了无屏音箱以外,市场上开始出现带屏幕的音箱。

百度人工智能交互设计院本期以有屏智能设备为研究对象,聚焦语音交互反馈和内容输出环节的体验。考虑到屏幕尺寸差异可能对反馈和内容输出体验的影响,研究选择了两种不同屏幕尺寸的设备,分别是智能音箱(7英寸)和智能电视(55英寸)。本期的主要研究问题包括:

1)有屏设备的指令上屏反馈体验,主要指用户输入语音指令后,文本指令上屏的延迟时间以及文本指令在屏幕上呈现的合理时间;

2)有屏设备内容输出的音量干扰体验,主要指用户在特定场景下(如听音乐/看视频),插入其它任务后(如查询百科),不同内容输出时的音量合理设置。

关于有屏设备的语音交互体验实验研究

有屏设备的指令上屏体验研究

与无屏设备相比,显示屏的融入使语音交互过程有更丰富的反馈形式。以语音识别阶段为例,在无屏设备上,用户通常无法直接知道输入指令的识别结果。而有屏设备直接在屏幕上显示指令的识别结果,用户可以方便的查看识别结果的正确或错误情况,例如上屏后的指令"我要听周杰伦的青花瓷"。然而,目前很多设备在指令上屏时存在一定程度的延迟现象,本实验对指令上屏合理的延迟时间和呈现时间进行研究。

1、指令上屏延迟时间实验

由于市场上的有屏设备多数采用实时上屏方式,即用户输入语音指令的同时就开始在屏幕上呈现识别结果,因此,本实验只研究实时上屏。在实验中我们使用实时逐字上屏的方式,并以控制首字上屏延迟时间为主要变量(注:首字上屏延迟时间指从用户开始说到第一个字上屏的时间间隔),我们设置了不同的首字延迟时间,以此获取用户对指令上屏速度的满意度评价(5点量表:1-非常不满意,2-比较不满意,3-一般,4-比较满意,5-非常满意)。在实验中,我们分别提供了3种不同长度的指令。

实验结果表明,首字延迟时间越短,用户的满意度越高,不同屏幕尺寸设备的首字延迟时间满意度略有差异,我们将"4-比较满意"看做用户满意的得分下限,将"3-一般"看做用户可接受的得分下限,不同设备间用户满意和可接受的上屏时间如下:

1)对于有屏音箱,用户满意的首字延迟时间下限在500ms左右,可接受的首字延迟时间下限在1500-1600ms左右;

2)对于智能电视,用户满意的首字延迟时间下限在600-700ms左右,可接受的首字延迟时间下限在1100-1200ms左右;

结合对市场上其它设备的研究发现,部分设备的首字上屏时间明显比用户满意的时间下限长,少数甚至比可接受的下限还要长。关于指令上屏速度,产品仍有改善和优化的空间,即语音识别ASR(Automatic Speech Recognition)技术除了在不断提升识别准确率以外,同时也需要关注识别速度指标的提升。

2、指令上屏呈现时间实验

除了指令上屏时间,我们进一步对指令上屏后合理的呈现时间进行研究,以避免指令呈现时间太短导致用户无法看清,或者呈现时间太长导致整个交互过程拖沓冗余。在实验中,我们以文字呈现时间为主要变量(注:文字呈现时间指文本指令最后一个字上屏后到全部指令消失的时间间隔),获取用户对不同呈现时间的满意度评价。由于语音识别涉及语言模型技术,实际的指令上屏并不是逐字的方式,因此,本部分实验我们也模拟了逐块上屏的方式,以指令"我想看刘德华2010年以前主演的香港电影"为例,"刘德华"被整体识别后才上屏。在实验中,我们也分别提供了3种不同长度的指令。

实验结果表明,存在最优的文字上屏呈现时间,不同屏幕尺寸设备之间,最优的文字上屏呈现时间无显著差异。不同上屏方式间存在差异,逐字上屏和逐块上屏的最优呈现时间分别如下:

1)逐字上屏方式下,最优的指令呈现时间为200-500ms的区间;

2)逐块上屏方式下,最优的指令呈现时间为400-700ms的区间。

关于有屏设备的语音交互体验实验研究

由于逐块上屏方式更接近真实产品的上屏方式,因此建议主要参考400-700ms的呈现时间。需要说明的是,由于实时上屏的方式允许用户在输入语音指令过程中就可以查看已经上屏的文字,这与整体识别后上屏的方式明显不同,因此,如果产品采用的是整体识别后上屏的方式,不建议参考本部分实验的结论。

有屏设备的音量干扰体验研究

有屏设备除了使语音交互有更丰富的反馈以外,屏幕的引入也扩展了设备过去不具备的功能,例如视频内容消费和视频通讯能力等。同时设备的使用也在经历从过去单一任务到多个任务的变化,当看视频时,你可以随时插入任务查找信息,例如看电视剧《扶摇》时查询演员杨幂的信息。本部分实验主要研究用户插入任务后,前景内容和背景内容间的音量干扰体验,如当前景内容正在语音播报信息时,背景视频或音乐的合理音量范围,以避免过高的背景音对用户获取信息产生干扰。

1、音量干扰实验

在实验中,用户被要求分别在看视频和听音乐两种场景下进行信息查询。我们设置了两种初始音量(注:初始音量是用户看视频/听音乐的音量):60和65分贝,用户查询人物或百科信息后,通过设置不同的背景音量(注:此时前景内容为语音播报信息,背景内容为视频或音乐),获取用户对背景音量的满意度评价。同时结合实验后问卷了解用户对前景和背景信息展示的态度。由于不同设备间音量刻度范围存在差异,实验中对有屏音箱和智能电视的背景音量进行了分别设置。

实验结果发现,无论背景是视频还是音乐,用户都不喜欢背景完全静音(注:下图中"0"代表背景完全静音)。针对有屏音箱和智能电视,当初始音量约为60分贝时,背景音量舒适范围略有差异,具体结果如下:

1)针对有屏音箱,背景视频音量下降至36-53分贝范围,背景音乐音量下降至39-56分贝范围时,用户主观感觉较舒适;

关于有屏设备的语音交互体验实验研究

2)针对智能电视,背景视频音量下降至39-53分贝范围,背景音乐音量下降至36-53分贝范围时,用户主观感觉较舒适。

关于有屏设备的语音交互体验实验研究

实验中我们同时研究了初始音量为65分贝时背景音量的舒适范围,因实验结果与上述趋势基本一致,篇幅所限,暂不一一展开。

此外,结合实验后的问卷调研结果发现,关于背景的播放状态,背景为音乐时用户更倾向继续播放,而背景为视频时有屏音箱端倾向视频暂停的用户更多。主要是由于有屏音箱端背景视频被完全覆盖,因此,用户认为背景视频暂停较好,以避免错过感兴趣的视频内容。

关于有屏设备的语音交互体验实验研究

关于有屏设备的语音交互体验实验研究

关于前景内容的播放状态,无论屏幕尺寸差异和背景媒体类型,多数用户希望能够对前景信息进行语音播报,而不仅仅是在屏幕上以文字或图文的形式展示。

关于有屏设备的语音交互体验实验研究

本文针对有屏设备的语音交互体验进行研究,重点探索整合视觉系统后交互反馈和内容输出环节的体验问题。对指令上屏的延迟时间和指令呈现时间给出了我们的研究结果和设计建议,以及不同内容输出时前景和背景的合理音量设置等。

从语音向视觉的延伸,语音交互的边界和外延仍将不断变化。语音交互与传统的交互方式并不是互斥的、非此即彼的关系,未来的人机交互将融入听觉、视觉、触觉、味觉、嗅觉等多模态的交互方式。未来的交互范式必然不是这些交互方式的简单堆砌和罗列,而是在考虑特定场景、人的因素、环境条件等因素后有序的、合理的组合和设计。百度人工智能交互设计院也将会持续的关注多模态交互领域的研究和设计,并不断输出我们的研究成果和观点。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30280

    浏览量

    268519
  • 智能电视
    +关注

    关注

    9

    文章

    1387

    浏览量

    95549
  • 语音交互
    +关注

    关注

    3

    文章

    283

    浏览量

    27988
  • 智能音箱
    +关注

    关注

    31

    文章

    1783

    浏览量

    78521

原文标题:走向视听融合的语音交互新体验研究

文章出处:【微信号:WW_CGQJS,微信公众号:传感器技术】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    串口在医疗设备领域的应用

    随着医疗技术的不断进步和发展,医疗设备的需求也在逐渐增加。其中,作为人机交互的重要组成部分,显示的质量直接影响到医疗设备的操作便捷性和用户体验。串口
    的头像 发表于 10-15 17:11 1159次阅读

    人工智能教学实验箱_国产处理器:5-29 语音识别控制实验

    的设计实现:LCD显示界面以及与用户的交互; (3)编辑控制代码; (4)编译程序; (5)运行程序。 根据原理图,可知本实验中使用的语音控制模块是基于启英泰伦CI122模组的, CI112X
    发表于 10-15 17:09

    请问移动设备上用的2.1声道的语音功放芯片吗?

    请问移动设备上用的2.1声道的语音功放芯片吗?前端是左右声道差分音频输入。电源电压 大概3~5V。
    发表于 10-15 07:54

    语音集成电路哪些特点

    各种应用中都非常有用,包括智能手机、智能音箱、汽车导航系统、医疗设备和安全系统等。 以下是关于语音集成电路特点的分析: 集成度高 :语音集成电路将多个功能集成在一个芯片上,这样可以减少
    的头像 发表于 09-30 15:43 262次阅读

    智能玩具用离线语音识别芯片什么优势

    随着科技的发展,很多智能电子产品和儿童玩具实现了与人类的交互语音芯片在这些人机交互中起到了不可替代的作用,语音识别芯片在智能玩具中的应用就为其带来了更多的优势。‌离线
    的头像 发表于 09-20 10:00 246次阅读
    智能玩具用离线<b class='flag-5'>语音</b>识别芯片<b class='flag-5'>有</b>什么优势

    聆思CSK6视觉语音大模型AI开发板入门资源合集(硬件资料、大模型语音/多模态交互/英语评测SDK合集)

    与硬件外设的开发板,采用具备丰富组件生态的 Zephyr RTOS作为操作系统,官方提供了十几种开源SDK,包含大模型语音交互、大模型拍照识图、文生图、人脸识别、头肩追踪、手势识别、坐姿提醒等。聆思科
    发表于 06-18 17:33

    智能语音交互技术如何助力设备实现人机自然对话

    随着现代人工智能在各行业的普及,智能语音交互技术也越来越多的在日常工作、生活中应用,智能语音交互的出现不仅仅大量节省了人工的工作时间提高了工作效率,为人们工作生活带来便利的同时,也改变
    的头像 发表于 05-23 15:16 688次阅读
    智能<b class='flag-5'>语音</b><b class='flag-5'>交互</b>技术如何助力<b class='flag-5'>设备</b>实现人机自然对话

    智能语音交互技术如何助力设备实现人机自然对话

    智能语音交互技术是指通过语音识别、语音合成和自然语言理解等技术,实现人与机器之间自然语言的交流和互动。随着现代人工智能在各行业的普及,智能语音
    的头像 发表于 05-23 15:14 360次阅读

    WTK6900G语音识别芯片在车载语音交互氛围灯上的应用案例解析

    随着智能汽车的快速发展,车载语音交互技术逐渐成为提升驾驶体验的关键技术之一。传统的车载灯光控制系统往往依赖于手动操作,不仅操作繁琐,而且在驾驶过程中容易分散驾驶员的注意力。因此,开发一种高效、便捷
    的头像 发表于 05-17 13:57 380次阅读

    人机交互技术哪几种 人机交互技术的发展趋势

    的几种形式: 图形用户界面(GUI):图形用户界面是目前最为常见的人机交互技术形式。它通过图形化的方式展示信息,用户可通过鼠标、键盘等设备进行操作。GUI简单直观,易于学习使用,适用于大众用户。 语音
    的头像 发表于 01-22 17:47 3448次阅读

    设备更聪明 |离线自然说,开启智能语音交互新体验!

    ,导致用户只能使用固定的词条来控制设备,大大降低了用户与设备之间的语音交互体验。用户A通过传统离线语音
    的头像 发表于 01-10 08:15 952次阅读
    让<b class='flag-5'>设备</b>更聪明 |离线自然说,开启智能<b class='flag-5'>语音</b><b class='flag-5'>交互</b>新体验!

    设备更聪明 |启英泰伦离线自然说,开启智能语音交互新体验!

    启英泰伦新推出「离线自然说」——一种轻量级的离线NLP技术。通过该技术,语音芯片可支持数万条离线词条,泛化能力强,几乎可涵盖用户日常所有说话习惯,可以为用户提供更自然、更丰富、更灵活的离线语音交互新体验。
    的头像 发表于 01-04 11:24 743次阅读
    让<b class='flag-5'>设备</b>更聪明 |启英泰伦离线自然说,开启智能<b class='flag-5'>语音</b><b class='flag-5'>交互</b>新体验!

    思必驰语音算法与芯片的完美结合 人机交互

    工智能人机语音交互解决方案,具有高性能、低功耗等特点。该芯片通过采用软硬融合的方法,使得TH1520具备快速赋予各类设备语音交互的能力,极大
    的头像 发表于 12-29 11:43 943次阅读
    思必驰<b class='flag-5'>语音</b>算法与芯片的完美结合 人机<b class='flag-5'>交互</b>

    离线语音识别技术:掌控未来的语音交互

    离线语音识别技术的核心优势在于其独立性和实时性。在没有网络连接的情况下,设备依然能够迅速识别用户的语音指令,实现各种功能。这使得语音交互更加
    的头像 发表于 12-13 11:12 558次阅读
    离线<b class='flag-5'>语音</b>识别技术:掌控未来的<b class='flag-5'>语音</b><b class='flag-5'>交互</b>

    安卓与迪文的无线交互应用

    ——来自迪文开发者论坛本期为大家推送迪文开发者论坛获奖开源案例——安卓与迪文的无线交互应用。工程师采用T5L智能,通过串口2与蓝牙模块通讯,实现与安卓手机APP进行数据交互。该方案
    的头像 发表于 12-13 08:13 616次阅读
    安卓与迪文<b class='flag-5'>屏</b>的无线<b class='flag-5'>交互</b>应用