0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

汽车AI语音交互 正在让机器交互更接近真人交互

jf_f8pIz0xS 来源:智能相对论 作者:胡杨 胡皓 2020-07-25 12:03 次阅读

现在,情况有了改善。当用户询问车机“明天出门需要带伞么?”,车机就会播报明天的天气情况,如果需要再查询其他时间或者城市的天气,那么用户不用重新唤醒,也不需要说出完整表达,只需要说“那大后天呢?”、“那杭州呢?”。在用户和车机在自然连续对话的过程中,语义理解服务会记住会话的历史,并结合历史处理用户的请求,通过这种方式,用户的多次连续交互就可以形成一个会话流,与用户的交互也更加自然。

自然连续对话,是车载语音交互从“人工智障”迈向“人工智能”的重要一步。不过斑马网络最近推出的斑马智行VENUS系统,打破了对用户说话规则的要求,用户可以按照自身的说话习惯来进行交流,交互过程更加人性化。这会不会是一个跨越?

从科幻到现实,语音交互一直在进化

提到智能语音交互,普罗大众对于技术刷屏的记忆停留在2018年的Google开发者大会“Google I/O”开幕式上。当Google Assistant以惊人的流利会话,打电话和店家沟通,预约理发店、餐厅,并用一句俏皮的“嗯哼”作为回应时,观众给予了热烈的掌声。这是技术愿景美好、激励人心的一面。

有趣的是,同年2月的美国第五十二届超级碗的天价广告上,亚马逊卖力黑了自家的智能音箱和智能助手——Alexa。唤醒失误、识别不准、响应困难等等用户槽点,被广告创意表现得淋漓尽致。这是技术的现实。

但不论是基于场景的未来畅想,还是对当下缺陷的大胆自嘲,两个科技巨头都将业务重心的一角,押注在了语音交互赛道上。

亚马逊首席技术官Werner Vogels断言:未来,人和数字世界对的交互,一定是以“人”为核心,而不是机器驱动;我们终将构建出更人性化的交互,让人机互动更加融合。

在“以人为核心”、“更加融合”的人机交互中,语音交互(简称VUI)是核心。VUI允许更自由、高效的人机交互,其本质上比任何其他形式的用户界面都更“人性化”。斯坦福大学教授,Wired for Speech的合著者,克利福德·纳斯写道:“语音是人类交流的基本手段……。所有文化主要通过语音来说服,告知和建立关系。”

VUI允许用户使用语音作为媒介与机器进行交互。从《2011太空漫游》中的HAL到《星球大战》中的C-3PO,人们在科幻电影里畅想着能够与机器自由沟通。事实上,早在1952年,贝尔实验室的工程师就开发出了Audrey(奥黛丽):它可以识别数字0-9的发音。尽管奥黛丽能够以超过90%的精度识别语音输入,但其体积大,成本高昂,未曾步入大规模商业化的发展通道。

自此,人类开启了长达半个多世纪的语音交互探索。1962年,IBM推出了第一台真正意义上的是语音识别机器。工程师William Dersch开发出的Shoebox可以收听操作员说出的数字和命令。例如“5+3+8+6+4-9,总和”,机器将打印出正确答案:17。

1970年,隐马尔可夫模型(HMM)为语音识别的发展插上了算法的翅膀,让语音识别从文字匹配进化到了可预测的高度。20世纪80年代,Covox,Dragon Systems,Speechworks相继成立,推动了语音识别的商用化进程。

90年代,语音识别技术迎来了大规模商用和普及。1995年,Dragon发布了单词听写级的语音识别软件。这是人类历史上首个面向广大消费者的语音识别产品。仅一年之后,Charles Schawab(嘉信理财)和Nuance(纽昂斯)联合推出了一套“语音股票经纪人”系统,可同时响应360个客户的股票询价电话。1997年,如今隶属Nuance旗下的声龙系统(Dragon system)推出了“NaturallySpeaking”软件,这是历史上第一个可用的“连续语音”听写软件。它标志着单词级不停顿语音交互的开始。

最近的20年,Google,Apple,Amazon先后推出了大众耳熟能详的智能语音助手,并通过智能手机、智能音箱等产品,来到普罗大众身边。据Juniper Research统计,截至2019年2月,全球使用中的语音助手达32.5亿;预计到2023年,该数字将达到80亿。

语音交互技术上的高山一:自然连续对话

随着软硬件的快速迭代,如今的ASR(语音识别)技术已近成熟,未来智能语音交互的核心竞争力在于在复杂场景下准确理解用户的意图,并为其提供差异化服务。更加智能的自然连续对话能力,将让语音交互系统更具人类的亲和力特质和逻辑思维能力,能带给用户更具情景化、更有温度的用车体验和服务潜力。

“智能相对论”认为,自然连续对话是一个系统的工程,涉及到从车机端的声学前端处理、语音唤醒、语音识别、语义理解、对话管理、自然语言生成、语音合成等核心交互技术。斑马智行VENUS的AI语音得益于阿里达摩院的重磅加持以及科大讯飞、思必驰等合作伙伴的大力支持,极大提升了语音能力。斑马基于AliOS系统,可以更好地将语音核心技术能力与系统能力相结合,更大程度地发挥出语音核心技术的优势,将多种引擎的协作发挥到极致,达到“1+1》2”的效果。

语音交互技术上的高山二:个性化,即声音克隆

如果说自然连续对话为更自由的交互和差异化服务提供可能,那语音定制化则将个性化、情感化的语音交互率先落地。

2017年9月,一家名为Lyrebird的加拿大初创公司在推特上发布了一段10秒的录音。录音是内容AI模仿美国总统特朗普的话语。在此之前,Google旗下的DeepMind曾经公布了一个用AI合成人声的研究成果:WaveNet,达到以假乱真的地步。Adobe也发布过一款名为Project VoCo的原型软件,在倾听20分钟音频样本之后可以进行模仿。而Lyrebird将音频采样的输入时间缩短到了60秒。

如今,国内智能网联行业也首次迎来了语音定制——“声音克隆”产品。斑马智行VENUS系统“声音克隆”操作流程非常简单。用户只需在斑马智行APP录制20句话即可合成私人语音包,一键发送至车机便可全局使用,无论是导航引导、天气查询,还是预订餐厅,和你对话的都是你最想听的声音。

声音是车载AI语音交互功能的“灵魂”,基于“声音克隆”技术,斑马智行VENUS系统将为用户提供“千人千声”的定制化服务,用户可以“克隆”亲人和爱人的声音,让陪伴更长久,让驾驶更舒心。

据介绍,斑马智行VENUS系统“声音克隆”操作流程非常简单。用户只需在斑马智行APP录制20句话即可合成私人语音包,一键发送至车机便可全局使用,无论是导航引导、天气查询,还是预订餐厅,和你对话的都是你最想听的声音。斑马网络AI语音相关负责人表示,斑马智行VENUS系统能在录制“倾听”中“掌握”每个人说话时的字母、音位、单词和语句的发音特点,通过深度学习技术推理并模仿声音中的语音音色、语调,“说”出全新的语句。

攀登技术高山,如何让机器交互能够更接近真人交互依然在等待更好答案

语音是人类最舒适,最直观的交流方式之一。如今的智能语音交互产品,变得越来越像人一样聪明且富有感情。它可以准确理解信息输入、高效处理并提供理想的信息输出。“智能相对论”认为,在人工智能和5G迅速发展的背景下,语音平台有机会成为物联网时代下新的“操作系统”,连接全新的产业生态,包括各类服务、应用、硬件等。

在各类应用场景中,除了智能家居,汽车产品对于语音交互的需求显而易见。不论是点击、滑动等触摸交互方式,在车载环境下都存在安全隐患且并不高效,语音交互是天然适应车载环境的交互方式。不过想要设计、开发、应用一套成熟的车载语音交互系统,要翻越重重高峰:行车噪音干扰如何处理、方言口音如何适配、自然的表达如何更好支持、系统的误触发如何控制在可用范围。

而随着用户对汽车智能化要求的越来越高,更自然的交互成为语音交互的发展方向。如何让机器交互能够更接近真人交互?多模态融合理解、自然全双工对话、自然语义理解成为了新的需要攀登的高峰。

斑马智行的系统底层——AliOS,在传统触控、按键交互模式的基础上,将语音交互能力、视觉交互能力以及场景信息在系统层进行融合互通,更大程度得发挥了各个交互能力的优势,使得多模态融合理解、融合交互以及更自然的全双工对话、拥有更多信号输入的自然语义理解成为可能。同时在各种交互能力融合后对上层应用进行开放,使得最终呈现给用户的交互更自然。

语音交互带来的产业机遇方兴未艾。如果说,未来的主流交互方式存在多样的可能性,那更高率、更自然、更接近于人本能的方向一定是人机交互的未来。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人机交互
    +关注

    关注

    12

    文章

    1217

    浏览量

    55491
  • AI
    AI
    +关注

    关注

    87

    文章

    31491

    浏览量

    270024
收藏 人收藏

    评论

    相关推荐

    奇瑞iCAR V23搭载思必驰全链路智能语音语言交互技术

    近日,奇瑞汽车旗下备受瞩目的A级新能源风格越野SUV——iCAR V23正式上市,新车搭载由思必驰提供的全链路智能语音语言交互技术,带来流畅丝滑的交互体验,
    的头像 发表于 01-14 14:55 268次阅读

    解锁个性化语音交互新时代:九芯智能语音云平台,创意声音触手可及!

    九芯智能语音云平台提供全面高效安全的智能语音服务,支持自定义语音内容,简化烧录流程,依托AI技术,助力各行业智能化升级,引领语音
    的头像 发表于 01-02 16:51 153次阅读
    解锁个性化<b class='flag-5'>语音</b><b class='flag-5'>交互</b>新时代:九芯智能<b class='flag-5'>语音</b>云平台,<b class='flag-5'>让</b>创意声音触手可及!

    基于语音识别的智能会议系统具备哪些交互功能

    标贝科技专注智能语音交互领域多年,在语音识别和语音合成领域有着多项大型企业合作案例,标贝与多个智能会议系统厂商合作,成功将语音识别技术在智能
    的头像 发表于 12-20 10:35 186次阅读

    基于智能语音交互的智能呼叫中心工作机制

    作为实现智能呼叫中心的关键技术之一的智能语音交互技术,它通过集成自然语言处理(NLP)、语音识别(ASR)和语音合成(TTS)等先进技术,实现了与客户的智能
    的头像 发表于 12-03 16:44 368次阅读
    基于智能<b class='flag-5'>语音</b><b class='flag-5'>交互</b>的智能呼叫中心工作机制

    讯维AI分布式无纸化交互系统:突破传统,引领AI智能会商新革命!

    随着AI人工智能技术的大规模应用于发展,传统的音视频会议系统迎来了又一次历史变革。虽然目前音视会议系统已经实现了数字化,并且具备了一定的智能化与交互能力,也实现了无纸化绿色办公,但是在AI智能化
    的头像 发表于 11-18 16:53 272次阅读
    讯维<b class='flag-5'>AI</b>分布式无纸化<b class='flag-5'>交互</b>系统:突破传统,引领<b class='flag-5'>AI</b>智能会商新革命!

    具身智能对人机交互的影响

    在人工智能的发展历程中,人机交互一直是研究的核心领域之一。随着技术的进步,人机交互的方式也在不断演变。从最初的命令行界面,到图形用户界面,再到现在的自然语言处理和语音识别,每一次技术的突破都极大
    的头像 发表于 10-27 09:58 426次阅读

    声智科技超低成本部署,打造AI硬件与AI交互产业生态

    7月31日,声智科技在北京·海淀举行AI媒体沟通会,以“大模型·新交互”为主题,声智科技副总裁黄赟贺公布了AzeroGPT 的算法技术升级成果,并发布了两款新品——AI 交互新品“千面
    的头像 发表于 08-02 10:00 664次阅读

    立功科技ISD智能交互车灯技术方案

    随着智能汽车的快速发展,车灯产业正在经历从功能车灯向智能车灯转型发展,ISD智能交互车灯凭借成熟的产业链以及不断升级的技术方案,正逐步成为市场主流。本文为大家介绍立功科技ISD智能交互
    的头像 发表于 07-18 14:26 1279次阅读
    立功科技ISD智能<b class='flag-5'>交互</b>车灯技术方案

    聆思CSK6视觉语音大模型AI开发板入门资源合集(硬件资料、大模型语音/多模态交互/英语评测SDK合集)

    丰富外设配件 配套多模态应用示例,支持快速上手体验大模型语音交互、智能视觉等 AI 应用 板载 DAPLINK 调试器,外接一条USB 线即可实现烧录、调试、串口日志查看 板载网络模组,支持开发联网类
    发表于 06-18 17:33

    触翔X86工控主板在交互机器人中的应用

    X86工控主板在交互机器人中的应用主要体现在其高可靠性、抗干扰性和稳定性等方面,为交互机器人的正常运行和精确控制提供了有力支持。以下是关于X86工控主板在
    的头像 发表于 05-28 15:48 507次阅读

    智能语音交互技术如何助力设备实现人机自然对话

    随着现代人工智能在各行业的普及,智能语音交互技术也越来越多的在日常工作、生活中应用,智能语音交互的出现不仅仅大量节省了人工的工作时间提高了工作效率,为人们工作生活带来便利的同时,也改变
    的头像 发表于 05-23 15:16 759次阅读
    智能<b class='flag-5'>语音</b><b class='flag-5'>交互</b>技术如何助力设备实现人机自然对话

    智能语音交互技术如何助力设备实现人机自然对话

    智能语音交互技术是指通过语音识别、语音合成和自然语言理解等技术,实现人与机器之间自然语言的交流和互动。随着现代人工智能在各行业的普及,智能
    的头像 发表于 05-23 15:14 416次阅读

    WTK6900G语音识别芯片在车载语音交互氛围灯上的应用案例解析

    随着智能汽车的快速发展,车载语音交互技术逐渐成为提升驾驶体验的关键技术之一。传统的车载灯光控制系统往往依赖于手动操作,不仅操作繁琐,而且在驾驶过程中容易分散驾驶员的注意力。因此,开发一种高效、便捷
    的头像 发表于 05-17 13:57 461次阅读

    **十万级口语识别,离线自然说技术,智能照明懂你**

    自然说技术,用户不用死记硬背,提供了自然、更灵活、智能的语音交互方式。 方案框图 在方案设计上,启英泰伦充分考虑了产品功能、复杂程度和制造成本等因素。通过将
    发表于 04-29 17:09

    人机交互的三个阶段 人机交互的常用方式

    交互经历的三个阶段:命令行界面交互阶段、图形用户界面交互阶段、自然和谐的人机交互阶段。
    的头像 发表于 03-13 17:25 3334次阅读