0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

研究自然语音交互系统带来人机对话新体验

bNZh_Ali 来源:AliOS 作者:AliOS 2021-05-19 14:16 次阅读

不难发现,现在「车载语音交互」的体验越来越完善。它不仅能完成更多的指令,而且能和我们进行情感交互,甚至还懂得一些基本的伦理纲常。AI语音交互,同样正在占据我们生活应用中的每一个入口,现在,被视作“第三空间”的汽车场景,通过自然连续对话完成人车之间的主动交互,正在成为现实。

回顾发展之初,车载语音虽然能完整跑通 ASR、TTS 这些流程,能实现一些简单的 NLU/NLP 能力,但体验有很多漏洞,比如有可能识别失败,指令完成缓慢,交互逻辑不合常理等等。如今来看,这些基础能力正变得更强,基本可以称得上是一个「有价值的工具」。

另一方面,语音交互作为智能网联汽车的“灵魂”,一直是车联网公司和主机厂发力的重点领域。目前市面上常见的车载系统每次交互都得说出唤醒词,无法做到自然连续对话。相比市场同类车载系统,基于AliOS底层技术开发的斑马智行VENUS系统,在AI语音功能智能化程度上有了更高突破,不仅具备人类亲和力的特质和逻辑思维能力,同时,整个对话体验更加自然流畅,能带给用户更具情景化、更有温度的用车体验。

实际上,新斑马语音产品在快、准、自然的交互体验基础上,开创了全双工、全场景、全闭环的交互特色,并第一次在车内实现了个性化声音克隆的技术。

语音基础能力方面,新斑马语音背靠阿里巴巴达摩院,提供ECNR、VW、ASR、TTS等全链路语音基础能力,并且在汽车语义上投入重兵与达摩院合作共建,保障在核心能力上的领先性和特色。

语音交互特性方面,重点演进了全双工交互能力,并且开发了可见即可说、全时唤醒、灵动唤醒词、多TTS引擎、双模态交互、个性化声音克隆等交互特色。其中声音克隆技术可以将用户的声音复制到车内,提供更加个性化的趣味体验。

同时,在与车场景结合方面,斑马语音拥有全场景、全闭环的交互体验。在地图导航、多媒体、通讯、车控车设四大场景上进行了深度挖掘,与语音进行深度结合,实现动口不动手的语音交互体验。同时为支付宝车载小程序开放平台提供语音开放能力,让接入汽车的支付宝车载小程序都可以使用语音进行交互。

自然语音交互系统- 全双工交互技术

一次唤醒多次输入

更高效更接近人类交互习惯

基于场景的上下文预测

边说边听,边听边想

全双工交互具有一次唤醒多次输入、边说边听边听边想、基于场景进行上下文预测等能力。相比传统语音交互方式,全双工更接近人类习惯,是语音交互到自然交互的必备阶段。

实现全双工语音交互,面临着多项技术挑战:如何在机器说话的同时清楚地接收用户说话的信号?如何保证持续不断地接收用户完整的信息表达?如何在保证准确理解的前提下控制误触发?这些问题在汽车环境中会被不断放大,阻碍技术的落地应用。

斑马依托达摩院降噪、回声消除、流式ASR、流式NLU、专项NLU拒识模型等前沿技术,在大规模实车数据的训练下,实现了真正的全双工交互技术在车内的大规模使用。

自然语音交互系统- 声音克隆技术

基于深度神经网络

快速生成TTS声音模拟

个性化自然交互体验

让最熟悉的声音一路相伴

声音克隆技术只需要提取用户5-10分钟的声音片段,就可以提取出他的声音特征,进而训练出和他的声音相似的TTS声音。传统的TTS技术需要获得几十小时的数据才能够进行TTS的发音人训练。而基于深度神经网络,斑马声音克隆系统在5-10分钟的声音片段中,就可以通过声音特征提取训练、声音合成器训练和声码器训练完成TTS声音的模拟。

声音克隆技术在车内可以为你带来更加个性化的自然交互体验,你可以把车内的声音设置成自己的爱人、子女、父母等亲人的声音,为自己的行车生活增添更多的温暖。

有了声音及语意上的天然优势,再加之AI大数据的后端支持,斑马智行VENUS实现了“智商情商双进步,聊啥都懂”的突出能力。具体来看,斑马智行VENUS AI语音技能将覆盖500多个常用知识领域,无论是查天气、查股票,还是幽默段子,都能“随问随答”。

随着5G物联网自动驾驶等技术的成熟,车载语音助手必然会替代我们现有的人车交互方式,一款好的车机语音对汽车而言,显得尤为重要。在近日对外透露的斑马5计划中,「对话式导航」将成为下一项语音交互黑科技。不久的将来,影视剧中如霹雳游侠那般的人车对话也终将会实现。

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 物联网
    +关注

    关注

    2909

    文章

    44578

    浏览量

    372858
  • ASR
    ASR
    +关注

    关注

    2

    文章

    43

    浏览量

    18727
  • 5G
    5G
    +关注

    关注

    1354

    文章

    48439

    浏览量

    563993
  • 自动驾驶
    +关注

    关注

    784

    文章

    13787

    浏览量

    166404

原文标题:自然语音交互系统 带来人机对话新体验

文章出处:【微信号:AliOS,微信公众号:AliOS】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    语音芯片赋能可穿戴设备:开启个性化音频新体验

    语音芯片与可穿戴设备合作,带来定制化音效、智能降噪、个性化推荐、语音交互及跨设备共享等,引领个性化音频时代,提升用户听觉体验。
    的头像 发表于 12-14 15:44 403次阅读

    语音识别与自然语言处理的关系

    人机交互的革命,使得机器能够更加自然地与人类沟通。 语音识别技术概述 语音识别,也称为自动语音识别(ASR),是指将人类的
    的头像 发表于 11-26 09:21 335次阅读

    具身智能对人机交互的影响

    在人工智能的发展历程中,人机交互一直是研究的核心领域之一。随着技术的进步,人机交互的方式也在不断演变。从最初的命令行界面,到图形用户界面,再到现在的自然语言处理和
    的头像 发表于 10-27 09:58 320次阅读

    科大讯飞发布星火极速超拟人交互,重塑智能对话新体验

    8月19日,科大讯飞震撼宣布了一项关于其明星产品——星火语音大模型的重大革新,即将推出的“星火极速超拟人交互”功能,预示着人机交互的新纪元。该功能定于8月30日正式登陆讯飞星火App,面向广大用户开放体验,引领一场前所未有的智能
    的头像 发表于 08-20 16:46 350次阅读

    乐鑫声学前端算法:打造智能语音交互新体验,ESP32-S3 SOC技术方案

    随着人工智能技术的不断进步,智能语音设备正逐渐成为我们生活中不可或缺的一部分。然而,在嘈杂的现实环境中,如何实现清晰、准确的语音交互,一直是业界面临的一大挑战。今天,我们要介绍的是乐鑫声学前端算法
    的头像 发表于 08-03 08:04 926次阅读
    乐鑫声学前端算法:打造智能<b class='flag-5'>语音</b><b class='flag-5'>交互</b><b class='flag-5'>新体验</b>,ESP32-S3 SOC技术方案

    OpenAI提前解锁GPT-4o语音模式,引领对话新纪元

    OpenAI近日宣布了一项令人振奋的消息:即日起,部分ChatGPT Plus用户将率先体验到GPT-4o的语音模式,这一创新功能标志着自然语言处理与人工智能交互技术迈出了重要一步。GPT-4o的高级
    的头像 发表于 08-01 18:24 1205次阅读

    疆程技术亮相2024汽车软件与通信大会,智能显示引领驾乘新体验

    疆程技术亮相2024汽车软件与通信大会,智能显示引领驾乘新体验
    的头像 发表于 05-30 09:59 441次阅读
    疆程技术亮相2024汽车软件与通信大会,智能显示引领驾乘<b class='flag-5'>新体验</b>

    智能语音交互技术如何助力设备实现人机自然对话

    随着现代人工智能在各行业的普及,智能语音交互技术也越来越多的在日常工作、生活中应用,智能语音交互的出现不仅仅大量节省了人工的工作时间提高了工作效率,为人们工作生活
    的头像 发表于 05-23 15:16 716次阅读
    智能<b class='flag-5'>语音</b><b class='flag-5'>交互</b>技术如何助力设备实现<b class='flag-5'>人机</b><b class='flag-5'>自然</b><b class='flag-5'>对话</b>

    智能语音交互技术如何助力设备实现人机自然对话

    智能语音交互技术是指通过语音识别、语音合成和自然语言理解等技术,实现人与机器之间自然语言的交流和
    的头像 发表于 05-23 15:14 376次阅读

    讯维智能可视化综合平台:打造高效远程会议的新体验

    讯维智能可视化综合平台在远程会议领域带来了前所未有的新体验,它通过高度集成化的技术和创新设计,为远程会议参与者提供了高效、便捷、直观的交流方式。以下是讯维智能可视化综合平台如何打造高效远程会议新体验
    的头像 发表于 05-11 16:37 337次阅读

    **十万级口语识别,离线自然说技术,让智能照明更懂你**

    NLP技术。该技术基于端到端语音识别技术及端侧NLP技术,可识别端侧十万级别口语说法,打破传统的固定词条语音识别,为用户提供更自然、更灵活、更智能的语音
    发表于 04-29 17:09

    人机交互的三个阶段 人机交互的常用方式

    交互经历的三个阶段:命令行界面交互阶段、图形用户界面交互阶段、自然和谐的人机交互阶段。
    的头像 发表于 03-13 17:25 3031次阅读

    人机交互技术有哪几种 人机交互技术的发展趋势

    的几种形式: 图形用户界面(GUI):图形用户界面是目前最为常见的人机交互技术形式。它通过图形化的方式展示信息,用户可通过鼠标、键盘等设备进行操作。GUI简单直观,易于学习使用,适用于大众用户。 语音交互技术:
    的头像 发表于 01-22 17:47 3602次阅读

    让设备更聪明 |离线自然说,开启智能语音交互新体验

    ,导致用户只能使用固定的词条来控制设备,大大降低了用户与设备之间的语音交互体验。用户A通过传统离线语音交互来打开空调他只能说:“打开空调”近日,启英泰伦新推出「离
    的头像 发表于 01-10 08:15 1011次阅读
    让设备更聪明 |离线<b class='flag-5'>自然</b>说,开启智能<b class='flag-5'>语音</b><b class='flag-5'>交互</b><b class='flag-5'>新体验</b>!

    让设备更聪明 |启英泰伦离线自然说,开启智能语音交互新体验

    启英泰伦新推出「离线自然说」——一种轻量级的离线NLP技术。通过该技术,语音芯片可支持数万条离线词条,泛化能力强,几乎可涵盖用户日常所有说话习惯,可以为用户提供更自然、更丰富、更灵活的离线语音
    的头像 发表于 01-04 11:24 796次阅读
    让设备更聪明 |启英泰伦离线<b class='flag-5'>自然</b>说,开启智能<b class='flag-5'>语音</b><b class='flag-5'>交互</b><b class='flag-5'>新体验</b>!