0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

支持情感TTS,小爱音箱Art声学技术重磅升级!

姚小熊27 来源:北国网 作者:北国网 2020-06-17 15:48 次阅读

近日,小米发布了小爱音箱Art,这款音箱采用全新的金属机身,机身扬声器开孔被设计成0.7mm厚度的金属饰板,可谓功能与质感兼具。小米小爱音箱Art通过一颗2.5英寸的全频扬声器,让声音的细节呈现得更加自然。

作为小米推出的第9款智能音箱,小米小爱音箱Art在技术上也全面升级,搭载第三代小爱同学,并支持情感化语音交互、全屋播放及就近唤醒。通过这款音箱得以看出,小米的声学语音技术已经实现全面自研,并在自研部分领域持续。

情感化语音交互:通过迭代声学模型,支持情感TTS

对于智能设备而言,实现情感化语音交互是一项挑战。“情感”本身就是主观的、多样的感受,一种情感可以有多种呈现形式,更适合人与人的面对面对话。情感化语音交互对技术要求较高,要技术方、数据方、质检方等多方对情感浓度、情感诠释方式等标准达成共识,将较主观的情感音素统一化、标准化。

随着人工智能技术的发展,在实现人机对话的基础上,各大厂商都在情感化语音交互的领域探索。为了让机器加入情感元素,小米AI实验室在“情感数据量有限”的前提下,通过不同声学模型、不同声码器组合最终上线自然、拟人效果的情感TTS,成为业内首 家情感化TTS大规模落地的企业。

通过小米AI实验室的不断深耕,此次小米小爱同学Art全面支持情感化语音交互,基于有限但类型不同的情感音频数据(如开心、关心、害羞、惊讶等),通过不同技术训练并迭代声学模型,最终支持情感TTS合成并实现“小爱同学”音感化、拟人化。

未来,小米语音将升级此技术——支持情感TTS实时合成。从下图中可以看出,在大数据集的预训练模型基础上,利用目标说话人的中性情感数据对网络进行微调,得到目标说话人的中性情感模型;在此基础上用带情感的小批量数据对模型进一步微调,最终得到不同情感的模型,最终实现情感合成。

在国内语音助手行业中,小米首 次实现情感化TTS的大规模落地,未来将打造情感更加丰富的“小爱同学”,为用户提供多元化的语音交互体验,为IoT设备增加更丰富更立体更逼真的语音交互体验。

语音支持全屋播放:立体声组合同步播放相同音频

小米小爱音箱Art,是首 款可以实现语音支持全屋播放的设备。用户直接对小爱同学说“全屋播放XX”,无需提前在App端进行手动设置,即可实现一句话语音交互,为用户提供了更便捷的使用方式。

要实现这一功能,音箱需要具备AIoT放音的技术。小米AIoT放音的自研技术在攻克无线网络抖动、晶振时钟漂移以及弱网下数据不可达等一系列技术难题后,将不同音箱播放声音的同步优化到微秒级别,同时还实现了在不同型号的音箱之间的数据同步,提供更细腻的音质和宽广的声像。

立体声支持APP创建组网,才能进行语音指令和APP操作播放,全屋播放同时支持语音指令和APP创建组网。

立体声功能同时支持语音指令和app操作播放,云端音频流下发至音箱A,音箱A将立体声分离为左右声道,音箱A自己播放左声道音频并将右声道音频流下发给音箱B,由B音箱播放右声道,精准的同步技术保证音箱A和B同时播放立体声的左右声道音频。全屋播放功能支持语音指令和app创建组网,音频流下发至音箱C,音箱C将音频流混合为单声道信号并下发给组内其他的音箱设备同时播放,不区分声道,可支持多个设备。

就近唤醒全面升级:实现跨设备关闭闹钟

早在2018年,小米音箱系列就上线了就近唤醒功能。值得一提的是,此次小米小爱音箱Art就近唤醒全新升级,可支持跨设备关闭闹钟。远处的音箱闹钟响了,唤醒近处的音箱可以直接关闭远处的闹钟。此功能在业内首 次上线,小米小爱音箱Art也是首 款支持该功能的产品

说到就近唤醒,小米早在2018年就上线这一功能,截止2020年4月28日,分布式就近唤醒已为多设备用户累计避免约6.82亿次设备同时唤醒,准确率达到98%。近期首 发上线了端云多维度结合的就近唤醒综合决策策略,深入加强多设备状态信息联动,智能判决空间信息,进一步提升了家庭复杂网络环境的兼容性,同时做到了多设备响应的唯一执行,大幅提升用户体验。

未来,小米将专注于家居复杂场景应用、智能声学感知和多传感融合。在复杂的家庭结构环境中,保证算法的可用性,让每个设备主动感知所处的不同环境,根据环境完成算法自适应,将数据结果取长补短,相互融合,实现多维度智能感知。

两麦阵列唤醒:两麦盲源分离降噪前端,双级唤醒策略支撑

小米小爱音箱Art同步支持两麦阵列唤醒技术。在麦克风阵列方面,小米采用两麦盲源分离降噪前端,通过盲源分离、降噪、回声消除等技术,在多声源的嘈杂环境、音箱自身播放音乐时,都能结合语音增强技术,消除噪音的强干扰,获得干净、准确的人声音频。

在唤醒方面,为了兼顾低功耗与高性能,自研语音唤醒算法采用双级唤醒策略。低功耗待机唤醒词检测模型,利用子采样与共享隐含层等技术,减少模型资源消耗的同时保证召回率在一个较高的水平。高性能误唤醒检测模型,采用粗粒度建模单元,结合局部信息与长时上下文信息,高效抑制误唤醒。通过从海量数据中自动挖掘高区分度训练样本,再经过数据扩充技术,提高唤醒模型在低信噪比与小音量场景下的鲁棒性。

小米AI实验室语音产品负责人陈君宇表示,小米IoT平台连接的智能硬件数已达到2.5亿台,音箱出货量已经达到2200万台,在这么大的用户体量下,如何让基础体验持续提升,且提升产品在AI体验上的创新性,对自研AI团队来说是非常重要的使命。

小米一直致力于研发先进的AI技术,并将技术落地到产品及业务,为用户带来更好的产品体验,让全球每一个人都能享受科技带来的美好生活。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • TTS
    TTS
    +关注

    关注

    0

    文章

    42

    浏览量

    10801
  • 小米
    +关注

    关注

    70

    文章

    14364

    浏览量

    144395
  • 小爱音箱
    +关注

    关注

    0

    文章

    26

    浏览量

    4146
收藏 人收藏

    评论

    相关推荐

    基于LSTM神经网络的情感分析方法

    情感分析是自然语言处理(NLP)领域的一项重要任务,旨在识别和提取文本中的主观信息,如情感倾向、情感强度等。随着深度学习技术的发展,基于LSTM(长短期记忆)神经网络的
    的头像 发表于 11-13 10:15 562次阅读

    语音提示器-WT3000A离在线TTS方案-打破语种限制/AI对话多功能支持

    TTS(Text To Speech )技术作为智能语音领域的重要组成部分,能够将文本信息转化为逼真的语音输出,为各类硬件设备提供便捷的语音提示服务。本方案正是基于唯创知音的离在线TTS(离线本地音乐播放与在线
    的头像 发表于 10-25 10:36 267次阅读
    语音提示器-WT3000A离在线<b class='flag-5'>TTS</b>方案-打破语种限制/AI对话多功能<b class='flag-5'>支持</b>

    语音提示器-WT3000A离在线TTS方案-打破语种限制/AI对话多功能支持

    TTS(离线本地音乐播放与在线TTS合成播放结合)技术,旨在为用户打造一个智能、高效、人性化的语音提示解决方案。方案介绍SchemeIntroduction核心技术
    的头像 发表于 10-25 08:11 259次阅读
    语音提示器-WT3000A离在线<b class='flag-5'>TTS</b>方案-打破语种限制/AI对话多功能<b class='flag-5'>支持</b>

    摘获“新锐产品奖”,芯元智重磅亮相ICDIA-IC Show 2024

    “应用创新、打造新生态”为主题,以“AI应用需求及技术发展”为主线,围绕AI大模型与芯片技术、RISC-V生态、通信与射频技术、IC设计与创新中国芯等内容交流和研讨。来自全国的集成电路企业、电子研发企业、系统方案商、整机供应链、
    的头像 发表于 10-08 10:05 379次阅读
    摘获“新锐产品奖”,<b class='flag-5'>爱</b>芯元智<b class='flag-5'>重磅</b>亮相ICDIA-IC Show 2024

    打破技术垄断,持续创新应用!回顾2024全国声学大会Aigtek安泰电子高光时刻!

    大会将继续推动“产、学、研、用”全领域的交流融合互动,审视时代的发展趋势,拓展声学领域的发展空间,宏观论述技术趋势,专题聚焦前沿技术,广泛普及声学知识,展示产业最
    的头像 发表于 10-01 08:00 377次阅读
    打破<b class='flag-5'>技术</b>垄断,持续创新应用!回顾2024全国<b class='flag-5'>声学</b>大会Aigtek安泰电子高光时刻!

    WT2605C TTS在线语音合成芯片:赋能多行业领域,引领产品智能化

    在当今科技日新月异的时代,语音技术正逐步渗透到我们生活的方方面面,而TTS(Text-To-Speech,文本到语音)技术作为其中的重要一环,更是以其独特的魅力改变了人机交互的方式。WT2605C
    的头像 发表于 09-12 15:54 340次阅读
    WT2605C <b class='flag-5'>TTS</b>在线语音合成芯片:赋能多行业领域,引领产品智能化

    大族智能装备助力玛科技智造升级、打造绿色出行新时代

      近日,大族激光智能装备集团多台高速激光切管机陆续交付玛科技集团,助力玛科技智造升级、打造绿色出行新时代。 智造升级 向绿而行 玛科
    的头像 发表于 07-10 16:20 561次阅读

    使用google-translate和wwe合并后无法使用google-tts怎么解决?

    我打算使用lyrat-mini做一个使用唤醒词唤醒然后后续通过google-sr和google-tts进行交流的聊天机器人,但是当我合并了adf的例子中的wwe和google-translate之后
    发表于 06-28 06:05

    求助,TTS能够直接使用IO口输出到PA吗?

    TTS能够直接使用IO口输出到PA吗?不经过I2C和I2S解码芯片
    发表于 06-28 06:02

    声学定义和音高单位

    学科,研究从微观到宏观、从次声(长波)到超声(短波)的一切形式的线性与非线性机械波现象。随着19世纪无线电技术的发明和应用,声学研究方向已出现很多分支:基础声学
    的头像 发表于 06-22 08:30 715次阅读
    <b class='flag-5'>声学</b>定义和音高单位

    ESP-IDF是否支持基于BLE的OTA升级

    节点需要切换到WiFi才能完成HTTP升级,ESP-IDF是否支持基于BLE的OTA升级
    发表于 06-12 07:49

    Aigtek诚邀您莅临2024年声学科学与技术高端论坛!

    6月14日-17日,2024年声学科学与技术高端论坛将于厦门佰翔软件园酒店召开,届时Aigtek安泰电子将携一众明星产品及专业测试解决方案亮相本次论坛,我们诚邀您莅临Aigtek展位参观、洽谈与观摩
    的头像 发表于 06-04 08:01 312次阅读
    Aigtek诚邀您莅临2024年<b class='flag-5'>声学</b>科学与<b class='flag-5'>技术</b>高端论坛!

    可以当回音壁使用的蓝牙条形音箱中应用的蓝牙芯片

    条形音箱(英语:Soundbar)是一个有立体声效的音箱,通常放置于屏幕的上方或下方,基于声学的考虑,此种音箱多为长条形设计,故名。
    的头像 发表于 05-15 09:41 655次阅读
    可以当回音壁使用的蓝牙条形<b class='flag-5'>音箱</b>中应用的蓝牙芯片

    【解读】VTX316 TTS语音合成芯片几个很实用的应用技巧

      前言 VTX316是北京宇音天下科技有限公司最新推出的一款更具性价比的中文TTS语音合成芯片,采用QFN32(4*4mm)封装,体积更加精巧,文本合成一次高达500字节数据(250个汉字),支持
    的头像 发表于 05-13 16:33 458次阅读

    玩转语音合成芯片(TTS芯片),看这一篇就够了

    什么是语音合成芯片:语音合成芯片也称为TTS芯片,即文字转语音芯片,是一种能够将输入的文字信息转换为语音输出的芯片。通过TTS芯片,我们可以将文字信息转化为自然语音,实现人机语音交互。
    的头像 发表于 03-19 18:13 1448次阅读
    玩转语音合成芯片(<b class='flag-5'>TTS</b>芯片),看这一篇就够了