0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

让万物听说:亚马逊Alexa语音交互系统背后的声音

姚小熊27 来源:与非网 作者:夏珍 2020-06-17 14:41 次阅读

“宿命”之说

“目前音频压缩算法的码率日趋降低,研究空间相对较窄,主要是在某种算法的基础上对特定应用的改进和定制。音频信号的研究还可以在下列更广阔的方向开展下去:基于信号模型的音频内容描述、特征提取、分类与检索。这些研究可以作为多媒体数据库研究的一个子课题,实现音频数据库的组织和管理,基于内容的音频点播等。在人机交互方面,音频内容的描述可以用于音频一视频信号处理(Audio 一 Visual Signal Processing),实现音视频信号交互、信号对应、信号关连等应用。”

这段文字来源于 2003 年一篇题为《基于正弦+噪声模型的宽带音频信号的表示与压缩》的文章,是今天笔者要介绍的主人公——宋少鹏的硕士毕业论文节选。细读这段文字,一个即将毕业的学生对音频信号未来的发展是有积极想法的,我们似乎就可以清晰地看到这个年轻人将走上的职业生涯道路。

时间是最好的证明,这个从华南理工大学无线电系毕业的小伙子近 20 年来真的就只做了一件事,这件事就是音频信号处理。常有人问他为什么喜欢这个领域、认定这个方向的时候,他都会笑着答道,“儿时的兴趣,我一直对声波、电波充满兴趣,小时候听黑胶唱片,听磁带,就一直想钻进去看看是谁在里面唱歌。此外,我的中文名字宋少鹏的拼音首字母缩写是 SSP,而音频信号处理(Sound Signal Processing)的英文首字母缩写也是 SSP,因此这是一种宿命,很早就注定了的。”

我的职业生涯一路向前,没有转折

上面讲到 2003 年宋少鹏硕士毕业,这一年他放弃了大公司的 offer,选择进入一家以色列芯片公司 Zoran 做软件开发,钻研音频 DSP 技术。值得一提的是,全球第一个全套杜比单芯片解决方案就来自这家公司。

2010 年,他又去了微软亚洲硬件中心,从事硬件产品的研发制造,经手产品包括智能摄像头、Kinnet 体感设备等。

就在 2012 年左右,他发现智能手机、电视、汽车都在向联网化发展,由于给用户带来了丰富的内容、社交和娱乐体验,这些产业得到蓬勃发展。与此同时,音频设备却还没有联网,这在一个专业音频从业者眼中,便是机遇。而眼前急切要弄清楚的是:如何联网?如何承载娱乐和社交?

带着这些思考,还在微软供职的宋少鹏便寻找机会开始尝试,这次尝试不算成功,在他看来,原因有两点,一是当时行业环境还不太成熟,二是大公司的体制存在一定的限制。

宋少鹏在后来接受利器的采访时被问到职业生涯的转折点,他直言不讳地说:“我的职业生涯一路向前,没有转折。”因此,回溯到上述那次不太成功的尝试,摸清原因,认准方向也是他职业道路上的收货,当然不止于此,他还结识了一帮志同道合的朋友。于是在 2013 年的某一天,他带着这个团队毅然决然的开始了他们的创业闯荡。

2014 年,米唐在深圳这个远离中国的政治和经济中心的湾区成立了,他喜欢那里自发式、民营式、创新型的经济模式,大家都来自江西、湖南、江苏、四川、中国各地,移民所带来的一些共同的特质,比如说勇敢、不屈服、创新,这些都与他的团队惺惺相惜。

从产品到解决方案,都在用心做“耳朵”

公司成立初期,产业的不成熟,加上创业公司交付能力的有限,使得米唐没办法短时间内在语音交互领域拿出产品化的东西,基于讯飞 SDK 和谷歌 SDK 的尝试又均不能满足这个团队对产品体验的要求,而一家公司要生存下去就必须要有良好的资金回流,于是他们的第一款产品“方糖音箱”放弃了语音的交互,只保留了两项特殊的“体感”操作方式:轻拍音箱顶部开始播放音乐或暂停,向左或向右倾斜切换上下曲目。

这款音箱通过 WiFi 连接上网,可脱离手机独立工作,并内置了不少音乐电台,比如豆瓣电台、荔枝 FM、还有一些国际电台,同时它还能记录个人喜好,进行智能推荐。若是用户在互动中能会心一笑,那在宋少鹏的眼中,除了趣味更是一种关怀带来的暖意。

“产品就像艺术品,源于生活,高于生活,要从生活中抽象提炼需求,发掘人性。”这与宋少鹏以人性、人文观点来思考产品设计的观点高度契合。但生活要继续,公司更需发展,经济基础决定上层建筑,即使方糖在 2015 年就开始销往海外,并推出了同样设计的蓝牙音箱,以谋取更多的利润,一年数万台的销量还是显得捉襟见肘。

作为一家始终观察着这个领域的创业企业,2015 年底,他们看到了亚马逊的 Echo 和背后的 Alexa 语音交互系统。最初亚马逊 Echo 以 MVP(最小可用原型)的形态交付用户,语音识别和语义理解都仅能满足流媒体播放的简单需求,但是经过一两年的打磨,到了 2016 年,Echo 的体验就好了很多,它既可以提供音频内容,也可以提供生活服务,包括音乐、电台、有声书、新闻、天气、闹钟、日程等。这时候亚马逊也将 Alexa 语音交互平台开放出来,于是米唐团队在第一时间找到了亚马逊。大概花了三四个月的时间,在众多想接入 Alexa 的竞争者中,方糖成为首个通过亚马逊认证的第三方音箱产品。

“通过亚马逊的认证后,Alexa 团队的人就主动找到了我,问我一年能够卖多少,我说几万台,亚马逊就说做他们的技术方案商,可以帮米唐一年卖几百万个解决方案”,宋少鹏回忆称这是亚马逊帮团队找到了方向。于是,一个擅长做技术的团队,开始从做 C 端产品转向做 B 端的方案,并决意将自己定位为聚焦海外市场的语音交互解决方案提供商。

“让万物听说”是使命所在

目前,米唐的业务已扩展到家用电器、汽车和消费电子产品等多个领域,而其核心竞争力是他们的远场语音交互算法,在响应速度、识别率、去噪、声源定位和产品良率方面均做得还不错。

“作为创业狗,在哪都能工作。出差路上的飞行和堵车时的 YY 是获得灵感的方式,出差的时候会带一本书,和一个趁早笔记本。”宋少鹏如是说,“当你做一个事情,真正站在场景和用户的角度去思考,才有可能在价值上有所突破,而当你受制于既得利益时,其实会做很多束缚手脚的事情。”

未来的米唐会发展成怎样,没人可以预判,但“让万物听说”会成为它和它背后的这个团队不变的使命。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • SSD
    SSD
    +关注

    关注

    21

    文章

    2861

    浏览量

    117395
  • 语音交互
    +关注

    关注

    3

    文章

    286

    浏览量

    28008
  • 亚马逊
    +关注

    关注

    8

    文章

    2659

    浏览量

    83331
收藏 人收藏

    评论

    相关推荐

    基于语音识别的智能会议系统具备哪些交互功能

    标贝科技专注智能语音交互领域多年,在语音识别和语音合成领域有着多项大型企业合作案例,标贝与多个智能会议系统厂商合作,成功将
    的头像 发表于 12-20 10:35 61次阅读

    亚马逊基于人工智能的Alexa发布计划延期至明年

    11月1日外媒报道称,亚马逊已将基于人工智能技术全新打造的正版Alexa发布计划延期至明年。   亚马逊最初于去年9月公开了新版Alexa的规划,意在通过集成AI大模型,显著增强
    的头像 发表于 11-01 15:19 530次阅读

    大华股份与万物云签署战略合作协议

    近日,大华股份与万物云空间科技服务股份有限公司(以下简称“万物云”)签署战略合作协议。双方将重点围绕园区安全、服务生态合作,尤其在弱电智能化服务、居家安全服务、人力外包服务、园区消防远程联网、大华生态服务以及万物云渠道领域开展深
    的头像 发表于 10-31 15:26 315次阅读

    华盛昌携手我的万物集培训圆满落幕

    2024年10月19日下午,一场别开生面的培训与活动启动仪式在我的万物集(以下简称“万物集”)总部召开。此次活动旨在通过线上线下相结合的方式,为我的万物集的销售团队提供更为专业的配电柜检修及自动化生产检测场景化培训,并同步启动双
    的头像 发表于 10-27 15:00 335次阅读

    TLV320AIC3204N1_L有语音输入、IN1_R没语音输入时,采集IN1_R的数据声音是IN1_L端的声音,为什么?

    使用方式:IN1_L与IN1_R分别单端输入,DSP模式与DSP5509进行数据交互。当IN1_L有语音输入、IN1_R没语音输入时,采集IN1_R的数据,发现声音是IN1_L端的
    发表于 10-16 06:16

    IP地址与5G时代的万物互联

    准确地找到彼此并进行数据交换。没有IP地址,万物互联将无从谈起。IP地址在5G时代的重要性不言而喻。 IP地址与5G时代的万物互联 一方面,IP地址的分配和管理将面临巨大的挑战。随着设备数量的爆炸式增长,传统的IP地址分配方式可能无法
    的头像 发表于 09-27 09:56 311次阅读
    IP地址与5G时代的<b class='flag-5'>万物</b>互联

    联网系统中音频方案的“大脑”_语音芯片

    01 联网系统中为什么要使用语音芯片 联网系统中使用语音芯片的原因可以归结为以下几个方面:
    的头像 发表于 09-26 14:26 390次阅读
    <b class='flag-5'>物</b>联网<b class='flag-5'>系统</b>中音频方案的“大脑”_<b class='flag-5'>语音</b>芯片

    联网系统声音拾取音频方案_咪头

    捕捉周围的声音信号,并将其转换为电信号,以供后续处理或传输。 广泛应用:由于声音是信息传递的重要方式之一,咪头在联网系统中的应用非常广泛。无论是智能家居、安防监控、远程会议,还是
    的头像 发表于 09-23 15:49 364次阅读
    <b class='flag-5'>物</b>联网<b class='flag-5'>系统</b>中<b class='flag-5'>声音</b>拾取音频方案_咪头

    深开鸿王成录:万物智联,开源打开未来新想象

    (OpenHarmony)是面向万物互联时代的操作系统,将会对各行各业的数字化与智能化转型带来哪些新想象?王成录:当前,我们正处于万物智联的时代,“人与人”相连转变为“人与人
    的头像 发表于 07-13 08:33 464次阅读
    深开鸿王成录:<b class='flag-5'>万物</b>智联,开源打开未来新想象

    芯闻速递 | HDC2024:海思携手OpenHarmony,共启万物智联新篇章

    芯垂直整合、丰富生态应等多个维度,为鸿蒙统一生态带来极致流畅、高效无缝的体验,为开发者带来进入鸿蒙生态的多品类开发平台,共启万物智联新篇章。 海思5+2产品生态解决方案 全速推进鸿蒙生态构建 从万物互联到万物智联,智能终端的数量
    的头像 发表于 06-23 13:03 964次阅读
    芯闻速递 | HDC2024:海思携手OpenHarmony,共启<b class='flag-5'>万物</b>智联新篇章

    中国安徽蚌埠传感谷:为万物创造“五官”

    中国安徽蚌埠传感谷:为万物创造“五官”
    的头像 发表于 06-19 18:05 854次阅读
    中国安徽蚌埠传感谷:为<b class='flag-5'>万物</b>创造“五官”

    亚马逊语音助手的竞赛中上远远落后

    Intelligence”驱动的Siri之后,《财富》杂志的一份新报告表明,亚马逊Alexa——可以说是目前最有能力的语音助手——正在努力进行自己的人工智能改造: …《财富》杂志采访的消息来源都不相信
    的头像 发表于 06-18 16:54 1322次阅读

    请问ESP-VA-SDK中怎么获取alexa技能响应返回的内容?

    目前在基于 ESP32-Vaquita-DSPG 开发板调研 alexa 控制相关的开发流程,目前需求是希望可以在 开发板 上获取通过 alexa 语音控制,返回的响应内容。 目前翻阅了大量资料文章,好像没有找到相关的内容,是
    发表于 06-13 07:13

    车联万物C-V2X与背后的连接组件

    车联网市场规模已达到530亿美元。   通信技术正在随着需求的提升同步拓展新的通信服务,在高速通信的前沿,车联网技术需要与之匹配的连接技术来支持车辆与万物之间的通信。   C-V2X ,连接车辆与万物   车联网通信技术起初是将车辆内部的控制单
    的头像 发表于 06-07 00:06 4527次阅读

    亚马逊计划对Alexa进行人工智能改造

    亚马逊正忙于为其广受欢迎的Alexa智能助理进行技术升级,此次的重点在于引入更先进的人工智能生成技术,旨在为用户提供更加自然、流畅的对话体验。据悉,这一新版本的Alexa将在今年晚些时候与公众见面。
    的头像 发表于 05-24 09:13 584次阅读