“宿命”之说
“目前音频压缩算法的码率日趋降低,研究空间相对较窄,主要是在某种算法的基础上对特定应用的改进和定制。音频信号的研究还可以在下列更广阔的方向开展下去:基于信号模型的音频内容描述、特征提取、分类与检索。这些研究可以作为多媒体数据库研究的一个子课题,实现音频数据库的组织和管理,基于内容的音频点播等。在人机交互方面,音频内容的描述可以用于音频一视频信号处理(Audio 一 Visual Signal Processing),实现音视频信号交互、信号对应、信号关连等应用。”
这段文字来源于 2003 年一篇题为《基于正弦+噪声模型的宽带音频信号的表示与压缩》的文章,是今天笔者要介绍的主人公——宋少鹏的硕士毕业论文节选。细读这段文字,一个即将毕业的学生对音频信号未来的发展是有积极想法的,我们似乎就可以清晰地看到这个年轻人将走上的职业生涯道路。
时间是最好的证明,这个从华南理工大学无线电系毕业的小伙子近 20 年来真的就只做了一件事,这件事就是音频信号处理。常有人问他为什么喜欢这个领域、认定这个方向的时候,他都会笑着答道,“儿时的兴趣,我一直对声波、电波充满兴趣,小时候听黑胶唱片,听磁带,就一直想钻进去看看是谁在里面唱歌。此外,我的中文名字宋少鹏的拼音首字母缩写是 SSP,而音频信号处理(Sound Signal Processing)的英文首字母缩写也是 SSP,因此这是一种宿命,很早就注定了的。”
我的职业生涯一路向前,没有转折
上面讲到 2003 年宋少鹏硕士毕业,这一年他放弃了大公司的 offer,选择进入一家以色列芯片公司 Zoran 做软件开发,钻研音频 DSP 技术。值得一提的是,全球第一个全套杜比单芯片解决方案就来自这家公司。
2010 年,他又去了微软亚洲硬件中心,从事硬件产品的研发制造,经手产品包括智能摄像头、Kinnet 体感设备等。
就在 2012 年左右,他发现智能手机、电视、汽车都在向联网化发展,由于给用户带来了丰富的内容、社交和娱乐体验,这些产业得到蓬勃发展。与此同时,音频设备却还没有联网,这在一个专业音频从业者眼中,便是机遇。而眼前急切要弄清楚的是:如何联网?如何承载娱乐和社交?
带着这些思考,还在微软供职的宋少鹏便寻找机会开始尝试,这次尝试不算成功,在他看来,原因有两点,一是当时行业环境还不太成熟,二是大公司的体制存在一定的限制。
宋少鹏在后来接受利器的采访时被问到职业生涯的转折点,他直言不讳地说:“我的职业生涯一路向前,没有转折。”因此,回溯到上述那次不太成功的尝试,摸清原因,认准方向也是他职业道路上的收货,当然不止于此,他还结识了一帮志同道合的朋友。于是在 2013 年的某一天,他带着这个团队毅然决然的开始了他们的创业闯荡。
2014 年,米唐在深圳这个远离中国的政治和经济中心的湾区成立了,他喜欢那里自发式、民营式、创新型的经济模式,大家都来自江西、湖南、江苏、四川、中国各地,移民所带来的一些共同的特质,比如说勇敢、不屈服、创新,这些都与他的团队惺惺相惜。
从产品到解决方案,都在用心做“耳朵”
公司成立初期,产业的不成熟,加上创业公司交付能力的有限,使得米唐没办法短时间内在语音交互领域拿出产品化的东西,基于讯飞 SDK 和谷歌 SDK 的尝试又均不能满足这个团队对产品体验的要求,而一家公司要生存下去就必须要有良好的资金回流,于是他们的第一款产品“方糖音箱”放弃了语音的交互,只保留了两项特殊的“体感”操作方式:轻拍音箱顶部开始播放音乐或暂停,向左或向右倾斜切换上下曲目。
这款音箱通过 WiFi 连接上网,可脱离手机独立工作,并内置了不少音乐电台,比如豆瓣电台、荔枝 FM、还有一些国际电台,同时它还能记录个人喜好,进行智能推荐。若是用户在互动中能会心一笑,那在宋少鹏的眼中,除了趣味更是一种关怀带来的暖意。
“产品就像艺术品,源于生活,高于生活,要从生活中抽象提炼需求,发掘人性。”这与宋少鹏以人性、人文观点来思考产品设计的观点高度契合。但生活要继续,公司更需发展,经济基础决定上层建筑,即使方糖在 2015 年就开始销往海外,并推出了同样设计的蓝牙音箱,以谋取更多的利润,一年数万台的销量还是显得捉襟见肘。
作为一家始终观察着这个领域的创业企业,2015 年底,他们看到了亚马逊的 Echo 和背后的 Alexa 语音交互系统。最初亚马逊 Echo 以 MVP(最小可用原型)的形态交付用户,语音识别和语义理解都仅能满足流媒体播放的简单需求,但是经过一两年的打磨,到了 2016 年,Echo 的体验就好了很多,它既可以提供音频内容,也可以提供生活服务,包括音乐、电台、有声书、新闻、天气、闹钟、日程等。这时候亚马逊也将 Alexa 语音交互平台开放出来,于是米唐团队在第一时间找到了亚马逊。大概花了三四个月的时间,在众多想接入 Alexa 的竞争者中,方糖成为首个通过亚马逊认证的第三方音箱产品。
“通过亚马逊的认证后,Alexa 团队的人就主动找到了我,问我一年能够卖多少,我说几万台,亚马逊就说做他们的技术方案商,可以帮米唐一年卖几百万个解决方案”,宋少鹏回忆称这是亚马逊帮团队找到了方向。于是,一个擅长做技术的团队,开始从做 C 端产品转向做 B 端的方案,并决意将自己定位为聚焦海外市场的语音交互解决方案提供商。
“让万物听说”是使命所在
目前,米唐的业务已扩展到家用电器、汽车和消费电子产品等多个领域,而其核心竞争力是他们的远场语音交互算法,在响应速度、识别率、去噪、声源定位和产品良率方面均做得还不错。
“作为创业狗,在哪都能工作。出差路上的飞行和堵车时的 YY 是获得灵感的方式,出差的时候会带一本书,和一个趁早笔记本。”宋少鹏如是说,“当你做一个事情,真正站在场景和用户的角度去思考,才有可能在价值上有所突破,而当你受制于既得利益时,其实会做很多束缚手脚的事情。”
未来的米唐会发展成怎样,没人可以预判,但“让万物听说”会成为它和它背后的这个团队不变的使命。
-
SSD
+关注
关注
20文章
2851浏览量
117219 -
语音交互
+关注
关注
3文章
283浏览量
27980 -
亚马逊
+关注
关注
8文章
2624浏览量
83185
发布评论请先 登录
相关推荐
评论