“ 俞凯是上海交大教授,同时是思必驰联合创始人/首席科学家,他平时出席技术性质的活动,他坦言思必驰是一个技术型驱动的公司,要做一个语音场景方案提供商,不做面向C端的产品。这篇文章讲述关于思必驰在定位思考、市场观察、技术落地等想法,这篇文章带你更深入地了解思必驰。
亿欧:对于思必驰这种创业型企业,之前对外公布主要发力车载后装市场,究竟车载前装市场对比后装市场有多大呢?
俞凯:进入车载前装市场是公司的节奏问题,前装跟后装最大的区别在于后装出品速度快,前装车厂往往会比较严格地审核,出品周期比较长,目前思必驰已经在对接前装市场,但是要看到产品,估计要等上一年甚至两年的时间。
科大讯飞自己做车载前装语音已经做了几年时间,能否进入前装市场不是一个技术问题,更多的是产品对接流程耗时问题。前装比后装要求更多,前装需要跟车型匹配、生产链条、特殊的场景测试等,对接工作量是巨大的,所以从后装市场进入前装市场对于思必驰而言只是节奏问题。
像宝马和奥迪等公司也会跟我们去沟通车载语音前装对接的事情,前装汽车厂商不会绑定一个产品供应商,前装市场的迭代周期跟后装有很大的不同,思必驰并不着急,进入前装语音厂商只是时间问题。
从市场占比上,车载硬件大部分都是后装市场,如果从起量上讲,后装市场是更大,但是从价值收入角度讲,前装的售价是比后装要高。
亿欧:思必驰的企业定位?
俞凯:人工智能大体有三个不同的层次,第一种是专门做模块、底层技术的传感器公司,第二种是专门做人工智能技术的平台,第三种是专门做人工智能应用级别的产品公司,思必驰是第二种。
思必驰希望把研发的底层技术和语音交互经验提供给车载产品厂商或者系统集成厂商,而产品厂商只需要关注满足市场刚需的产品,这是智能语音车载行业的上下游分工。思必驰的定位是非常明确的,不做具体的应用级产品,只做语音技术平台。
定位是在发展过程中摸索出来的,最初我们也在手机语音上做过尝试,但是并不成功,在2013年做过探索,做出来之后发现并不核心,做出来都是免费的,没有收费模式。而做智能硬件的语音模块,第一,这是刚需,第二,这是有营利模式的,手机上的语音模块并不是刚需,因为你有文字输入等替代手段,在硬件交互过程中,对于复杂信息交互(比如问路、听歌、购物),除了语音交互,没有其他替代手段,当我们发现这个点才是真正有意义的,把精力全部投进去。
亿欧:车载语音产品在技术上还有多大的发展空间呢?
俞凯:语音技术层面还有两块可提升的。
①对接认知功能,语音目前解决了“有无”的问题,但全世界都没有解决“好坏”的问题和对接深度的问题,目前很多车载硬件都可以搜索餐馆,但是做不到语音订餐和订座,这是语音模块和功能模块的对接深度问题。
这涉及到多轮交互的问题,我们下一个发展目标,在车载情况下,实现非配合、自由、多轮交互。目前为止,这只是一个概念,并没有很好的解决方案。无论在国内还是国外,思必驰有在比较深入对这个问题进行研究。
②第二块突破在车载设备上,无论是车载后视镜还是其他车机,有的是安卓系统、有的是winCE系统;在配置上也不同,有的是1个麦克风,有的是多个麦克风,这些并不统一。
车载内部是一个噪声环境,对降噪处理仍然有很大的技术提升空间,在车内空间,简单拨号操作是没问题的,但是完全自由对话、多人对话,比较复杂的情况仍然不能很好解决,虽然这些需求并不高频,但对于成熟的车载设备是必须要有的。
亿欧:科大讯飞总部在安徽合肥、思必驰的总部在苏州,人才引入跟地区是否有关系呢?
俞凯:语音行业的技术链条特别长,适口人才要求懂的东西特别多,懂语音的人要懂信号处理、模式识别、认知、语音、心理学、计算机科学等,需要走的链条特别长。同时语音人才团队要求规模化,拥有一支语音基础研究团队特别重要,但凡能成为语音技术平台型企业的,背后都要有一支基础研发团队。
而语音是研究链条特别长,没有基础人才,是没有办法做以技术驱动型公司的,没有基础技术团队,最后只能做一个靠产品取胜、商业模式取胜、设计取胜的产品型公司,想要靠技术跟别人拉开差距,没有基础研发实力,光靠工程师,不能跟国际前沿走在一起的。
科大讯飞在安徽,是比较偏的地方,思必驰在苏州,也不在北上深,都有一个特质,背后有一支国际级的研究团队,科大讯飞依托中国科技大学的语音语义实验室,这里不单聚集中国科技大学工程系做语音的人,还集聚了计算机系做自然语言处理的人。
思必驰跟上海交通大学成立了思必驰上海交大实验室,实验室聚集了声学、语言到认知研究人员,聚集了计算机系的人才做支撑,同时我是上海交大的教授,能够把最好的技术快速应用到产品上。比如说今年能够将语音识别的速度提高3-4倍,这是一种引领。
亿欧:昆仲资本姚海波说过,在人工智能领域,只投产品型公司,而基础性研究要交给BAT,对于像思必驰这样一家创业型公司而言,着力基础研究会不会过重呢?
俞凯:产品公司的业绩来得快,由于没有后续的技术支撑,掉下去也快,技术平台企业成长比较慢,一旦起来就成为核心入口,人工智能是一个颠覆性的产业,它的出现正是产业重组的时候。
目前语音搜索最强的百度吗?其实不是。PC端所产生、积累的数据是没有办法转到语音端,在比拼的时候要落实到具体场景下,在车载环境下能够抗噪的数据,思必驰比百度要多,PC所产生的数据是用不到车载环境下的。
人工智能产生了产业颠覆性的机会,使得数据类型和形态都变得不一样,车载场景下,思必驰做得早,有基础,占据了一定的优势。人工智能影响的领域很多,思必驰在这块有80个基础研究人员,如果按照资源投入来看,思必驰在语音领域的投入很大。
语音交互在细分市场上,可能出现新的数据聚集,新的技术平台,从而产生新的机会,在这样的机会面前,创业型公司和大公司是平等竞争的,在这个竞争中,创业型公司由于专注,在局部力量上反而有优势。
亿欧:思必驰目前有一块是面向智能家居的,从空调、冰箱、电视都喊着要装语音模块,有这个必要吗?这个行业是否已经过热到产生伪需求呢?关于语音入口论的问题,多入口导致重复建设,你更赞成单一入口还是多入口?
俞凯:语音智能发展到现在,应用场景比之前多了,出现伪需求是肯定的。在智能手机之前,诺基亚的功能机都有语音拨号,当时的语音识别烂得根本不能用,就产生伪需求,表现在虽然不好用,但是你有我也要有。
对于什么是伪需求?什么是真需求?这往往是需要靠时间来验证的,真需求是在用户体验当中被磨砺剩下的需求,没有人能够一开始就判断需求的真伪。
拿语音入口而言,有人认为音乐盒子是智能家居的语音入口,做电视的人又认为电视是智能家居的语音入口,做节能灯的人又认为电灯是智能家居的语音入口,大家都想往这个方面靠。
我们能确定的是两点:
①肯定有伪需求存在;
②里面一定会有真需求,这原理是智能家居智能化趋势是没错的,更多企业加入到大浪淘沙竞争中,产品公司需要判断和找寻真需求,而思必驰是给予所有可能需求提供语音基础服务,为所有可能需求提供一个技术型的平台,思必驰是一个产业能力、基础能力的提供商。
亿欧:在2017年,思必驰对机器人、智能家居、智能车载三个模块的销售预期判断。
俞凯:2017年销量还是以车载为主,以增量的相对幅度来讲,应该会是智能家居,因为车载在经过2015-2016年的发展总量已经很大了,所以相对增量不会很大。
从2016年3月-9月的增速情况观察(后台语音模块的调用次数判断),车载语音模块月度增速大概在97%,而智能家居的月度增速大概在120%。车载市场已经趋于稳定,明年家居的增速会超过车载,车载的增速已经降低,这是因为车载市场成熟已经两年了,并且车载语音的存量基数大。而智能家居对语音模块接受高,出货量比较大。
亿欧:语音识别从去年的95%提升到97%,而自然语言处理和语义理解发展比较缓慢,请问技术难在哪个点上?思必驰这边是否有布局?
俞凯:希望同行不要过度夸大语音的识别度,在特定场景下达到97%甚至高于97%是没有问题,但是一般场景下,或者抗噪场景下,识别率是达不到97%的。
思必驰所做的是对话技术,不仅包括语义理解,还包括机器的决策和机器的反馈,人的说话分两块,第一是我说话你明白了,第二是你明白了之后你知道下一个问题问什么,这是两个不同的东西,思必驰两块都在做。
目前在国内对语音的识别有专业的评测方式(通过语音转化文字的准确率),但是语义理解没有标准的评测方式,如果需要数字评价,在特定领域都能达到97%的精确度,但是在广泛的领域,并没有达到上面的准确率,这是事实。
在非配合情况下,在语音识别错误情况下,如何做有容错的语义理解?在国内、甚至国际做这块研究的人几乎都在上海交大语音实验室。
亿欧:国内和国外的语音差距?
俞凯:在算法上讲,国内的水平已经不比国外差,一方面是产业的推动,另一方面是原本在国外留学的人都逐渐回国参与研发,不过在原创能力上讲,相对国外还要弱一点,我们主要的能力是大量吸取国外技术,然后改良型的小创新,一些本质性的创新比较少。思必驰和科大讯飞都做出了一些全球领先的算法模型广泛被得到认可,改良型创新是超过国外的。
对于人工智能的定义,对于语音识别的发展,随着产业化的进程与发展,一些陌生的名词逐渐熟悉起来,一些原本被认为是“骗子”的技术跟“狼来了”一样在多次被解读后,真实进入到生活场景中,语音模块的产业链条逐渐完备,从传感器公司、语音数据交易平台、到语音技术方案提供商、产品系统集成商、产品型公司等。
从行业种类来分,无论是TO B的语音应用(医疗、客服),还是TO C的语音应用(车载、家居、机器人)都会逐渐被细分化,我们期待2017年语音的市场教育和产品更加成熟。
-
智能家居
+关注
关注
1926文章
9492浏览量
183991 -
人工智能
+关注
关注
1791文章
46732浏览量
237252 -
智能语音
+关注
关注
10文章
778浏览量
48689
发布评论请先 登录
相关推荐
评论