科技讯11月16日消息,百度度秘事业部总经理景鲲在2017百度世界大会上宣布DuerOS2.0正式对业界开放。当天百度还发布了三款搭载DuerOS2.0的人工智能硬件产品,渡鸦raven H 、raven R及raven Q。
景鲲表示,作为人工智能时代的安卓,DuerOS已无处不在。人工智能时代,人机交互方式依旧在变革,AI操作系统需要不断学习和进化,DuerOS从1.0到2.0的全面升级,将会给用户和行业带来更好的“听清、听懂和满足”体验。
为了更好地唤醒万物,小度智能设备开放平台在技术能力、解决方案、平台体系三个方面进行了全面升级。
技术能力的升级,包括语音唤醒能力、语音识别能力、合成语音以及AI能力的升级。
解决方案的升级,包括更好的远场语音交互开发套件、更新的语音交互APP解决方案、更新的DuerOS for Apollo解决方案以及更新的跨场景跨设备解决方案;平台体系的升级,包括新增的物联网设备云、智能设备质量认证支持,平台体系更加丰富。
与此同时DuerOS不仅大幅提升了原生技能的丰富度与用户体验,还发布了小度技能开放平台。小度技能开放平台将面向内容类、智能家居类、生活服务类合作伙伴,开放百度的自然语言理解、知识图谱及系统意图等核心AI能力。目前DuerOS的技能生态已拥有超过200个技能。
百度人工智能交互设计院院长关岱松在现场宣布人工智能交互设计院正式成立,该设计院将以报告输出、产品测评等形式帮助帮助DuerOS的合作伙伴和全球AI产品在交互设计上不断提升优化。
同时“普罗米修斯计划”也正式启航,该计划包含开放超大规模对话式AI数据集、跨学科合作等,同时会通过一个100万美元的基金用以鼓励和培养对话式AI领域的优秀项目和人才。
会后,景鲲接受了媒体专访,他在专访中表示,目前大家在实际生活中对人机交互的感受还不多,但是人机交互是更自然的方式,百度非常有信心,我们需要给这个产业一点耐心。
在采访中,有媒体问到人工智能操作系统的难度。景鲲认为,百度是唯一一个有资源、也有技术储备、能够知道每个模块之间的挑战在哪里、怎么能够集成第三方的合作模块的,甚至在某些场景里面,只有百度这个模块做得好。景鲲认为作为操作系统,公司的基因也很重要。他认为百度是唯一一家真的有机会能够把这个事情做成的,而且从百度现在整个进展来看,还不错。(温泉)
以下为专访速记全文:
景鲲:大家好,我是景鲲,很多朋友都见了好几次,都很熟了,大家朋友圈都看到了我很多信息,我负责百度度秘DuerOS平台。
主持人:大家有什么问题可以提问。
提问:我是来自深圳关注智能硬件的一家媒体。当我们作为记者,其实用人机交互这种形式接受是比较快的,但是实际上有多少普通的老百姓有这样的方式,用机器对话?我们看的比较多的场景是车里面,家里面用音箱,还有其他的部分,包括我们那么多的设备发出去了,真正有多少人在用,这个交互形式是不是成熟?DuerOS在这方面有什么样的计划?
景鲲:我觉得任何一代新的交互出现的时候,从原来的键盘、鼠标,到后来的触摸屏,电阻屏,电容屏,这种交互变革不是一下子用户马上就转变了。如果看整个智能手机的普及,iPhone4在中国出现,才开始真正大规模的普及。这个时候,我们需要给这个产业一点耐心,首先这个语音交互在某些场景下是更便捷、更自然的。像你刚才说的,在车的场景或者是家的场景,有的时候在像耳机这种穿戴场景,甚至有时候在手机的场景,手机放在车里面,我觉得都是一种更自然的交互。所以我们需要给这个交互更多的信心。这种交互变革更需要百度这样的大平台去推动。因为这样的变革往往需要更多的资源和资本的力量。所以OS是放在时代前沿的位置,我们推着它往前走。说到如何让老百姓接受,我觉得整体的体验是很重要的。整个语音交互的体验,不止是语音交互的唤醒,是对整个产品的颜值、声音,整个一套端到端的体验。这些都是推动人接受语音交互这种产品体验往前走比较重要的因素。
我们内部在跟很多合作伙伴一起合作,所以我们能看到很多数据。我们看到的数据是很正向的,很多用户在接受这种新的智能设备之后,从原来的好奇、到后面每天在一些固定场景的使用,其实都能够养成一些习惯。这也是我们看到很多公司在不遗余力的推动这个方向背后,看到的一些信号。所以从我们的角度来讲,我觉得是非常有信心的,是很正面的,用户在接受这种新的交互。
提问:我来自搜狐科技。今天上午Robin讲到免关键词的这种自然语言交互方式,我以前也了解过其他厂商类似的方案,觉得这种产品用关键词的话,可能隐私性相对好一点。如果没有关键词的话,有可能要把平时说的话识别出来上传到云端,然后再传下来理解,隐私的问题怎么保护?另外一个问题就是,现在有些厂商他们也推出了全栈式的语音开放平台,DuerOS这边怎么看待这个事情?以后有没有相应的计划?
景鲲:我觉得这两个问题都问得特别好。第一个问题,隐私问题特别关键,可能很多媒体朋友都很关心。我稍微解释一下,Robin的那个演示,他有些细节,不知道大家有没有关注到。他是戴了一个耳机,我们在手机上的这种自然语言交互现在的前提是都需要戴着一个耳机,耳机是一个很私人的设备。另外他是用的手机百度的一个特殊模式,就是听新闻的模式。如果大家下载手机百度9.0,这个模式是要先打开新闻,然后APP会提示你,已开始听你说话。然后再提示你,戴上耳机更好。这个免唤醒词目前是这样的一种体验。并不是家里的一个设备,一直在听用户说话。
提问:或者类似于那种智能音箱。
景鲲:现在还没有用到智能音箱,因为智能音箱在家庭场景中的隐私、不同场景的隐私都是需要特别处理的。所以这种免关键词的设备,目前就是在手机App中配合耳机来使用,并不存在隐私方面的问题。在家庭隐私方面,其实大家都会有很多考虑。比如说现在业界普遍的做法是先唤醒它,再跟它说话,这个时候才会跟云端有直接交互。你不唤醒它,这个设备跟云端没有任何交互。这是关于隐私方面的问题。免关键词是Robin在限定的场景、限定的设备上实现的。
你提到的一些公司研发语音套件,我其实特别高兴,我跟他们是很好的朋友,在朋友圈里面有时候私下聊一聊。我觉得尤其在中国市场,甚至在国外市场也是一样,推动的人不能是一家,要是一个产业,大家一起做。刚才我讲到产、学、研,最好是产学研一起推,这个事情才走得快。所以我永远觉得,市场最健康的时候是大家都往前推的时候。所以我特别开心,有些其他公司,包括将来的合作伙伴大家都在一起推进,我觉得这对产业是一个特别好的事情。
提问:有没有相应的一些计划?咱们会不会也会出全栈式的设备?
景鲲:我刚才说的DuerOS,其中有一块是更好、更多的语音解决方案,所以我们就会有一个跟声智科技合作的全栈式开发套件。为什么会推出这个?我们都是基于合作伙伴反馈的。我们在开发者大会的时候推出的是一个单独的语音识别的套件,要搭配树莓派一起用。有些开发者说做成一体化得更好,所以我们今天下午也会宣布跟声智公司合作了,一体化的解决方案。
提问:我们知道,做一款语音交互的智能产品需要很多的技术板块,比如信号降噪、语音识别等等,需要很多技术合在一起。今天我们看到很多的技术是拿来主义,比如语音识别用A厂商的,还有用C厂商的。然而拼凑就会有问题,比如一个做信号降噪和一个做语音识别的公司对接,前者的技术目标可能是降噪,让耳朵听起来清晰,但是耳朵的机理和机器是不一样的,所以对后者而言,前者的信号处理是一个黑匣子。物联网的时代,做产品的复杂度不是一个量级的,上下游之间耦合的时候会存在巨大的摩擦力。而且有一个地方堵住了,全部就都堵住了。我也听到一种业界的声音,人工智能行业短时间很难出现真正的操作系统。因为完全不一样,没法标准化。所以有人说,在业界走的比较久的人,他们会自己提到端到端,他们很难是一套操作系统。所以我想作为操作系统的代表,DuerOS怎么看待这个事情?
景鲲:首先我觉得你这个问题问得很好。将来慢慢产业肯定都会走标准化,基本上任何产业都是一样的。比如说车这个产业,发展这么长时间了,你也会发现,特斯拉很多的元件也是从别人那里采购的,搭到一起,再经过端到端的打磨,并不是特斯拉每一个零件都是自己生产的,它的电池也不是自己生产的。所以我觉得,整个产业慢慢都会标准化,不同的人擅长打磨单独一个模块,把这个模块优化到最优,没有一个公司能够真正有资源,每一个模块都打造到最优,肯定是一个生态系统的合作,这是我对整个标准化未来的看法。
现在我们的渡鸦就是端到端整个的解决方案,为什么要做渡鸦?我觉得产品体验最重要,端到端可能对某些不同的模块把握得更好一些。渡鸦从设计到降噪,整个都是百度的。但是这个时候我觉得,人工智能对话式人机交互涉及到很多场景,有耳机、音箱、电视、车的场景,不可能一个公司全部的产品都是端到端的,这个资源太大了。所以这个时候,要能够把业界最好的科技公司的技术适当的融合在一起。这个时候,我觉得就是操作系统的机会。因为你不可能覆盖那么多的端到端,比如声智科技,他在整个语音麦克风阵列识别上做得很好,跟很多大公司合作。从技术角度来讲,我们可以找到比较清楚的边界,同时统一打磨用户体验的技术路径,并不是完全端到端才能实现的这种技术路线。在这个时候,你说是不是需要一个操作系统?我觉得是绝对需要的,要不然用户体验是不统一的。很多你看到的一些公司,小公司操作系统很难做,因为涉及到设备合作伙伴,不同的模块太多了。我觉得百度是唯一一个有资源、也有技术储备、能够知道每个模块之间的挑战在哪里、怎么能够集成第三方的合作模块的,甚至在某些场景里面,只有我们这个模块做得好。我觉得作为操作系统,这个公司的基因也很重要。我觉得百度是唯一一家真的有机会能够把这个事情做成的,而且从我们现在整个进展来看,还不错。
提问:早晨渡鸦登场的时间比Robin和陆奇加起来还要多,你觉得渡鸦这个产品的销量会怎么样?
景鲲:我听说今天下午他们官网快被挤爆了。从我的角度来讲我是很乐观的,我永远不会质疑中国人的购买力,你只要这个东西做得好,是可以打好某一个市场的。就像你这种很Fashion的,你要不买就不Fashion了,所以你回去得买一个,我觉得渡鸦有它的市常目前整体的智能硬件市场,说实话我觉得现在相比手机来讲不算那么大。这个市场跟手机差了几个量级,所以这个市场容量是巨大的。任何一个阶段都有这个市场容量,并不是他打到那个阶段,他的销量就会被别的销量挑战,很多还是卖得很好。所以我觉得它是有它的市场的。但是我并不是太关注它的销量,我们内部关注一个指标,叫“净推荐值”。就是这个设备你买了之后,你会不会向你第二个朋友推荐。这是很关键的指标,这个代表产品体验。只要这个值高,大家都觉得这个产品是一个好产品,我觉得这个目的就达到了。我们也不用给iPhone第一代一个很宏大的目标,但是它是人机交互的一个标杆,我们打出第一款产品来,这个目标就已经很好了。
提问:我是人民网的记者。我刚刚听到您在台上讲的,开发者大会之后,我们有更多的合作伙伴,我想请问一下这4个月当中有没有什么新的合作伙伴跟我们分享一下?屏幕上放了一些小米、美的等等,除了这些比较大的之外,如果有一些小的创业公司或者是个人开发者找过来,我们会采取怎样的合作方式?
景鲲:首先我们个人开发者很多,我们大概做了三场围绕开发者的线下活动。火爆程度都超乎了我们的预期,基本上200人的场来400人。所以我们看到,整个长尾的,个人开发者的热情是特别高的。所以我们的开发套件,最开始我们做整个软硬结合。7月5日我们发布的时候碰到了一个挑战,就是我们的库存不足,补了两个月才满足这个库存。一开始我们没有这么大的概念,但是这是一个信号,就是开发者的热情是特别高的。关于我们新的合作伙伴,大概在这个月和下个月可能就会宣布两个新的、很重量级的合作伙伴,这个我先不说,大家期待一下,是非常重要的合作伙伴。
今天下午因为你们先上来了,我们就有几个重量级的合作伙伴宣布了。比如今天下午我们宣布了跟飞利浦的合作。他们是国外最流行的智能家居灯泡设备。DuerOS是首家跟他们达成这方面战略合作的。今天下午我们跟招商银行信用卡也宣布了合作,招商银行是口碑很好的商业银行。如果大家下载它的App的话,可以发现它的信用卡服务已经做得很好了。我们的合作是第一家银行跟对话式人工智能接口的战略合作。等一会儿会发布很多跟其他新的厂商的战略合作。
提问:是哪个领域内比较排前的?
景鲲:我们把合作伙伴分几层,第一层我们希望是每个品类、每个垂类里面的佼佼者和行业领先者,他们有声量和势能,他们对行业的把握非常准。第二层我们也有一些中长尾的合作伙伴,他们是很有行业代表性的。这些公司也不需要很大,但是它的产品很有价值,大家会盯着它。可能量不大,但是它可能代表一个标杆,这样的合作伙伴是中长尾的。还有就是个人开发者和很多方案商,我们也有很多的合作,就不能一一枚举了,特别多。
提问:我想接着问一下合作伙伴方面的问题。虽然今天力推渡鸦的新产品,但是同时DuerOS也在大规模的和第三方应用厂商进行合作。你们作为后面的赋能者,对自家和对别家的硬件厂商是否有一些区别?
景鲲:没区别。从我的角度来讲,我们内部一直做的一个比喻是Surface和联想笔记本的比喻。为什么微软推Surface?只是猜测,是因为需要一款新的设备,软硬一体化的设备,去推动整个笔记本的变革,所以微软做了一个Surface。虽然目前量也不大,但是推动着整个笔记本持续往前走,是一款体验很好的设备。对于我们也是,渡鸦是一款标杆性的用户体验的设备。刚才说了,今天下午所有渡鸦背后的技术我们都会开放给我们的合作伙伴。在开发者大会上我们讲过,百度要做的是一个AI平台。百度目前AI平台对于我们的压力也很大,我们把平台做好,这是我们追求的,所以我们要变成一个AI平台的公司。
提问:刚刚您提到渡鸦背后的技术,我想问一下,目前渡鸦背后的技术相比于其他的智能硬件的厂商来说,最核心或者说最具竞争力的技术是什么?
景鲲:渡鸦除了产品本身的特性之外,跟DuerOS相关的技术包括,比如说渡鸦的麦克风阵列,它用了8个麦克风,上面盖子4个,下面底座4个。像这种新的麦克风阵列技术,基本上现在应该是业内首家尝试的。渡鸦设备上面的盖子拿下来之后,它是可以按住说话的,也就是它是近场的。所以说这是一个远场和近场融合的交互方式,这也是跟它的设备特性相关的。还有就是音乐的打磨,我们基本上把音乐升级之后,整个音乐标签做得更多了。做了7千多个应用标签,让用户在这种智能设备上,可以播任何一个标签的音乐。加上我们很多新的能力,刚才在下面说,我们有100多个第三方技能,这些技能都会先跟渡鸦设备做一个紧密的结合。所以我觉得,渡鸦的整个产品特性是软硬一体化的,是全面的融合。从设计到声音,到我们的技术能力,到后面的内容,整个包装成一个用户体验很好的产品。
提问:现在搭载DuerOS的所有硬件里面,您从后台数据来看,哪一类产品的人均交互比例是最高的?
景鲲:都挺高的。我要说哪个最高,其他的就不高兴了,其实都挺高的。
提问:刚才您也谈到咱们有很多的合作伙伴和硬件解决方案,我想知道,落地最多的场景是哪些?以及您看好哪些产品?
景鲲:我只能从我们自己的角度出发。现在市面上看到大的手机的合作厂商,背后很多语音交互的能力都是我们提供的。潜移默化的,DuerOS已经在很多手机背后了。在电视的场景,我们无论是跟传统的智能电视厂商、还是跟OTT有线盒子,还是广电系的盒子,基本上都有很好的合作。音箱上也有很多,刚才说的有一家DOSS音箱,它本来是出口的,搭载Alexa系统出口到国外的。但是它瞬间就搭载了DuerOS系统在国内销售,已经在亚马逊上开卖了。车载我们是跟Apollo紧密合作在一起的,所以基本上我们跟北汽、一汽都会合作搭载DuerOS系统的设备。再其他的就更加分散了,像可穿戴、耳机,就稍微分散一些。几个大的品类就是刚才说的那些。
提问:我想问一下,据7月份百度开发者大会已经过去几个月了,您认为整个智能语音市场在这个格局发生了哪些变化?包括从技术、玩家。
景鲲:首先我觉得过去的4个月是特别突飞猛进的4个月,我没想到这4个月变得这么热闹。我们从7月5日发布这个平台之后,这4个月的过程当中,基本上中国数得上的公司都已经推出了类似的东西。所以这4个月的发展我觉得很好,从我的角度,我觉得特别高兴。我们作为驱动,有很多不同的人、不同的公司都加入到这个过程当中去推动这种变革。
我个人觉得,人机交互真正的变革时间会比较长,光这4个月还不够,可能要以年来计。现在大家都在起步阶段,所有的公司可能都在起步阶段,很多公司都在加入这个行业。所以我希望整个行业都能保持这种热情,把这种人机交互再持续往前推,推到每个家庭,就觉得它是一个必需品。
提问:我们都知道百度的目标合作群体有很多,大到企业,小到个人开发者。企业就不说了,对于个人开发者来说,百度能提供一个什么样的帮助和支持?让他们能够更好的开发?而且我们之前喜欢把这种关系形同为与iOS、Android对于App开发者的关系是一样的。在实施的过程中,怎么样能够保证安全性和可操作性?
景鲲:安全性是指的隐私安全吗?
提问:个人开发者肯定要用到用户的一些隐私。作为百度来说,怎么能保证这个安全性?
景鲲:首先我说一下为什么我们要发展个人开发者?我们真正要推动一个产业,需要从产业头部厂商、中小厂商和个人开发者共同推动。尤其我们看到一个信号:个人开发者虽然不具备很多渠道,但是它的创意是无限的,是特别有创意的,基本上可以把他的能力放在不同的设备上。前一段时间有一个开发者把语音对话的模块放到了燕舞的收音机上,让那个设备重新焕发了青春。燕舞公司直接找到百度,原来燕舞的群体是今天消费能力最强的群体,DuerOS让他们的公司有了更多的活力。所以个人开发者对于我们的生态来讲能贡献很多想象力,是一个源泉,很有意义。说到隐私,我觉得倒不太存在,因为个人开发者往往开发的个人设备都是自己使用的,他没有很强的渠道推广能力,不能推广到很多人,他都是自己使用的。
提问:百度能给这样的个人开发者提供什么样的支持和帮助?
景鲲:比如今天下午跟声智做的一体化开发套件,相当于它将为个人开发者提供一个软硬一体化的方案。我们今天下午还会发布我们的技能平台,开发者可以在云端打造自己的技能,在云端把资源、能力、技能跟下面的搭载在一起,就成为他自己端到端的一个解决方案,自己可以玩,可以用,很好。
提问:我们经常做语音交互的时候,会按一下,Hi,Siri,或者是Hi,小度,或者说小度小度,有一个唤醒词。我今天早上听到在介绍的时候,在月末的时候不需要这种唤醒词,请问这个技术是怎么样实现的?
景鲲:这个跟刚才的那个问题是一样的,这种技术只是在手机百度这个场景里面,在听新闻的模式,是免唤醒词的。需要进入一个特定的语音交互的模式,其他的模式里面还没有应用到。
提问:我来自36Kr,咱们DuerOS一直强调要做人工智能时代的Android。从生态系统层面来看,您认为哪些环节是比较关键的?
景鲲:我觉得现在最重要的环节是用户体验。尤其是当我们的合作伙伴变多之后,是不是能保证每个设备都能有一个比较好的一致性的用户体验?这个对于我们来讲是比较关键的。因为这种时候,最好能达到这样的效果:就是能让用户在不同的场景里面,使用任意一款搭载DuerOS的设备以后,在那个场景里面都是喜欢这个DuerOS赋能的设备的,并且习惯一直用这个设备。所以我认为现在最重要的就是整个用户体验,你是不是真正买一个音箱回去能持续用?你说的话它能懂?打开包装,有一个从来没用过智能音箱的人说这是什么?你说这是一个智能音箱,一句话就能清楚,一句话就能跟这个设备交互,我觉得这种体验是现在生态系统的核心,我们生态系统必须要靠比较好的体验才能往前推。
提问:刚刚他们都说到我们之后要推一个没有唤醒词的设备,我很好奇,我们在开发者大会的时候收购了一个做唤醒词的小的团队,我想知道他们在这4个月当中是承担着一个什么样的角色?为什么我们收购了这样一个做唤醒词的小的团队,现在我们又推出无唤醒词这样一项技术?
景鲲:它只是在手机百度App这个环境里面,朗读模式免唤醒词。不是在家庭环境中的那种智能设备的唤醒词,那是做不到的,而且也存在一些隐私问题。所以只是限定场景,限定在App里面的人机交互。在家居的智能交互里面,唤醒词是必不可少的,因为有一定隐私的保护性,先唤醒它之后再跟它说话,没唤醒之前,他不跟人做任何的交互。我们收购的公司叫KITT.AI,是做智能家居领域智能交互的唤醒词的。我们很多合作伙伴都想做自己的唤醒词,包括DuerOS赋能的音箱、冰箱、电视,他们都需要在设备上为唤醒做优化。他们往往需要针对设备优化。因为麦克风的距离不一样,麦克风的个数不一样,所以需要对于这些设备进行特别的调优才能真正保证好的用户体验。通过KITT.AI,我们已经把这种技术推给我们的合作伙伴,搭载在他们的麦克风里面,使得效果更好。
提问:我们这次推出的智能硬件是搭载DuerOS系统的,和之前搭载这个系统推出的其他产品有什么能力上的差别?
景鲲:它是首先搭载DuerOS 2.0的。DuerOS 2.0实现了各方面的能力升级,其他的设备基本上都会被升级到DuerOS 2.0上。渡鸦相当于DuerOS 2.0的第一个标杆,我们后续会把DuerOS 2.0开放给我们的合作伙伴。
提问:我来自机器之心。DuerOS这个名字里面,我觉得OS应该是重点,现在各个语音厂商也都是有自己的平台,模式其实看来是大同小异的。我想知道一下,DuerOS在一些商业模式、内容模式和本身技术的模式方面和其他家的差异化在哪里?对于OS这两个字母,我感觉定义的是有一点模糊。如果搭载在一个智能音箱里面,我们跟它对话交互,它就算是一个OS。其他家的这种系统也是搭载在音箱里面能交互,为什么Duer就能叫OS?
景鲲:首先你提到商业技术能力,商业化目前不是我们的目标。我觉得在关键时候,先把用户体验做对了,这是最重要的。如果用户体验没做对,商业都白扯,可能还到不了那一步,所以用户体验最重要。对话式AI大家都在做,大家都看好这个方向。7月5日我也在说,科技版图上四家最大的公司都在做对话式AI。每家公司在做的时候,基本上都会沿用之前这个公司比较擅长的。它就自然变成了这个产品最大的特色,基本上可以这样看。每家的DNA不一样,每家做了这个平台之后,感觉也是完全不一样的。DuerOS是把百度最强的能力发挥出来的一个平台,所以百度跟其他平台有什么不一样、DuerOS就有什么不一样。比如有的友商语音识别做得很多,只是语音转文字的。百度以前最大的市场是百度搜索的生态系统,百度对语言的理解是百度最大的不一样。所以百度最大的不一样放到DuerOS上,这就是DuerOS最大的不一样。相当于DuerOS对语言的交互,对语言理解之后,还可以把更多的内容和资源,以及开发者,原来我们的开发者是网站开发者,后来是App开发者,把这些都聚到一起。所以DuerOS就变成了一个窗口,去访问原来百度后面生态平台的很多资源。所以DuerOS就是百度AI能力和资源集大成者的一个缩影,是对话式人工智能的一个缩影,所以它最大不一样就是百度的势能跟其他的公司不一样。如果你这样去评估别人的平台,也能得到一样的结果,就是每个平台背后都有他整个公司的缩影,这就是这个平台最大的不一样。
对于OS明确的定义,其实最开始是我提出来叫OS的。我对OS更多的看法是它是一个生态,一个操作系统。操作系统背后是一个生态,是一个平台,不仅仅就是音箱的一款产品。这取决于业务的发展思路,是做一款东西,还是想做成一个生态,把大家在这个平台上一起推动发展。我觉得DuerOS代表了我们的愿景,OS就应该是一个生态。我稍微引申一下,一个OS最核心的关键点,不是它叫不叫OS,是它是不是有自己的生态。如果他没有自己的生态,它就不是OS。移动时代有很多OS,有很多OS叫OS,但是后来你发现,它都没有自己的生态。有自己的生态的全都可以称为OS,Android有自己的生态,可以称为OS,Windows有自己的生态是OS,如果你是附着在这些平台上的就不能叫OS,因为你没有自己的平台。所以我们DuerOS也是希望在语音交互这种新的模式下,我们能够创建自己的生态。这个生态是基于新交互的生态,这是我们为什么命名成OS的原因,就是它是一个开放赋能的平台生态。
提问:今天最开始在宣传片里面,大家说现在这个技术是基于Android或者是Linux的,是我看错了吗?
景鲲:你可以这样想,原来那些系统都是上一代的,是一个底层的系统,并不是那么关心交互的。DuerOS其实是以用户交互为驱动的一个操作系统。移动时代跟原来的PC有很多不一样,AI技术跟原来的不一样,AI的设备也很多样。这种多样的情况下,DuerOS要做的就是通过语音交互,把用户统一在一起。虽然设备很不一样,但是都用一个交互统一在一起。这是DuerOS要绑定的关系。其他的OS我把它看成是我们原来的系统适配层,适配到原来传统的OS。但是DuerOS是一个语音交互的平台,更上层一些。
提问:刚刚说到开发者,类似于DuerOS上面有100个Skills这种概念,这些Skills是开发者贡献来的还是你们自己?
景鲲:我们有自己100个原生的。现在有很多开发者,作为我们前期的尝鲜者,他们在我们的平台上搭建了100多个第三方的Skills。
提问:原生的是100个,还有100个开发者的?
景鲲:对,第三方的。
提问:我来自界面。跟厂商合作的时候,您了解到他们会比较看重哪些指标?因为我发现有些厂商后来更换了百度的系统,不知道有没有什么具体的一些策略?要做一个设备的Android系统,现在已经到哪一步了,您觉得还差什么?
景鲲:设备厂商现在最关注听懂和满足,如果用原来的核心三要素:听清、听懂和满足,现在设备厂商最关心听懂和满足。很多智能音箱可能觉得有点傻,交互不是那么自然,问它东西它不懂。所以现在这一块是我们的合作伙伴最关心的。其实这一块是老百姓最关心的。老百姓不关心你这三个模块,老百姓最关心我随便问你一句话,你真正能懂我,给我一个东西。所以听懂和满足,是所有合作厂商现在最关心的。
提问:都是技术层面是吗?
景鲲:满足有点像资源丰富度的层面,听懂是技术层面,就是有大家Query能听懂。我们最近做的渡鸦设备,它在听懂层面上是远远超过其他竞品的,所以我们把它定位为标杆设备,或者是智能硬件设备。我觉得发展到现在,我们需要探索如何做一个最好的产品体验。现在大家都有点Follow美国Echo的路线,就是他们怎么做我们怎么做。我觉得我们要做世界级的DuerOS。人机交互在美国也是很初期的,尤其在中国的场景里面,中国的家庭环境比较小,美国是大房子,中国是小房子,我们都是一居室、两居室、三居室的房间,什么样的交互是好的交互,多快的交互是好的交互?这些需要很多的探索。今天下午发布的百度人工智能交互设计院会在12月份发布行业里面第一个很有价值的报告,就是智能音箱的交互多快是快,多快是好。像这些东西,大家如果不关注用户体验,都不会看到这种细节,就会觉得现在Echo这个就是好,之前从媒体上我们都没看到你们写过智能音箱多快是好。
提问:1.5秒?
景鲲:我们现在基本上是1.25秒到1.4秒。现在讲的极致的最好的是650毫秒。如果再快,在现在来讲,用户会觉得虽然你很智能,但有点抢话。就像这样一个小问题,原来我们做搜索引擎的时候觉得越快越好,但是在这种新的人机交互上来讲,你会发现有很多原来的认知都会有变化。所以我觉得在细节上,已经做了很多了。比如现在的智能音箱,你叫它一声,现在有的不出声,亮一个灯,有的音箱是你叫它一声、它“叮”响一声,有的音箱你叫它一声,它回复“唉”,用人声回复。我们发现,你在不同的时间点按,用不同的交互都是好的。1.4秒以后用人声会好一点,人会觉得慢一点,人反馈会好一点。1.4秒以内用人声回复,就会增强那种抢话的感觉,这个时候用“叮”一声更合适。这个声音跟人声是不一样的,可能不用人声回答。再往前,Alexa就是指示灯,没有声音,不同的时间用不同的交互。我们在这个方面花了很多的时间,探索怎么能够让产品体验最好。回答你刚才的问题,还是把用户体验做对。把每个设备在每个场景里面的用户体验做对,现在是最重要的。
主持人:谢谢各位媒体朋友,如果有什么问题的话可以随时再联系,感谢大家!
评论
查看更多