电子发烧友网>新科技>智能硬件> > 正文

CES中Google把语音助手搞砸 将不大可能超过Amazon Alexa

电子工程师来源:36Kr 2017年01月11日 12:17 次阅读

从 CES(国际消费类电子产品展览会 International Consumer Electronics Show)的进展来看,Google 现在确实在把语音互动这件事搞砸,而越来越变成一家很能折腾但不太能干好事的公司。Google 在公有云上不太可能超过 Amazon 了,自动驾驶折腾了好多年但看起来失败的可能性非常大,而在语音互动上 Google 很可能会再一次败给 Amazon。

语音助手上的大 PK

今年 CES 上最有意思的事情是语音互动型产品泛滥,从英伟达到联想,各大巨头对此达成了共识,纷纷杀入。这里面比较核心的两家分别是 Amazon 和 Google,前者的代表产品是 Echo 和内建的语音助手 Alexa,后者则是 Google Home 和内建的语音助手 Google Assistant。

正常来讲不管从那个角度来看都是 Google 有足够的优势,有技术、有资源、有积累,但具体看下来 Google 实际上落后甚远,甚至可能难以挽回。

要想看懂语音互动这方向的走势,那么需要深度理解与之相关的产品和技术的本质特征。

Echo 这类产品的核心特征是多层技术高度融合(声学、语音辨识、语义、搜索、内容)。其中声学是软硬件的分割点,向下关联产品 ID 以及内部架构,向上影响语音辨识。而语义之后的部分则是纯软件与内容。

对于 Amazon 和 Google 这样的公司,它们先天把自己定义为做生态和平台的公司,所以其核心一定不是 Echo 这个硬件产品本身,而是背后的语音助手比如 Alexa,因为只有 Alexa 才代表新的生态。

Alexa 这种语音助手很多人觉得是像 Android 一样的操作系统,但实际上看成是一个操作系统+超级 App 更为合适。

要把 Alexa 这样的语音助手装载到各种硬件里事实上有两种途径:

一种是纯软性方式。我就把语音助手做好,不管谁要用装进去就可以了。这种型态下在技术层次上最多需要下探到语音辨识,核心则是语义和对话。这型态最明显的参照是搜索引擎。

另一种则是软硬融合的方式。我做一个标竿型的硬件产品,然后再把硬件产品中的助手开放出去。这型态最明显的参照是 Android 这样的操作系统。

纯互联网公司会倾向第一种方式,因为这种型态最轻,而后一种型态要组织生产和销售,还要下探到声学这样的层次,无疑重很多。

但型态一的核心问题有两个:

语音互动很难在现有平台上启动(手机、平板、电脑),而直接把近场的语音互动迁移到远场效果会很差,谁来解决落地过程中各种坑坑洼洼的问题?

不知道硬件上的需求,如何设计出与各种硬件适配的 API,如何知道怎么提供对硬件厂商最便利的方案?把这种苦累活完全下放给各个硬件厂商自己摸索吗?

Google 开放 ASR 和 NLP 的 API 其实已经许久了,但从 CES 的结果来看,显然 Alexa 这种系统整合型的方案更受欢迎,它既解决了与下层硬件的适配问题,也解决了后端内容整合问题。

提高一层来看整件事情,我们可以讲做语音助手这事,事实上有几个关键控制点:

做标竿型的硬件产品,但不与已有用户习惯对立。直接讲就是新品类必须避开手机和 PAD,否则一定会被覆写掉。

丰富后端内容,对于语音助手而言,硬件、音乐甚至打电话都是内容。内容需要从头部开始逐渐填补长尾内容。引申就是要把 Alexa 和 Echo 这个产品分割开来,让它后面的东西尽可能多。

树立技术优势,在这里技术既包含深度学习这样的纯演算法也包含声学等与物理紧密相连的网域。当内容没多到一定程度时,前端技术(声学和语音辨识)要比语义重要。因为它们更影响速度和精度。

亚马逊做对了什么?

在上一节提到的几个点上亚马逊几乎每个都做对了。

第一亚马逊没回避硬件的烦难,花了 4、5 年打造了 Echo,这样一来亚马逊就掌握了一个很难被超越的制高点。

这看着很诡异,但事实就会这样,否则的话 Google 直接把 Google Assistant 开放出来就行了,根本不需要自己打造什么 Google Home。但实际上硬件和背后 Assistant 的耦合程度远高于搜索和浏览器,搜索和浏览器的耦合程度事实上是便利不便利,但 Alexa 和前端硬件的耦合程度则牵涉好不好用的问题。而 Google 则是迫于 Echo 的压力才开始做 Google Home。

第二亚马逊在 Echo 获得初步成功后迅速开始分离 Echo 和 Alexa,具体动作就包括完整 SDK(ASK&AVS)的档案和案例,成立 Alexa Fund,积极搜索战略合作伙伴等。最终结果之一就是所谓的 7,000 项技能。7,000 项技能是非常可怕的事,完全足以覆写技术和某些内容上的劣势。这就好比淘宝上商家数一旦超过某个临界值,QQ 流量再大也搞不定了。

那现在 Google 有几个第三方伙伴呢?1 个。而且 Google 似乎还在神游,它做为后来者本应该上来就把这一家族的东西都做了,这样才体现后发优势,但它并没有。

第三是用可靠的方案打造更优异的体验。可靠的方案是说前端至少要和亚马逊持平,后端再体现语义和内容连线上的优势,这样就可以在整体上反超。但 Google Home 很有意思的选了只装两支麦克风的方案,直接导致互动效果很差。这实在是大昏招,从便宜的角度解释是合理的,但你在做的是个标竿型产品,便宜与否真的那么关键吗?

这意味着什么?

这意味着 Google 可能很难追上 Amazon 了。

Google 和 Amazon 相比,无疑在技术层面会有优势,但是如果对技术进行分解,我们会发现实际上 Google 真正可能具优势只有 NLP 和搜索部分。这就非常可怕,因为 NLP 部分不存在质的差异,你并无法在这个点上单凭演算法明显拉开体验,且内容没多到一定程度的时候,搜索的优势根本体现不出来。一旦技术突破,亚马逊在这部分就会累积足够的资料。请注意这里的资料是完全和场景符合的资料,而不是符合度低的网页公开资料,其中还包含了用户的各种偏好。

这时候没人会扮演陪练 Google 的角色,一起从头玩一遍。

在过去漫长的时间里,Google 这个公司有点被神话了,让人潜意识觉得它无所不能,但 Google 实在不是一个做产品的公司,我们也许可以把它定义为做演算法的公司或对演算法痴迷的公司。如果 Google 真的在语音互动这事上玩大了,那核心原因很可能就在这里。

做演算法的时候技术是第一角度,但做产品的时候体验是第一角度,你无法掉过来玩:我这项技术很厉害,所以我要把它放进产品里,用户要为此买单;是要反过来思考,比如延迟、回应率和对答准确率在这类产品上影响用户体验,所以我要在现有技术上把这体验做到极致。

从表现出来的行为来看,Google 正好属于前一种。

上面说到的只装两支麦克风方案来达到 Google Home,从这个角度来解释也是合理的。比如说如果想在云端用深度学习等处理前端讯号问题,并坚信能做好,那这么选取前端方案就完全没问题,后端持续改善演算法就行了。

但这样一来产品体验上打折扣就非常厉害。如果 Google 是第一个发布这种产品,可用时间很多,那也问题不大,关键它不是,它需要这样一款产品来和亚马逊的 Echo 竞争,这就可怕了。你是后发,哪怕做到一样的水准也没啥优势,何况你还差一截。挑战新技术这事在工程师思惟下是合理的,但在产品思惟下就错得离谱。

这类的问题点还有很多,比如你唤醒词叫什么不好非叫“OK Google”,做智能助理显然 Alexa 更适合这种拟人一点的情景。

Google Home 出来后本应该使劲推广 Google Assistant 到各大厂商,而不是躺在既有的优势上睡大觉(Google 在技术、不同设备关联、内容上是有优势的,毕竟它有 YouTube 等),但从 CES 上来看,Google 并没有忙着做这事,至少到现在为止我们还看不到 Google 版的 Alexa Service Kit 和 Alexa Voice Service。

这样看来 Google 和亚马逊之间差了至少一年的差异。对打造产品的用户来讲选择哪家甚至是个不用考虑的问题,一边是有开放 API 很多第三方用户,一边是没有开放 API 只有一个第三方用户。换你也会这么选吧!(把软硬打通,API 封装到这个程度还是很费劲的,如果你不信,看看这里的文件吧。)

小结

Google 的业务最依赖云端,但事实上在云服务败于亚马逊,Google 自动驾驶启动最早,但看趋势似乎会起个大早赶晚集;Google 人工智能投入最多,但从现在的进展来看,很可能会再次败给亚马逊。

如果说前两次失败不动摇根本,那这次很不一样,因为在 AI 这里互动即是搜索,它其实输不起,输了就会变成另一个微软。

下载发烧友APP

打造属于您的人脉电子圈

关注电子发烧友微信

有趣有料的资讯及技术干货

关注发烧友课堂

锁定最新课程活动及技术直播

电子发烧友观察

一线报道 · 深度观察 · 最新资讯
收藏 人收藏
分享:

评论

相关推荐

ChromeOS就是Linux

尽管大多数 Linux 发行版都带有默认的桌面环境,用户可以从许多其他环境中进行安装和选择。但在 C....
发表于 2023-10-13 17:41 805次阅读
ChromeOS就是Linux

传音控股位列“2023中国企业科创力排行”智能消...

作为科技出海企业,传音始终将技术创新作为公司核心战略之一,创立以来保持对技术研发的较高金额的投入。2....
发表于 2023-10-11 16:51 237次阅读
传音控股位列“2023中国企业科创力排行”智能消...

未来人机交互趋势:多模态大模型

在实践中,主做视觉算法的公司和主做语音算法的公司在做方案的时候各自有侧重点,不一定能完全根据主机厂的....
发表于 2023-09-28 09:45 907次阅读
未来人机交互趋势:多模态大模型

WebP图像编解码库libwebp存在堆缓冲区溢...

WebP图像编解码库libwebp存在堆缓冲区溢出漏洞(CVE-2023-4863),攻击者可以通过....
发表于 2023-09-25 09:48 2234次阅读
WebP图像编解码库libwebp存在堆缓冲区溢...

Google系列Android手机使用adb命令...

手机通过USB线连接上电脑,如果电脑没有安装adb驱动,此时可以安装"驱动人生"或"驱动精灵",然后....
发表于 2023-09-21 09:32 543次阅读
Google系列Android手机使用adb命令...

Google推出基于AmpereOne处理器的C...

2023 年 8 月 29 日,在 Google Cloud NEXT’23 大会上,Google ....
发表于 2023-08-31 15:37 200次阅读
Google推出基于AmpereOne处理器的C...

三星s8人工智能怎么用

同时,通过与三星自家特有的技术融合,用于实现语音控制的人工智能——Bixby,实现了无缝的操作。将手....
发表于 2023-08-14 15:13 285次阅读
三星s8人工智能怎么用

三星人工智能叫什么

Bixby的设计理念是“全面可控性”,这意味着它可以更好地理解用户的意图和需求。与其他语音助手不同的....
发表于 2023-08-13 10:46 1135次阅读
三星人工智能叫什么

Mozilla检测到Firefox出现了大量崩溃...

这些崩溃事件发生的十分突然,一开始 Mozilla 检测到数以千计使用一个名为 Huayra 的 D....
发表于 2023-08-07 16:33 378次阅读
Mozilla检测到Firefox出现了大量崩溃...

未来人机交互的结构与功能是什么

在人机交互中,交互的结构确实对于人机功能的分配起着重要的决定性作用,具体包括信息流向、控制权分配和决....
发表于 2023-08-05 10:29 224次阅读
未来人机交互的结构与功能是什么

大模型在智能座舱中的应用

在智能座舱中,图像识别技术也是非常重要的一部分。通过图像识别技术,智能座舱可以实现对车辆外部图像的识....
发表于 2023-07-15 16:45 615次阅读
大模型在智能座舱中的应用

如何部署ML模型到Google云平台

实践中的机器学习:在 Google 云平台上部署 ML 模型
发表于 2023-07-05 16:30 155次阅读
如何部署ML模型到Google云平台

常见的音频处理技术有哪些 音频处理技术的应用领域

音频处理技术在手机通话、视频会议、语音助手等通信和语音识别领域发挥着重要作用,提供清晰的声音传输和准....
发表于 2023-06-21 14:35 1484次阅读
常见的音频处理技术有哪些 音频处理技术的应用领域

Google: 时尚与人工智能相遇

在一个例子中,试穿结果似乎比原来的衣服颜色更亮。该团队对这些类型的示例进行了数天的审议,但最终决定在....
发表于 2023-06-20 15:48 118次阅读
Google: 时尚与人工智能相遇

用于实时机器学习的流式传输优先基础架构

实时机器学习是指通过向机器学习模型提供实际数据来不断改进机器学习模型。数据分析师/科学家或开发人员使....
发表于 2023-06-15 09:41 111次阅读
用于实时机器学习的流式传输优先基础架构

谷歌DeepMind用AI改进数据排序

  人工智能研究所谷歌Google DeepMind推出了三种ai工具AlphaZero、MuZer....
发表于 2023-06-09 10:30 492次阅读
谷歌DeepMind用AI改进数据排序

Chrome将引入无边界模式

当为已安装的桌面 Web 应用程序启用无边界模式之后,Web 应用的整个窗口会扩展到覆盖整个浏览器 ....
发表于 2023-06-05 16:04 169次阅读
Chrome将引入无边界模式

将数据发送到Google表格时出错怎么解决?

我已经按照教程将数据从 NodeMcu 加载到 Google 表格 Google 表格并且脚本编辑器工作正常 NodeMcu 代码抛出错误...
发表于 2023-06-05 10:08 48次阅读
将数据发送到Google表格时出错怎么解决?

esp01的asyncHttps请求?

我有一个带有传感器和谷歌表格文档的设置,用于记录我家中的照明数据。据我所知 google sheets api 需要,所以我使用 ...
发表于 2023-06-05 09:29 242次阅读
esp01的asyncHttps请求?

Google发布PaLM 2,ChatGPT将全...

Workspace 全部加 Duet AI,能检索 Google 全家桶个人数据,可以通过表格产生投....
发表于 2023-05-31 15:31 643次阅读
Google发布PaLM 2,ChatGPT将全...

Google GPipe为代表的流水线并行范式

但在实际应用中,流水线并行并不特别流行,主要原因是模型能否均匀切割,影响了整体计算效率,这就需要算法....
发表于 2023-05-26 14:40 331次阅读
Google GPipe为代表的流水线并行范式

Google I/O 2023: 让AI更好地助...

现在,我们正在将同样的技术扩展到 Maps 最擅长的领域:帮助用户到达目的地。Google Maps....
发表于 2023-05-11 16:25 601次阅读
Google I/O 2023: 让AI更好地助...

Google Drive推荐的图像尺寸是多少?

发布图片时我看到的都是;未登录时,是一个小图标,图标旁边带有“图像”。 尝试过使用 Google Drive 托管图片;登录...
发表于 2023-05-11 08:11 47次阅读
Google Drive推荐的图像尺寸是多少?

send() 在命令行中工作但不在Lua文件中工作?

我是 nodeMCU 的初学者,正在尝试执行一个简单的 GET 请求。看看我的代码: 代码:wifi.setmode(wifi.STATI...
发表于 2023-05-09 13:24 43次阅读
send() 在命令行中工作但不在Lua文件中工作?

大敌当前,Google Brain与DeepMi...

Google 旗下的 Brain 团队和 DeepMind 都是各自研究各自的 AI,基本没有什么紧....
发表于 2023-04-27 14:56 451次阅读
大敌当前,Google Brain与DeepMi...

关于SRC漏洞挖掘经验及工具分享

Fofa支持与谷歌黑客语法类似的搜索语法,在网页内可以查询检索语句的使用方法,这里就不做过多的介绍。
发表于 2023-04-24 11:30 3018次阅读
关于SRC漏洞挖掘经验及工具分享

使用Google Colab快速体验Scaled...

由于csp和large(p5)在模型定义的格式略有不同,前者为cfg,后者是采yaml,权重值亦有不....
发表于 2023-04-14 10:06 638次阅读
使用Google Colab快速体验Scaled...

行业资讯|Oledcomm在CES 2023上宣...

全球领先的LiFi技术供应商Oledcomm在2023年的国际消费电子展(CES)上宣布推出其最新的....
发表于 2023-03-16 16:51 224次阅读
行业资讯|Oledcomm在CES 2023上宣...

Google删除Chrome清理工具

在 2015 年,Google 为了防止恶意软件篡改 Chrome 浏览器,影响用户正常上网、修改搜....
发表于 2023-03-15 16:53 190次阅读
Google删除Chrome清理工具

行业资讯 |Oledcomm在CES 2023上...

Oledcomm在CES 2023上宣布推出其最新系统LiFiMAX2G
发表于 2023-03-03 13:44 251次阅读
行业资讯 |Oledcomm在CES 2023上...

机器学习如何影响计算机硬件设计2

为什么芯片设计需要很长时间?能不能加速芯片设计周期?能否在几天或几周之内完成芯片的设计?这是一个非常....
发表于 2023-02-20 14:16 725次阅读
机器学习如何影响计算机硬件设计2

机器学习如何影响计算机硬件设计1

为什么芯片设计需要很长时间?能不能加速芯片设计周期?能否在几天或几周之内完成芯片的设计?这是一个非常....
发表于 2023-02-20 14:16 687次阅读
机器学习如何影响计算机硬件设计1

Google计划用Jetpack Compose...

上周,Google 发布了 Android 14 的首个开发者预览版,除了那些最新的功能以外,Goo....
发表于 2023-02-18 11:16 1125次阅读
Google计划用Jetpack Compose...

ChatGPT对智能家居行业有何影响

 ChatGPT的应用,也让人们对依赖语音助手操控的智能家居行业带来新的畅想。
发表于 2023-02-14 15:46 1745次阅读
ChatGPT对智能家居行业有何影响

Google开放硬件:振动触控平台(VHP)技术...

当前手机/手表/手环等电子产品基本都有振动功能,振动是透过驱动小型马达(或其他类型的发振装置)来实现....
发表于 2023-02-09 17:17 571次阅读
Google开放硬件:振动触控平台(VHP)技术...

CES 2023看点 Bianchi借助Ansy...

Ansys于CES 2023展会上展示Bianchi E-Omnia高性能电动自行车 主要亮点 An....
发表于 2023-01-16 14:33 318次阅读
CES 2023看点 Bianchi借助Ansy...

Google在Chromium项目中支持使用Ru...

Rust 1.66.1 发布 Rust 1.66.1 修复了 Cargo 在使用 SSH 克隆依赖项....
发表于 2023-01-16 10:52 957次阅读
Google在Chromium项目中支持使用Ru...

Google为Chromium引入Rust?

Rust 拥有出色的文档、友好的编译器和清晰的错误提示信息, 还集成了一流的工具——包管理器和构建工....
发表于 2023-01-16 09:30 255次阅读
Google为Chromium引入Rust?

打响5G第一站,芯讯通惊艳亮相美国CES展

全球最大的消费电子展会之一CES刚刚在美国拉斯维加斯落下帷幕,作为国际消费电子业态“风向标”,这场开....
发表于 2023-01-14 11:08 2413次阅读
打响5G第一站,芯讯通惊艳亮相美国CES展

中国技术闪耀CES,海信电视斩获15项权威大奖

作为2023年开年科技大展的国际消费电子展(CES 2023)落下帷幕。CES上海信发布的ULED ....
发表于 2023-01-13 16:43 141次阅读
中国技术闪耀CES,海信电视斩获15项权威大奖

2023 CES看点 耐能再获IEEE CTSo...

1月6号,耐能创始人兼CEO刘峻诚博士在刚刚结束的2023 年CES 国际消费电子展上荣获IEEE ....
发表于 2023-01-13 10:40 1367次阅读
2023 CES看点 耐能再获IEEE CTSo...

CES 2023看点 华硕Zenbook搭载首款...

高集成、轻薄化、小型化已成为电子终端产品长期发展的不二趋势。华硕在CES 2023上发布的新一代Ze....
发表于 2023-01-12 16:54 2198次阅读
CES 2023看点 华硕Zenbook搭载首款...

CES 2023展会在美举行,江波龙与业内人士分...

美国当地时间1月5日至8日 ,万众瞩目的国际消费类电子产品展览会(CES2023)在美国内华达州拉斯....
发表于 2023-01-12 11:01 934次阅读
CES 2023展会在美举行,江波龙与业内人士分...

2023 CES新品快报 三星推玄龙骑士显示器系...

  三星57英寸曲面显示器玄龙骑士Neo G9搭载双UHD,持续突破三星显示器创新边界 近日,三星宣....
发表于 2023-01-11 14:42 442次阅读
2023 CES新品快报 三星推玄龙骑士显示器系...

二极管(ESD)代换,东沃电子,免费匹配

关于品牌PROTEK,对于新老电子工程师而言,并不陌生,PROTEK在TVS瞬态抑制二极管阵列(ES....
发表于 2022-02-23 16:44 386次阅读
二极管(ESD)代换,东沃电子,免费匹配

什么是WebRTC

什么是WebRTC?WebRTC,即Web Real-Time Communication(网页即时通信)。它是一个开源项目,旨在创建简单...
发表于 2021-12-09 07:59 1888次阅读
什么是WebRTC

资料下载:Google Inc 高级管理层

Google 创建于 1998 年 9 月,创始人为现任产品总裁 Larry Page 和技术总裁 Sergey Brin。其后公司规模一直不断扩...
发表于 2021-07-02 08:06 2237次阅读
资料下载:Google Inc 高级管理层

从CES一窥今年科技领域的热门发展方向

细数在CES Unveiled上都有哪些好玩的黑科技?...
发表于 2021-06-16 09:25 1021次阅读
从CES一窥今年科技领域的热门发展方向

怎么实现一种基于Google Map Api的Android导航应用?

本文提出并实现了一种基于Google Map Api 的Android 导航应用,能够给用户提供人性化和智能化的地图导航服务。...
发表于 2021-05-25 06:43 2148次阅读
怎么实现一种基于Google Map Api的Android导航应用?

TensorFlow的特点和基本的操作方式

Tensorflow是Google开源的深度学习框架,来自于Google Brain研究项目,在Google第一代分布式机器学习框架DistB...
发表于 2020-11-23 09:56 2181次阅读
TensorFlow的特点和基本的操作方式

开源资料自制迷你语音助手-Pico(原理图+源代码+设计文档)

设计制作一个可以从硬件开始定制的语音助手,且需要在语音助手上接入并控制自己的设备(自有协议),可扩展性还要好,...
发表于 2020-10-10 16:01 5881次阅读
开源资料自制迷你语音助手-Pico(原理图+源代码+设计文档)