近年来,以苹果Siri、谷歌Google Assistant和亚马逊Alexa为代表的智能语音助手日益流行。不同于传统的桌面端搜索或移动端搜索,语音计算寻求的是向任何询问提供单一的正确答案。正因为此,它将会颠覆我们与信息之间的关系。
如果你在上世纪90年代末参观过剑桥大学图书馆,你可能有看到一个瘦瘦的年轻人:他的笔记本电脑放在书架上,脸被屏幕的光照亮。威廉·汤斯顿-佩多(William Tunstall-Pedoe)在几年前就结束了计算机科学的学习,但他仍然喜欢旧纸张散发出的那种发霉味,喜欢被书籍四周围着的感觉。该图书馆几乎收到了所有在英国出版的书籍的副本,这种信息的数量——500万本书和120万期期刊——激发了他的灵感。
01奔向语音计算
当然,就在这个时候,另一个巨大的知识宝库,即互联网,正在形成。谷歌豪言称“组织全世界的信息,使之随处可得,随处可用”,承担起了“地球图书管理员”的角色。但是,尽管汤斯顿-佩多喜欢在书堆里转悠逗留,但他觉得计算机不应该像图书馆那样要人们花费一番功夫去查找信息。是的,在浏览搜索结果、偶然发现新信息源和发现相关事实的时候,我们会觉得非常愉快。但大多数用户真正想要的是答案,而不是狩猎般的刺激感。
作为实现这一目标的工具,搜索引擎几乎和塞满书的图书馆一样麻烦,难以使用。首先,你必须想出恰当的关键词。从谷歌或雅虎提供的长长的链接列表中,你必须猜出哪个是最好的。然后你必须点击它,进入一个网页,盼望着里面有你想要的信息。
汤斯顿-佩多认为,这项技术的工作原理应该更像《星际迷航》(Star Trek)里宇宙飞船上的那台电脑:用日常语言提问,得到“即时且完美的答案”。他认为,作为有帮助的图书管理员,搜索引擎最终必须要向人工智能屈服。
这可以说是一种可以与飞行汽车相提并论的科技幻想,而汤斯顿-佩多则开始让它成为现实。从13岁开始,他就编写程序赚钱,而且一直对教授机器自然语言的探索特别着迷。在大学期间,他曾编写过一款名为Anagram Genius的软件,当输入人名或短语时,该软件能巧妙地重新排列字母。
例如,输入玛格丽特·希尔达·撒切尔的名字“Margaret Hilda Thatcher”,Anagram Genius会把它变成 “A girl, the arch mad-hatter”,意指“一个女孩,一个疯帽匠。”(数年后,作家丹·布朗利用Anagram Genius生成了《达芬奇密码》中的关键谜题。)现在,天天泡在图书馆里的汤斯顿-佩多开始构建一个可回答几百个问题的原型。
20年后,随着亚马逊 Alexa和谷歌Google Assistant等语音计算平台的兴起,全球最大的科技公司正突然出乎意料地朝着汤斯顿-佩多的方向前进。支持语音控制的智能音箱已成为科技行业最畅销的产品之一;根据美国国家公共广播电台(NPR)和爱迪生研究公司(Edison Research)的一份研究报告,仅2018年一年,智能音箱在美国家庭中的普及程度就增长了78%。根据一项市场调查,人们让其智能音箱回答问题的频率要高于他们使用该设备的任何其它功能的频率。
汤斯顿-佩多设想的让计算机通过单一路径响应我们的询问——用搜索社区的行话来说,就是提供单一的答案——已经成为主流。互联网以及它所支撑的数十亿美元规模的商业生态系统正在发生不可逆转的变化。信息的创造、传播和控制——我们如何知道事物的本质所在——也是如此。
02
True Knowledge诞生,提供单一的答案
2007年,在经历了互联网泡沫破灭危机及其余波之后,汤斯顿-佩多和几位同事接近推出他们的第一个产品——一个名为True Knowledge的网站,可以为各种问题提供单一的答案。当时,他们的目标仍然被认为是天方夜谭。“谷歌的人对我们在做的事情非常敏感,”汤斯顿说,“对用户的搜索只给出一个答案的想法是一个忌讳。”
他记得曾与谷歌的一名高级员工发生过争执,后者拒绝接受只有一个正确答案的概念。大型搜索引擎虽然索引了数十亿个网页,但对用户的查询却缺乏深刻的理解。相反,他们只是在做一些冠冕堂皇的猜测:你在谷歌搜索栏输入几个关键词,该公司的PageRank系统就会返回一长串由数据支持的、关于你想知道的东西的猜测。
为了证明True Knowledge提供单一答案的雄心是可以实现的,汤斯顿-佩多和他在剑桥大学的小团队开发了一个由三个主要组成部分组成的数字大脑。第一个组成部分是一个自然语言处理系统,它试图稳健地解释问题。例如,“有多少人居住”、“人口是多少”和“有多大”都会被归为关于人口查询。
系统的第二个组件负责收集事实。与简单地将用户指向网站的搜索引擎不同,True Knowledge想要自己提供答案。它需要知道,伦敦的人口是880万,NBA巨星勒布朗·詹姆斯(LeBron James)是6英尺8英寸高,乔治·华盛顿(George Washington)的临终遗言是“Tis well”,等等。这些事实中的绝大多数都不是手动输入系统的;不然的话就太困难了。相反,它们是从结构化数据(即其中的信息以计算机可读的格式列出)的来源自动检索得出的。
最后,该系统必须就所有的这些事实如何相互关联进行编码。编程团队创建了一个可以被描绘成巨大树状结构的知识图谱。它的基础是类别“对象”,“对象”包含了每一个单独的事实。由下往上,“对象”类别分为“概念对象”(用于社会和心理结构)和“物理对象”(用于其他的一切)。越往上,该树状图谱的分类就越精细。例如,“轨道”类别分成包括“路线”、“铁路”和“道路”的组别。构建知识本体是一项艰巨的任务,它扩展到数万个类别,包含数亿个事实。但它提供的结构让新信息可以很快地被分类,就像洗好的衣服被放到梳妆台的抽屉里一样。
该知识图谱按照分类学来编码物体之间的关系:道格拉斯冷杉是针叶树的一种,针叶树是植物的一种,等等。但除了简单地表示两个实体之间存在联系外,该系统还描述了每一种联系的性质:大本钟位于英国。埃马纽埃尔·马克龙(Emmanuel Macron)是法国的总统。
这意味着, True Knowledge有效地学习了一些关于世界的常识性规则,这些规则对人类来说很简单,但通常是计算机所无法理解的:一个地标只能存在于一个地方。法国只能有一位在任总统。对汤斯顿-佩多来说最令人兴奋的是,True Knowledge可以处理那些事先没有明确说明答案的问题。想象一下,有人问:“蝙蝠是鸟类吗?”因为知识本体将蝙蝠归为“哺乳动物”下的一个子群,而鸟类则被归分到其他地方,所以该系统能够正确地推断出蝙蝠不是鸟类。
True Knowledge变得越来越聪明,在投资者面前,汤斯顿-佩多喜欢表现出其对竞争对手的蔑视。例如,他会在谷歌搜索栏输入“麦当娜是单身吗?”该搜索引擎却返回“麦当娜未发布的单曲流入网络”的链接,它对该问题的理解显然是很肤浅的。与此同时,True Knowledge知道从这个问题的措辞方式可以知道,“单身”(single)是用作形容词,而不是名词,它的意思是没有恋人。因此,看到有个链接说麦当娜和盖·里奇(Guy Ritchie)在交往以后,这个系统给出了更有帮助的答案:不,麦当娜不是单身。
看到这一切的投资者感到十分欣喜,于是在2008年为True Knowledge提供风险投资。True Knowledge团队规模扩大到大约30名员工,并搬到了剑桥的一间更大的办公室。但据汤斯顿-佩多说,这项技术最初并没有受到消费者的欢迎,部分原因是它的用户界面是“一个丑陋的婴儿”。因此,他重新推出了True Knowledge,使其成为一款设计简洁的智能手机应用程序,同时覆盖iPhone和Android设备端。它有一个可爱的商标——一张只有一只眼睛的笑脸和一个朗朗上口的新名字Evi(发音EE-vee)。最重要的是,你可以用语音向Evi提出你的问题,并听取它的语音回答。
Evi于2012年1月正式上线,比苹果公司推出Siri语音助手早了几个月。它在苹果应用商店App Store的下载量迅速超过50万次,一跃登上下载量的榜首位置。(Evi应用介绍页面曾使用像“推出evi: siri的最新劲敌”这样的标题,此举显然激怒了苹果,后者一度威胁要撤下这款应用。)此时,有很多人向汤斯顿-佩多表达了收购意向。
经过与众多追求者的一系列洽谈,True Knowledge最终同意被收购。几乎每个团队成员都能保住自己的工作,留在剑桥,汤斯顿-佩多则会成为一款尚未发布的语音计算设备的产品团队的高级成员。当这款设备在2014年问世时,它的问答功能将会由Evi提供强大的技术支持。收购方是亚马逊,而这款设备就是Echo。
03
步入语音搜索时代
当汤斯顿-佩多在剑桥大学开始编程时,提供单一的答案并不流行。但当Echo问世的时候,情况就不一样了。在语音计算时代,提供单一的答案不仅仅是一个很好的功能;它是一个必不可少的功能。“你不可能通过语音提供10个蓝色的网页链接,”汤斯特尔-佩多对业界的主流看法表示认同,“这是一种糟糕的用户体验。”
随着世界上一些最大的科技公司逐渐意识到这一点,它们也开始追溯“True Knowledge”走过的很多路。2010年,谷歌收购了初创企业Meta-web,后者创建了一个名为Freebase的知识本体。两年后,该公司发布了知识图谱,它号称拥有35亿个事实。同年,微软推出了后来被称为“概念图谱”(Concept Graph)的产品,该产品包含的词条数量增长到了500万。2017年,Facebook、亚马逊和苹果纷纷收购了知识图谱制作公司。最近,许多研究人员已经开始设计能够自动在web上抓取答案的系统,这种系统能够以比任何人都快得多的速度为知识本体存入新的事实。
这股热潮的出现在情理之中。市场分析人士估计,到2020年,多达一半的互联网搜索将会通过语音完成。谷歌也一直在逐步提升其搜索引擎提供单一答案的卡片式回答的流行程度,不管是在桌面端还是在移动端。那些搜索结果位于其它的搜索结果之上。举例来说,搜索“宇宙中最稀有的元素是什么?”搜索框正下方便会呈现答案:“放射性元素砹。”据市场营销机构Stone Temple称,2015年7月,谷歌为超过三分之一的搜索请求提供即时答案。18个月后,这一比例提升到了50%以上。
转向提供单一的答案的进程颇为缓慢,以至于掩盖了它自身最重要的一个影响:扼杀互联网。传统的网络充斥着各种单调乏味的页面和链接,它正在让位给会话网络,而在会话网络中,能言会道的人工智能占据着至高无上的地位。我们被告知,这样做的收益就是增加了便利性和效率。但对于所有与传统网络搜索有经济利益关联的人(商家、广告主、作家、出版商以及科技巨头)来说,这种情况是相当危险的。要理解其中的原因,可以快速回顾一下网络世界的经济学,在这个世界里,注意力就是一切。
企业希望被发现;它们希望它们的广告被看到。因此,自互联网诞生之初,它们就致力于掌握搜索引擎优化(SEO)的神秘艺术,即调整关键字和网站的其他元素,使得它们在搜索排名中出现在更高的位置。为了确保获得最佳的展示位置,这些公司还会直接向搜索服务付费,购买在搜索结果上方或旁边展示的小广告,以期使得自己的品牌得到曝光。
在桌面搜索是唯一盛行的搜索方式的时代,企业争相成为排名前10的链接之一;人们通常不会往下浏览前10往下的搜索链接。进入移动时代以来,它们则一直在竞相进入搜索排名的前五名。在语音搜索领域,企业面临着更加严峻的挑战。它们想要抓住所谓的零位置——出现在所有其他结果之上的单一答案。零位置至关重要,因为它是最常被大声朗读出来的。
营销机构RAIN负责为品牌提供会话式AI策略咨询的副总裁格雷格·赫奇斯(Greg Hedges)表示,它往往是唯一一个被朗读出来的答案。他说道,“未来几年如果你想要自己的品牌被看到,你就必须确保你的网站是针对语音搜索而优化的。”
假设你经营一家寿司店,附近有很多竞争对手。一位用户问他的语音设备:“我附近有什么好的寿司店?”如果你的餐厅不是人工智能首先选择的那一家,那你就有麻烦了。当然,有人会选择语音当中的“向下滚动浏览”:在听到首个选项后,顾客可能会说,“我不喜欢这家,附近还有什么别的吗?”但这有点麻烦,人们一般不会那么做。
达到零位置需要一个与传统SEO全然不同的策略。例如,在网页上输入正确的关键字的重要性正在下降。相反,SEO专家们试图想出用户可能会说的自然语言短语,比如“什么是最受欢迎的混合动力汽车?”,然后把它们和简洁的答案一起放在网站上。他们寄望于能够产生会被人工智能提取并大声朗读的完美内容。
目前还没有针对语音搜索的付费发现服务。但当它不可避免地到来时,互联网的广告经济将会发生天翻地覆的变化。因为语音“神谕”一次只回答一个问题,所以它们为广告客户提供的空间更少。数字营销公司360i现任首席执行官贾里德·贝尔斯基(Jared Belsky)在2017年接受《广告周刊》(Adweek)采访时表示:“未来将会发生一场广告位争夺战,理论上每个广告位都应该会更加昂贵。即便平台变小了,人们也同样很有兴趣。”这一点在亚马逊等零售环境中可能尤其正确,因为在这种零售环境中,随时可以下单购买的消费者就在智能音箱的另一端。对于语音搜索,人们的目标是登上顶峰,成为最顶端的搜索结果,死不罢休。
如果你的产品不是混合动力车,也不是辣味金枪鱼卷,而是知识本身,那该怎么办?出版商主要依赖于大型科技公司的流量来获得广告收入,日子并不好过。据数据分析公司Parse称,目前谷歌的搜索量约占导向出版商网站的所有流量的一半;在Facebook上分享的链接则占四分之一。单一的答案可能会严重制约这种流量。例如:我是俄勒冈大学鸭队的粉丝,过往我会在比赛后的第二天早上去ESPN.com看看比赛结果。在那个网站上,我可能会点开另外的一两篇报道看看,给它贡献一点点广告分成。要是觉得手头宽松,我甚至可能购买ESPN的包月订阅服务。但现在,我只需要简单地问我的手机,“俄勒冈大学鸭队的比赛谁赢了?”我得到了答案,而ESPN则不再能够享有我的流量贡献。
也许你关心ESPN,它本身就是一个大公司,它的流量被抽走了;也许你并不在乎。关键是,类似的情况可能会影响到大量的内容制作者,不管是大公司还是小型工作室。想想布莱恩·华纳(Brian Warner)的故事,他经营着一家名为“名人净资产”(Celebrity Net Worth)的网站。在该网站上,好奇的访客可以输入Jay-Z的名字,然后看到这位说唱歌手的身价估计有9.3亿美元。华纳方面声称,在明确拒绝了谷歌访问他的公司数据库的请求后,该搜索巨头就开始从他的网站上收集答案。他说,受此影响,真正前往Celebrity Net Worth网站的流量骤降了80%,他因而不得不裁掉一半的员工。“谷歌的触角还覆盖了多少万其他的网站和企业?”他问道。(谷歌的发言人拒绝就华纳的说法发表评论;不过,她指出,网站管理员可以使用该公司的开发工具来防止他们的页面出现在谷歌的精选摘要中。)
当语音人工智能朗读提取出来的内容时,它们通常会指出内容来源。它们可能会口头说出来源方,又或者在屏幕上呈现出来,如果用户所用的设备有屏幕的话。但是被点名并不能直接产生收入;出版商需要流量。对于常见的智能音箱,用户以某种方式贡献流量的可能性很小。谷歌和亚马逊的解决方案有些麻烦:用户可以前往Home或者Echo的智能手机应用,找到搜索结果,然后点击链接进入内容创建者的网站。
用户可能会遇到这种麻烦。但是,既然她已经找到了她要找寻的答案,为什么还要多此一举呢?正如网络流量专家、Dynamic Search首席执行官阿什·埃尔兰(Asher Elran)在2013年的一篇博客文章中所言,“单一的回答”会让事情朝着有利于谷歌的方向发展。“作为网站,我们希望通过SEO和提供有趣的内容来争夺那些排名。”他写道,“我们不希望看到的是,在我们得到机会努力给搜索者留下深刻印象之前,问题的答案就出现在搜索者面前。”
04信息核查与信息控制
当汤斯顿-佩多开始研究后来的True Knowledge时,他觉得谷歌会抗拒提供单一的答案。尽管当时有的谷歌员工无疑也有这种感觉,但来自它的领导层的声明明确表示,公司的长期计划始终是打造“神谕”。“当你使用谷歌时,你会得到不止一个答案吗?”埃里克·施密特(Eric Schmidt)在2005年接受采访时问道,“确实如此。嗯,这是一个问题……我们应该只给你提供一个正确的答案。”
多年以来,技术上的障碍使得施密特的目标一直无法实现。这有一定的好处。根据1996年颁布的管理互联网言论自由的《通信规范法案》第230条,网络中间商不对由他人提供的内容负责。只要谷歌仍然仅仅是一个信息的渠道,而不是信息的创造者——一个中立的图书馆员,而不是一个无所不知的“神谕”——它就很可能能够避免大量的法律责任和道德责任。“谷歌喜欢10个蓝色链接的部分原因是,他们无法判断哪些是对的,哪些是错的。”汤斯顿-佩多说。
但在语音时代,该公司“不杀信使”的立场要难接受得多。比方说,你点击一个搜索结果,看到了《旧金山纪事报》(San Francisco Chronicle)的一篇文章。谷歌显然不对该文章的内容负责。但是当该公司的语音助理回答你的问题时,这一区别就变得更加模糊了。尽管这些信息可能是从第三方来源提取的,但却让人感觉好像直接出自谷歌。因此,那些为语音搜索提供回复的公司获得了巨大的判定真相的权力,它们成为了知识学的霸主。
谷歌搜索业务公共联络员丹尼·沙利文(Danny Sullivan)去年在一篇有关精选摘要的博客文章中提到了这种危险。他解释说,直到最近,问“罗马人是怎么看夜间时间的?”的用户一直都是得到一个荒谬的答案:日晷。这是一个没有产生什么后果的错误,沙利文向公众保证,谷歌正在努力防止今后出现这样的失误。但不难想象类似的错误会产生更大的影响,尤其是随着越来越多的美国人接受语音搜索和“人工智能神谕永远不会出错”的理念。
过往的单一答案错误地宣称,巴拉克·奥巴马(Barack Obama)将宣布戒严,伍德罗·威尔逊(Woodrow Wilson)是三K党的一员,味精会导致大脑损伤,女性是邪恶的。谷歌主动修复了这些问题,并解释说这些错误并不是它造成的——这些错误是自动从劣质网站中提取出来的。
给人们一种核查信息来源的方法,可以在一定程度上防止错误信息泛滥成灾。但很难想象智能音箱Echo或Home的用户会费功夫去不定期登录它们配套的应用;这种需要花费更多功夫的体验与语音计算的免提、无需查看的理念背道而驰。当设备说出信息内容的来源时,它们通常是模糊的。用户可能会被告知答案来自雅虎或Wolfram Alpha。这就好比说,“我们的科技公司是从另一家科技公司那里得到这些信息的。”它并不能让你知道具体是来自哪一位记者或者媒体机构;它也不会提及用来得出结论的证据。当信息来源是一家公司自己的知识图谱或其他的内部资源时,它就更加不透明了:“我们的科技公司是从自己那里获得这些信息的,相信我们。”
提供单一答案的策略也意味着我们生活在一个事实简单且绝对的世界里。当然,许多问题都只有一个正确的答案:地球是一个球体吗?印度有多少人口?然而,对于其他的问题,有多种合理的回答,这会将语音“神谕”置于尴尬的境地。由于认识到这一点,微软的语音助手Cortana有时会对有争议的问题给出两个对立的答案,而不是一个。谷歌也在考虑做同样的事情。不管这些公司是否想要在这个世界扮演信息核查者的角色,它们都已经在推动自己这么做。
大型科技公司对信息传播的控制,尤其是在语音计算时代,引发了对知识受到奥威尔式控制的担忧。在网络内容受到政府严查的地方,这不仅仅是一个学术问题。在民主国家,更紧迫的问题则是,企业是在以有利于企业利益的方式操纵事实,还是在以有利于它们的领导者个人利益的方式操纵事实。对知识的控制是巨大的权力,如今少数几家公司在这方面占据着统治地位,世界上绝大多数的信息都是通过它们的网站和平台进行流通的,这是前所未见的。
与此同时,我们其他人可能正在失去让这些看门人承担责任的能力。一旦我们习惯于相信随手可得的智能音箱“神谕”,我们可能就会对那些要费力探求而又引起好奇心的东西失去耐心,对那些引人深思的东西失去耐心——变得想要直接获得事实,期望着它们出现在我们面前。如果水毫不费力地从你的水龙头里流出,为什么还要费力去从井里抽水呢?
汤斯顿-佩多于2016年离开亚马逊,他承认,语音“神谕”带来了新的风险,或者至少加剧了原有的风险。但是他有一个典型的工程师的观点,即由技术引起的问题可以通过更多更好的技术来解决,比如学会遏制不当信息的人工智能。他觉得,如果有一天网络“神谕”变得足够好,能让像剑桥大学图书馆这样的地方变得过时,他会感到怀旧。当然,只是有点怀旧而已。“我可能会想念那个地方,”汤斯顿-佩多说,“但我不确定,如果没有必要,我是否还会回到那里。”
-
谷歌
+关注
关注
27文章
6168浏览量
105370 -
亚马逊
+关注
关注
8文章
2666浏览量
83350
原文标题:被亚马逊收购 比谷歌还优秀?他的搜索引擎只提供唯一答案
文章出处:【微信号:smartman163,微信公众号:网易智能】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论