第二,愈来愈宽的数据池与越来越强大的计算机运算功能的出现和发展协同机器学习和深度学习(与更多的数据和计算功能)的发展,将会影响全行业的所有公司;
第三, AI即服务(AI-as-a-service)的发展将会打开一个全新的市场;
第四,高盛认为,一个公司若能很好的运用AI。它将会获得有利的竞争优势;
人工智能将带来变革
从人类告诉计算机如何去做,到计算机自己学会去做,人工智能不断发展。它对全行业都有着深远影响。也许在下一个冬天(AI Winter)到来之前,我们并不知道这究竟是希望还是失望。但起码,这些投资与新技术可以让我们享有机器学习所带来的效率提升与经济益处。
过去几年,人工智能、机器人、无人驾驶汽车成了热词。我们认为,这是一个转折点,而不是一个失败尝试的开始。其中既有较为明显的原因(如更多的数据、更快的计算机运算能力),也有些没那么容易察觉、比较细微的原因(如深度学习的跨越式发展、专用硬件、开源服务的增加)。
人工智能的运用并不仅仅局限于远在天边的技术界,其商业化运用比比皆是,从苹果公司的Siri(自然语言处理),亚马逊的Alexa(自然语言处理),到谷歌的识图技术(计算机视觉与图像识别)。随着技术的发展,这些产品与服务的质量也越来越高。当大数据与强大技术结合,新的增值点与竞争力就这样诞生了。许多例子皆可佐证这一论据,在医疗行业中,图像识别技术可以提高癌症诊断的准确率。在农业中,农民可采用深度学习技术来提高稻物产量。在能源行业中,勘探效率得以提升。在金融服务业,分析的成本降低了,也更快了。虽然AI还在其发展的初期,但随着通过云端服务的逐渐普及,我们相信一波新的创新潮流即将到来,未来便可见,在每个行业中,谁是赢家,谁是输家。
我们也认为,人工智能的广泛使用会提高效率并促进全球经济;对美国而言,经济滞胀将会停止。如同在90年代一般,AI技术的迸发,将促使大公司投入更多资本到资本和劳动密集型项目中,以此推动经济增长;企业的利润率以及股票皆会提升。
人工智能是一门让机器或电脑软件可以学习、解决一些,通常需要人类智慧才能学习或解决的知识和问题的科学和工程。人工智能也是在描述计算机试图模拟一种智能行为;比如说试图模拟像人类一般的“知识”,“常识”,“学习技能”以及“决策分析”。传统意义上说,这包含自然语言处理和翻译、视觉感知、模式识别以及决策技能,不过因为随着人工智能的领域愈来愈宽,人工智能的内涵也越来越复杂了。
在本报告中,我们的关注重点是人工智能中的机器学习和深度学习(机器学习的一部分):
1.简单来说,机器学习(machine learning)是一种从案例和经验(如数据组)中学习,而非通过已编程好或已定义好的规则的一种算法。换句话说,如果是“非机器学习”,程序员需要“告诉”一个程序如何鉴别苹果和橙子,而机器学习的方式则是被“喂养”(训练)数据并自我学习如何鉴别苹果和橙子。现实生活中,网飞(Netflix)就通过大量的用户数据来引导机器学习,从而为用户推荐定制化的推荐剧集与产品;神经网络(neural network),则是一种模拟人类大脑神经网络学习方式的一种机器学习架构,就如同下图显示的:
2. 当今人工智能的拐点(AI inflection)是深度学习(这是一种通过交错复杂的神经网络的深度层互相分工,聚焦一个大问题的不同层面,在协同解决完一个个小问题后,把大问题解决)。在许多传统的机器学习训练方法中,特征(即可被预测的“输入”或“特性”)是人类设计的。而“特征工程”(feature engineering)其实是一个较难突破的瓶颈,因为它需要极强的专业知识。在非监督深度学习(监督式和非监督式学习的区别可以用如下例子表述,前者可能是被“喂养”一系列“关键词”,而当检测到这些词汇时,它们将被标注成“垃圾邮件”,而后者可能不会被给予有关的信息,而要机器自己去摸索并识别出规律[pattern])中,重要的特征并不是人类预先设计好的,而是由算法自我产生并学习的。
最后,我们想强调一点,我们关注的是能够量化的、可以快速产生经济效益的相关人工智能技术,而非那种可以像人类一般思考的强人工智能(即使AlphaGo击败围棋冠军算是这一领域的重大突破)。
理清其他概念
1.什么是有监督学习(supervised learning)与无监督学习(unsupervisedlearning)?
a. 在有监督学习中,机器通过不断学习“正确答案”来提高预测准确率,比如说垃圾邮件的检测(每当有特定字符出现时,系统便将他们标记为“垃圾邮件”);
b. 而无监督学习更多的是被给予一系列无标签的例子(也没有正确答案),并要求系统自己发现一种规律。例子:将消费者以某种特征进行分类(比如说:购买频次)。
2.机器学习的一些类别是什么?
a. 分类(Classification):垃圾邮件分类、欺诈识别、脸部识别、语音识别等。
b. 聚类(Clustering):比较图片、文本或寻找类似事物,判断异常的“类别”。
c. 预测(Predictive):根据可穿戴设备的数据预测健康问题,根据网络活动来推测顾客、雇员的人员调整更替率。
3. 什么是强人工智慧(General/Strong/True Artificial Intelligence)
强人工智能指的是可以完全像人类一样独立思考和决策的机器智能。虽然现在已经有全脑模拟(Whole Brain Emulation),但因为这种技术所需的计算量实在太过庞大,已然超出现有技术的水平;目前仍处于理论阶段。
人工智能简史
高盛认为,有四大因素:数据、人才、基础设施、硅元素。
1. 高盛认为,数据是最关键的要素。数据的增多可以有效提高准确性(参考哈佛医学院与马萨诸塞总医院放射学有关CT图片诊断准确性的报告)。目前的深度学习都是有人类参与监管的,即使是所谓的“半监督式学习”,依然需要人类供应大量的数据(其中至少有一些,是有标签印记的)。而完全不需要人类的自主学习,是现在深度学习追求的“圣杯”,还没能实现。不过,现在已经有大量数据了,他们也会增加的更多。全世界的数据的年复合总增长率在2020年将会在36%,总量到达440亿GB的量级。我们相信,电子健康记录、天气、地理数据会成为下一个二十年推动利润池的力量。
2. 人才短缺是制约人工智能,尤其是深度学习的关键因素。这也导致了过去几年间各公司间收购频繁(图表5),我们发现,随着技术的发展,这一因素对人工智能的发展的制约效应会变得稍微弱些,因为品类繁多的大量数据才将会是推进人工智能行业发展的关键要素。
3. 人工智能的发展非常依赖于硬件和基础设施,随着后两者的完善,人工智能将会极速发展。这里我们提供两个洞察。其一,云计算的提供商已经准备好为人工智能提供服务;其二,诸如TensorFlow, Caffe, Spark等开源平台已经像雨后春笋般升腾而起,已经成为推动人工智能软件创新的中坚力量。
4.硅元素:机器学习的算法是件资源密集型的事情,这通常是通过GPU(图形处理器)系统完成。目前,对于机器学习中的特有运算模式Inference,已经有众多公司提供相应的解决方案(特种硅FPGA和ASIC; Field Programmable Gate Array and ASICs Application SpecificIntegrated Circuit),比如说谷歌的Tensor处理器单元,就是ASIC型特种人工智能芯片,而微软公司则是FPGA芯片。Xilinx,一家从1980年底就开始专注于FPGA芯片商用的领先公司,则说道未来的云计算和线下数据中心是未来新的营收增长点。
为什么人工智能的发展突然加速了?
深度学习的跨越发展促使人工智能快速发展到接近拐点。神经网络,深度学习的底层框架,早已问世许多年。在过去十年间,真正在推动深度学习的是,高盛认为,是下列因素:更多的数据(如大量新设备接入物联网所产生数据;2020年数据预计将是2015年的4倍;图1)、更快的硬件(GPU、CPU性能大大提升:从 1993 年开始超级计算机的原计算能力有了极大发展;一块2016年的高端英伟达显卡即可2002年前的一台超级计算机的运转(图2),且相关价格更是连年走低[每一单位“运算”的价格](图3))以及有更多质量卓越的算法可供选择(大量优质的开源算法可以协助促进人工智能的发展,如Berkeley’sCaffe,谷歌的TensorFlow)。
对公司、和经济的影响
人工智能的主要影响集中在四方面:生产率,先进技术、竞争优势、新公司的诞生。
1.生产率:AI与机器学习将促使企业节省一些劳工相关开支,并真正的把预算花在开发产品和完善服务上(高盛首席经济学家Jan Hatzius);宏观上说,社会效率得到提升,经济将会发展。
2.高端技术:AI与机器学习使得建造数据中心变得不那么昂贵,这将颠覆相关硬软件与硬软件服务公司的市场份额。举个例子,同样是GPU计算请求,使用 AI 优化过的GPU需要0.9美元/小时,现在通过亚马逊云服务,仅需0.0065美元/小时即可达成。
3.竞争优势:若不能及时采用AI与机器学习来指导商业发展,竞争对手就抢得先机了:战略性情报、生产率提升、还有资本有效利用率(在即将到来的“下篇“,我们会特别讨论人工智能在医疗、能源、零售、金融与农业行业中所带来的变革)。
4.新公司的诞生:风险投资、创业家、与技术家将共同推动AI技术的发展,创造新价值。下一个“AI谷歌、脸书”也许就要到来。
对消费者的影响
消费者可以享受到更加智能的搜索优化(如谷歌新使用的RankBain人工智能搜索系统),发现搜索引擎变得更加聪明了(如亚马逊DSSTNE引擎和网飞皆采用人工智能系统以协助决定推荐何种电影、产品、歌曲给用户)、自己的脸变得更加易于被识别了(脸部识别-如谷歌的FaceNet和脸书的DeepFace已经可以达到近乎100%的脸部识别准确率了)。
人工智能与生产力
美国生产力增长近年已进入迟缓状态,而我们相信人工智能的发展可以改变这一现状,不仅是美国的,更是全球的,就好像1990年代互联网科技所做出的改变一样。
我们发现,在不同的行业中,我们观察到自动化已然平均减少了0.5%-1.0%的工人工时,而人工智能、机器学习的效率提升可以在2025年前会带来+51-154bps(基点)的效率提升。不过这主要影响到的低薪资任务;早期的影响将是低工资任务的自动化,即以更少的劳动时间推动类似的产出增长水平。
科技与生产力
1990年代的科技爆炸促使了经济的增长,有两个生产力要素大大提升:一是资本深化指标,二是多元素生产力(Multifactor productivity)。
但在2000年后,资本深化便停滞了。IT运用(电脑硬件、软件、电信)在贡献的资本逐渐下降,而工时却增加了。随着更加复杂的、更加“消费者版本”的机器学习和人工智能的引入,资本深度可能会提升,并可能可以巨幅提升生产力。不过,当我们在谈论生产力的时候,一些“不可触及”的产出(如线上内容)对于生产力的影响可能被忽略不计了。
人工智能与生产率的悖论:与高盛首席经济学家JanHatzius的访谈:
在访谈中,Jan Hatzius先生提出几个观点(与人工智能主题有关的摘录如下):
1. 经济周期性、技术变革放缓、统计学家的统计工具无法精确量化最新技术的进展导致2000年后由科技推动的经济增长的放缓(至少就数据本身而言是如此的)。
2. 人工智能的引进对于生产力的提高是显而易见的(见图13:1990年代的技术革命推动了生产力的增加,软件公司在1995年到2000年数量激增,直到2000年整合,数量方才减少些),但从人均规模效益而言,可能并不会那么明显。
3. 类似于人工智能抢走人类工作的忧虑在19世纪工业革命也发生过。短期而言,确实会有更多人失业。但就长期而言,人工智能并不会导致失业率上升。
人工智能“生态系统”:云服务,开源
我们相信人工智能将为影响所有行业,这是新的竞争性优势;同时,对这一潮流置之不理的管理层将有可能无法在产品创新、劳工效率以及资本杠杆能力上有优势。所以,我们相信,公司对人工智能的需求将会推动对人工智能的人才、服务、硬件需求
如图14所示:过去20年,越来越多的风险资本进入人工智能、机器学习的领域。
人工智能的概念早已被提出,其中,神经网络的概念在60年代已被提出,但直到最近,因为计算能力的提升,我们才真正地能够在实际上运用这些技术;系统架构层面,我们可以看到,从一开始到的大型机,到之后的客户端,到近来的云端/移动端,包括新编程语言的出现(见图15),这些都是计算能力、存储能力,带宽提升的效果;我们认为,我们仍处在人工智能发展的早期变化,而且各种工具和服务将出现爆炸式增长。
人工智能的促进者
1.自己动手型的企业:拥有优秀人才与大量数据的企业应该会自行建立机器学习的团队。至此,我们可以看到AI堆正在形成,这里面我们认为,包含开源(比如说像Databricks,Cloudera, Hortonworks的供应商)以及云端平台(比如微软、谷歌、亚马逊和百度)提供的服务。
2. 咨询公司:AI仍是稀缺性资源,故像IBM这样的企业正通过IBM Watsons建立起横纵向的产业业务技术优势。而像Kaggle这样的公司,则通过数以千计的数据科学家,协助公司解决人工智能的问题。
3. AI即服务(AI-as-a-service, AI-aaS):这是我们自己定义的名词,意思是说,企业无需自己训练AI,但是他们可以通过第三方公司,直接使用已经被训练好的深度学习AI机器。一个例子:创业公司Clarifai和谷歌公司专注图像API的AI-aaS。另一个例子:Salesforce.com独有的销售数据。拥有独特数据的公司将会很有竞争优势。
机器学习(尤其是深度学习)是人工智能里较为新颖的领域。而我们相信,这一新颖技术正被互联网公司,擅长提供特定行业服务的公司、财富五百强等众多公司所利用。原本人工智能发展的障碍:数据和人才已逐渐被扫除;公司们逐渐学会了通过物联网进行数据收集,这弥补了之前的数据缺失。而大量修习新兴的机器学习专业的毕业生、愈来愈多相关人工智能的咨询公司,都填补了人才方面的原有的空白。我们相信,大多数大公司(或是中小型的专注于数据的公司)至少,会尝试机器/深度学习。因为创新速度较慢,要打造一条完整的机器学习产品管道线会比较困难,很多时候,这些发展都是比较“碎片化”的。
蓝色是专有供应商,橙色指的是开源,绿色指的云服务(某一些供应商,比如说阿里巴巴和百度,都是专有、云服务共存的)。
逐渐兴起的AI“堆”与之前主机、客户端都有着类似的工具、语言、存储。
但AI堆与之前技术的不同点在于,机器学习的产品管道线非常依赖于第三方云端平台所提供的开源科技和服务。
这一转变有三大原因,1)机器学习需要持续在线的计算和存储力来计算、存储大量的数据 2)微软、亚马逊、谷歌对于机器学习的重投资 3大客户对开源的拥抱态度来防止“反面模式”(vendor lock-in)并削减开支
中国的人工智能情况
根据艾瑞咨询的分析报告,中国人工智能市场将从2015年的12亿人民币增加到91人民币。但就2015年来说,就有14亿人民币(较2014年增长76%)的资本流入市场。
中国发改委与其他相关部门在2016年5月发布了《互联网+人工智能三年行动实施方案》。方案指出六大保障领域:资本支持、体系标准化、知识产权保护、人才培养、国际合作与落地措施;并专注于在2018年完成对建设AI基础设施与对应创新平台、匹配的产业体系、创新服务体系与基本的标准化体系。
中国在人工智能上已有所突破。在有“深度学习”或“深度神经网络”关键字的被引用论文数量的数据上,中国已经在这一数值上在2014年超过了美国(图24)。中国的人工智能研究能力也是惊人的(图23),尤其在语音、视觉识别技术方面。百度在2015年11月发布的Deep Speech 2系统已经可以获得97%的准确率,甚至被《MIT科技评论》评委2016十大突破性科技之一。香港中文大学开发的DeepID系统在LFW(Labelled Faces in the Wild)中达到了99.15%的脸部识别准确率。
数以百计的中国人工智能公司正渗透到这个行业中,但行业的领军者仍是百度、阿里巴巴和腾讯(BAT)(各公司产品见下图;可以看到,百度专注于语音识别(Deep Speech)、自然语言处理、以优化个人语音助理“度秘”、搜索、地图的运用;百度也有自己的无人车部门;阿里巴巴则开发了人工智能客服、基于云服务的人工智能平台DT PAI、阿里妈妈光学字符识别、还有阿里云ET人工智能套件;腾讯(优图)则潜心研究脸部识别技术、搜索、自然语言处理、数据挖掘、人工智能、新闻报道,并与香港科技大学成立人工智能联合实验室)。
目前,中国的人工智能主要集中于以下领域:
1. 基础服务(如数据资源与计算平台)
2. 硬件产品(如工业机器人和服务机器人)
3. 智能服务(如智能人工服务与商业智能)
4. 技术能力(视觉识别、机器学习)
语音、视觉识别技术在中国人工智能市场的60%和12.5%。
在和人工智能相关的公司中,71%致力应用开发,29%专注于算法。
在专注算法的公司中,55%在研究计算机视觉,13%专注于自然语言处理,9%把精力放在基础机器学习上。
在我们看眼中,人工智能的领先者会继续在中国和美国两国中产生。
我们列出了在运动控制与机器人、语音识别与复制、地理空间感知、图像感知与识别、人工神经网络与基础设施、声频感应与处理、系统监控与资源分配、训练和Inference硅、自然语言处理、环境感应器(湿度、温度等)这些领域的领军者。
Sky9Capital云九资本(www.sky9capital.com)是专注于中国市场的早期创业投资基金品牌,关注创新的互联网、企业服务和前沿科技行业。
评论
查看更多