这是我第二次见到Naveen Rao。
与初见一样,聊到AI,他的话匣子一下被打开,一直有层出不穷的想法与理论冒出,满腹经纶,侃侃而谈。
英特尔全球副总裁兼人工智能产品事业部(AIPG)总经理 Naveen Rao
与他这种温暖的教授般的气质形成“反萌差”的是他对极限运动的热爱。这位40刚出头的AI专家还是一名运动健将,以至于在滑雪、滑板、骑自行车、驾驶赛车、摔跤和打篮球的生涯中,弄伤了全部手指。或许就是这样一位冒险家,更适合带动人工智能,在他创立的深度学习初创公司Nervana被英特尔收购后,Nervana被迅速整合到英特尔AI核心战略之中,现在Rao已经成为英特尔人工智能事业群(AIPG)的掌舵人。
Rao说来到英特尔,“这里是一个开放的文化”,他很喜欢团队合作,然而调用资源并不是一件容易的事,但英特尔在产品的市场化方面拥有丰富的经验,强大的向心力正将公司各部门之间扭成一股劲,朝着一个目标通力协作。
在英特尔,实干永远比空谈更重要。在英特尔首届AI开发者大会上,由Rao率队带领,英特尔人工智能业务相关部门的“狠角色”集中露面,这应该是英特尔AI史上一次先例。要知道,除了英特尔内部会议,能够在公开场合看到一群“大牛”如此乖巧的集中出现,几乎是零概率事件。
但英特尔并没有让人失望。
这一次它拿出了一支配置超高的英特尔“AI银河战队”(姑且叫这名吧),如下图,从左到右依次是:
Jennifer Huffstetler,英特尔数据中心事业部副总裁兼数据中心产品和存储营销总经理
Jack Weast, 英特尔无人驾驶解决方案资深首席工程师兼首席架构师
Gayle Sheppard,英特尔新技术事业部副总裁兼Saffron人工智能事业部总经理
Remi El-Ouazzane,英特尔新技术事业部副总裁兼Moviduis总经理
Jonathon Ballon,英特尔物联网事业部副总裁
Naveen Rao, 英特尔公司副总裁兼人工智能产品事业部总经理
尽管这阵容堪比漫威“复仇者联盟”,但依旧有“大神”在画框外。
英特尔人工智能事业部副总裁、 Nervana团队核心成员Carey Kloss
Carey Kloss是英特尔人工智能事业群副总裁、 Nervana团队核心成员,虽然并没有在上图中出现,但他向科技行者表达出对团队的热爱,“英特尔有迄今为止我见过的最佳的后硅培养(post-silicon bring-up)和架构分析。”也正因如此,Nervana神经网络处理器(Nervana Neural Network Processor,NNP)才获得巨大提升。
事实上,NNP也是英特尔酝酿已久的“杀手锏”。在本次AI开发者大会上,Rao就爽快公开了英特尔新一代AI芯——英特尔Nervana NNP-L1000,代号为“Spring Crest”的专用人工智能芯片,而这款芯片也即将成为英特尔第一款商用神经网络处理器产品,并计划在2019年发布。
尽管Rao并没有再多透露新代AI芯片的细节,但同为Nervana创始团队的Carey Kloss却掌握着机密——我们当然不会放过他。就在AI开发者大会期间,科技行者与他进行了一次“接地气”对话,原来打着“如意算盘”的英特尔还可以这样玩。
Nervana NNP:新AI芯性能飙升3-4倍,但威力还没完全释放
在Rao长达1小时的主题演讲中,最重磅的发布非英特尔Nervana神经网络处理器莫属了,它对英特尔的意义非同小可。
如果拿去年10月首次公布的“Lake Crest”(Nervana NNP系列初代芯片代号)做一个比喻,可以说“Lake Crest”就像一场“及时雨”,成功帮助英特尔在AI专用芯片竞争中站住脚。但英特尔却提出了一个更大的目标,即到2020年要将深度学习训练的性能提升100倍。而Crest家族很可能成为英特尔目标实现的最快途径。
要知道一块芯片的打造并非易事,如果背后没有一支疯狂、专注的芯片开发团队,它也将是一块不足挂齿的芯片。所以懂门道的内行人更专注的问题是:Nervana神经网络处理器系列芯片背后的英特尔IC设计团队,究竟是如何打造出这颗能在现有性能上再飙升3-4倍的“Spring Crest”?
虽然Carey Kloss口风很紧,但关于Nervana神经网络处理器,科技行者还是在与他的聊天中,拿到以下犀利信息:
1、Lake Crest和Spring Crest的主要区别
Lake Crest作为第一代处理器,在GEMM(矩阵运算)和卷积神经上都实现了非常好的计算利用率。这不仅仅是指96%吞吐量的利用率,而是在没有充分定制化的情况下,Nervana也在大多数情况下实现GEMM高于80%的计算利用率。当开发下一代芯片时,如果能够保持高计算利用率,新的产品在性能上有3到4倍的性能提升。
2、Lake Crest计算利用率达到96%,为什么到Spring Crest不升反而降了?
这是一个市场策略,把利用率适当下降。有些情况确实可以实现98%,在没有资源冲突时,每个硅芯片都完全运行的情况下,可以达到99%甚至100%计算利用率。但英特尔想展示的是大多数情况下能能实现的利用率,所以适当调整了。
3、为什么Nervana芯片的发布节奏一再延期?
分为两个阶段,Nervana在2014年成立之初就开始研发Lake Crest,当时整个团队大概45人,正在构建一个最大的Die(硅芯片),我们开发了Neon(深度学习软件),还构建了云栈,这些都是小团队所完成的。但这也是挑战所在,小团队成长会有阵痛,Nervana花了很长时间才把第一批产品拿出来,直到去年芯片才真正问世。关于Spring Crest为何选择2019年年底推出,因为需要集成更多的Die(硅芯片),获得更快的处理速度,但需要一定的时间去制造硅片,也需要硅片变成新的神经网络处理器,这是延迟的原因。目前来看,Spring Crest正处于合理的节奏中,已具备明年取得成功的所有要素。
4、延迟给英特尔带来了哪些不利影响?
Carey Kloss并不认为英特尔会在神经网络处理器上处于劣势,因为英特尔的反应速度相对较快,比如逐步转向bfloat是一个重要因素,它是业内广泛采用的针对神经网络的一种数值型数据格式,很受市场欢迎,未来英特尔将在人工智能产品线上扩大对bfloat16的支持,包括至强处理器和FPGA。
5、拿nGraph与CUDA相比:没在怕的
抛开硬件层面,英特尔还在软件部署上加足马力。目前,英特尔AIPG事业部正在开发名为nGraph的软件,该软件是一个框架中立的深度神经网络(DNN)模型编译器。英特尔正在把TensorFlow、MXNet、Paddle Paddle、CNTK和ONNX等深度学习框架集成在nGraph之上。
同样是一个平台概念,很多人喜欢拿GPU代表企业英伟达与英特尔做比较,事实上,Carey Kloss就直言了nGraph与竞争对手CUDA平台的区别。
“nGraph与CUDA还是不一样的。CUDA你可以理解为 nGraph的底面,我们称之为变压器。nGraph通过一个固定的API接收来自TensorFlow,Caffe或MXNet的输入,然后通过图形编译器进行性能优化,排除一些不需要的东西,然后将其发送给CPU的MKL-DNN。所以CPU仍然使用MKL-DNN,即使在nGraph中也是如此。“不难看出,英特尔也有意把芯片开发放在统一平台上,将nGraph打造成为开发基于所有英特尔芯片的AI应用程序的接口做统一。
相比于新一代Nervana NNP-L1000还处于研发阶段,英特尔另一款专注于计算机视觉的芯片VPU实际已经商用。关于这款芯片,英特尔又寄托了怎样的市场期望,来看另一位同样在画框外的大神的解答。
评论
查看更多