0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

对标英伟达胜算几何?这家AI芯片独角兽首次全面揭开神秘面纱……

张慧娟 来源:电子发烧友网 作者:张慧娟 2020-06-19 10:01 次阅读

AI训练市场,不乏跃跃欲试想挑战英伟达霸主地位的厂商。不过,英伟达GPU仍是当前全球大规模商用部署的头号玩家。其次,Google的TPU通过内部应用及TensorFlow占据第二大生态规模。

要知道,一颗AI芯片从开发定义到落地部署,中间存在着巨大的鸿沟,特别是算法越来越复杂、模型越来越大,AI芯片面临着算力的严峻考验,最终要在数据中心批量部署,能够成功的厂商凤毛麟角。

不过,来自于底层的颠覆性创新正在悄然改变着格局。Graphcore,这家成立于2016年、来自于英国的AI芯片公司,通过创新的IPU处理器技术,已经开始在全球数据中心批量应用,跻身于该市场第三梯队。

5月27日,在Intelligent Health峰会上,微软机器学习科学家Sujeeth Bharadwaj分享了在攻克新冠病毒时的一项研究,在训练CXR(胸部X射线检查)模型时,用Graphcore IPU处理器和英伟达 V100同时运行微软COVID-19影像分析算法SONIC,最终的结果可能令所有人大跌眼镜:IPU在30分钟内完成了V100需5个小时的训练工作量!

这家年轻的公司,由此再次引起了业界的关注。日前,Graphcore面对<电子发烧友>等行业媒体,首次在中国市场全面揭开了其创新背后的核心技术及最新业务进展,以及在中国市场的布局等。

为什么传统的处理器架构需要被颠覆?

Graphcore高级副总裁兼中国区总经理卢涛(Jason Lu)介绍称,AI时代的机器智能代表的是全新的计算负载,不同于传统计算的特点有:它是非常大规模的并行计算;数据结构非常稀疏;相较于传统的科学计算或高性能计算(HPC),AI/机器智能是低精度计算;另外在训练、推理过程中的数据参数复用、静态图结构等,都是AI应用全新计算负载的典型代表。
卢涛 Jason Lu
Graphcore高级副总裁兼中国区总经理

整个AI算法模型的演变,基本上从2016年1月份的ResNet50的2500万个参数,发展到2018年10月份BERT-Large的3.3亿个参数,而到了2019年发展到GPT2的15.5亿个参数,增长幅度非常大。甚至,现在一些领先的科研机构和AI研究者在探索更大的算法模型,能够训练更复杂的算法,来提高精度。密集计算并不是可持续的方法,譬如算法模型参数要从15.5亿规模扩展到一万亿,这种指数级的增长,需要成倍的算力提升。Graphcore认为,传统处理器无法很好地应对这些变化,因此市场需要一种颠覆式的创新架构。
 
传统的处理器架构,如CPU是针对应用和网络进行设计的标量处理器,GPU是以向量处理为核心的、针对图形和高性能计算的处理器。而AI是全新的应用架构,底层是以计算图作为表征的,且从整个AI发展方向来看,大规模、稀疏化的数据会越来越多,因此,Graphcore针对这些发展趋势设计了一种全新的处理器架构。

全世界最复杂的拥有236亿个晶体管的芯片处理器

目前为止,机器学习的算力来源主要还是传统的处理器,它们的算力提升也非常快。不过,峰值算力和有效算力是两回事,这其中,内存带宽成为掣肘

当处理器算力提高了10倍,内存如何相应提高10倍的性能呢?卢涛介绍,如果用传统的DDR4、DDR5、HBM、HBM1、HBM2、HBM3等内存,基本上每一代能有30%或40%的提升,因此,这对传统架构是一个非常大的挑战。

相较于传统CPU、GPU,IPU采用了大规模并行MIMD(多指令多数据)处理器核,通过紧密耦合的大型本地分布式SRAM,在片内能够做到300MB SRAM。相对CPU的DDR2子系统或GPU的GDDR、HBM来说,IPU能够实现10到320倍的性能提升。这样带来的好处是,能够将模型和数据放在片内处理,从时延的角度来看,与访问外存相比较,时延仅为1%。

通过采用大规模分布式的片上SRAM架构,IPU处理器将所有memory都放在片上,解决了当前机器学习中大量出现的内存带宽所造成的瓶颈。

目前,基于这一创新架构的IPU处理器GC2已量产,采用TSMC 16nm工艺,号称是世界上最复杂的拥有236亿个晶体管的芯片处理器

GC2片内有1216个IPU-Tiles,每个Tile有独立的IPU核心作为计算以及In-Processor-Memory(处理器之内的内存),总共有7296个线程,能够支持7296个程序并行运行。对整片来说,In-Processor-Memory总共是300MB,PCIe是16个PCIe Gen 4。

而在各个核心之间,Graphcore通过BSP同步协议,能够支持同一个IPU处理器内1216个核心之间的通信,以及跨不同的IPU之间进行通信。另外,在IPU和IPU之间,拥有80个IPU-Links,总共有320GB/s的chip to chip的带宽。正因如此,IPU处理器可以同时支持训练和推理。

从目前所公布的指标来看,在自然语言处理、图像分类、金融模型训练等方面,IPU在现有及下一代的模型上,性能均领先于GPU:在自然语言处理方面的速度能够提升20%到50%;在图像分类方面,能够有6倍的吞吐量且时延更低;在金融模型方面,训练速度能够提高26倍以上。目前,IPU在云上、在一些客户的自建数据中心的服务器上已经投产应用。

而在场景应用方面,IPU采用分组卷积的方式也体现出了独有优势,特别是针对更为稀疏化的数据时。

卢涛分享了众多AI创新者、算法科学家、AI应用开发者日常工作中遇到的一大问题:当算法模型在GPU上运行速度非常慢的时候,通常被认为是算法或软件问题。他指出,如果算法模型不是用稠密的卷积,而是用较为稀疏的卷积比如Fully depthwise做的,那么在GPU上运行得慢的根本原因是GPU架构不符合算法特点,因此采用IPU能够提供更好的支持。

他解释称,Graphcore设计了一个分组卷积内核的micro-benchmark,将组维度(group dimension)分成从1到512来比较,这里512就是应用得较多的“Dense卷积网络”,典型应用如ResNet。此时,IPU GC2性能甚至比英伟达V100要高近一倍。随着稠密程度降低、稀疏化程度增加,在组维度为1或32时,针对EfficientNet或MobileNet,IPU对比GPU展现出巨大优势,做到成倍的性能提升,同时时延大大降低。

创新架构需要软硬协同设计

IPU所采用的片上存储架构,确实是未来计算结构的发展方向之一,但从芯片设计和应用角度而言,这是一大挑战。

片上存储通常有两种架构,一是在片上规划单块大规模的存储,这种方式通常会导致良品率极低。另一种架构就是Graphcore这样的分布式片上存储架构。但这又带来了新的挑战:如何把分布式存储架构有效利用起来?这对编译器的要求非常高,可以说是软件、硬件协同设计的过程。要做出能够真正落地的产品,最核心的挑战就是软硬件两方面的专业知识和经验。

为了提升芯片的可用性,以及便于用户和开发者更方便地在系统中进行开发、移植、优化,Graphcore将产品扩展到囊括庞大的部署软件和基础架构套件,通过Poplar SDK给用户提供更好的体验。而这通常是头部厂商如英伟达在推进GPU大规模应用时才有的举动。

Poplar SDK是架构在机器学习上的框架软件(比如TensorFlow、ONNX、PyTorch和PaddlePaddle)和硬件之间的一个基于计算图的整套工具链和库。Poplar SDK支持容器化部署,能够快速启动并运行。在标准生态方面,Poplar SDK支持Docker、Kubernetes、以及微软的Hyper-v等虚拟化技术和安全技术。在操作系统方面,Poplar SDK目前支持最主要的三个Linux发行版:ubuntu、RedHat Enterprise Linux、CentOS。

今年5月,Graphcore还推出了PopVision Graph Analyser分析工具,用户可以通过这个可视化的图形展示工具来分析软件运行情况、调试效率。

目前基于IPU的一些应用已覆盖到机器学习的各个应用领域,包括自然语言处理、图像/视频处理、时序分析、推荐/排名及概率模型。一些应用案例和模型已经在TensorFlow、ONNX和Graphcore的PopART上可用,所有源代码都可以在GitHub处下载

新冠疫情下“小兵”立大功

当前,全球都希望更高效地攻克新冠疫情中的难题。这时,AI在高清医学影像领域就体现出了重要价值。

第一,疫情发展非常快,不断有新的病例、影像和数据产生,这就要求现有的模型要不断根据新的情况来提高精度。

第二,疫情造成全球医疗资源紧缺。放射影片往往需要富有经验的医生进行判断,而在资源紧张的情况下,AI工具可以帮助更多医生获得更专业的判断力。

第三,全球都迫切需要攻克病毒的研究成果,如何提高研究效率至关重要。

Graphcore中国销售总监朱江,就本文开头所提到的微软训练CXR(胸部X光射线检查)的应用案例,详细介绍了IPU与英伟达 V100的对比情况。
朱江
Graphcore中国销售总监

微软专门开发了SONIC CV模型进行训练,IPU和GPU的训练结果对比如下图:左边是训练时间,IPU优势明显。右边红色曲线代表训练时精度上升的情况,蓝色曲线代表测试精度。可以看到测试精度和训练精度较为接近甚至吻合,这也说明SONIC模型在泛化性能上更好,在针对未知的新数据方面,其处理能力比微软传统的EfficientNet模型更好。整体上,SONIC的模型通过30分钟的训练达到94%的训练精度和测试精度,训练速度方面,IPU需要30分钟,而GPU差不多需要5个小时。

通过这一训练,微软认为能够训练到SOTA的精度的模型不一定是大模型,可以用小模型来达到这样的精度要求。另外,IPU的MIMD架构非常适用于以分组卷积为代表的新模型。

据了解,目前微软已采用IPU来进行计算机视觉中分类方面的训练,能达到一个数量级的速度提升。未来,微软期望把IPU在CV领域的应用扩展到更多方面,包括监测、分割以及配准。

创新带给Graphcore的底气

迄今为止,Graphcore获得了AI领域多位重量级人物的背书。

英国半导体之父、Arm联合创始人Hermann爵士认为:“在计算机历史上只发生过三次革命,一次是70年代的CPU,第二次是90年代的GPU,而Graphcore就是第三次革命。”意指其率先提出了为AI计算而生的IPU。

AI教父Geoff Hinton教授在接受Wired采访时,被问到 “我们应该如何构建功能更像大脑的机器学习系统”时,从钱包中掏出了一个又大又亮的硅片,并回答说:“我们需要转向不同类型的计算机来处理新的机器学习系统。”他认为Graphcore的IPU正在满足这样的系统需求。


迄今为止,Graphcore总融资超过4.5亿美金,其中包括全球知名的金融投资者和战略投资者。

不论是技术本身所带来的创新地位,还是大佬的站台或融资历程,Graphcore的履历都堪称漂亮。

不过,作为一家初创企业,Graphcore直面的都是业界巨擘。强如英伟达,也已经感受了种种威胁,正在加速创新。上个月,英伟达推出了基于Ampere架构的NVIDIA A100,将AI训练和推理性能提高20倍,可以说是英伟达GPU迄今为止最大的性能飞跃。

对于未来的竞争,Graphcore方面信心满满。卢涛表示,虽然目前对比的都是与V100这样的大量部署的旗舰级产品,但即使是第一代IPU产品也不会输于A100,且下一代IPU处理器也将有重磅发布。

未来的推进策略,Graphcore还是会在训练和推理两方面并行,聚焦对高精度、低时延、高吞吐量要求更高的场景。另外还有一个趋势是训练和推理混布的需求,例如视频平台、电商网站等希望通过算法同时进行训练和推理,能够根据用户数据实时更新算法模型;未来的汽车应用也是训练和推理混布的场景,都将有一定的增长。

积极拥抱中国AI生态圈

在中国,Graphcore刚与两大头部客户有了重大进展。

一是阿里巴巴新的开放式深度学习API ODLA(Open Deep Learning API)支持Graphcore IPU,某种程度上,这也反映了数据中心对IPU的计算需求正在增长。

二是成为百度飞桨(PaddlePaddle)硬件生态圈共建计划伙伴之一,这一合作使Graphcore进入了中国深度学习开源框架的生态系统中,触及百万以上的AI开发者。

卢涛表示,Graphcore正在积极拥抱中国的AI生态圈,中国市场未来有望占据其全球市场的40%甚至50%

本文由电子发烧友网原创,未经授权禁止转载。如需转载,请添加微信号elecfans999.

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4700

    浏览量

    128677
  • IPU
    IPU
    +关注

    关注

    0

    文章

    34

    浏览量

    15546
  • AI芯片
    +关注

    关注

    17

    文章

    1859

    浏览量

    34901
  • AI2020
    +关注

    关注

    1

    文章

    22

    浏览量

    5929
收藏 人收藏

    评论

    相关推荐

    亿铸科技荣登中国潜在独角兽企业榜单

    在近日举办的“2024中国潜在独角兽企业发展大会”上,长城战略咨询隆重发布了《GEI中国潜在独角兽企业研究报告2024》,深度剖析了中国潜在独角兽企业的最新发展动态。该报告连续第五年发布,亿铸科技荣誉入选《中国潜在
    的头像 发表于 11-18 10:12 131次阅读

    主线科技荣登中国潜在独角兽企业榜单

    日前,长城咨询重磅发布2024年GEI中国潜在独角兽企业榜单及研究报告。主线科技凭借卓越的技术硬实力、前瞻性的市场布局以及持续的创新活力,从众多竞争者中脱颖而出,荣获“潜在独角兽”称号。中国潜在
    的头像 发表于 11-12 17:17 404次阅读

    实力登榜!广域铭岛入选中国潜在独角兽企业

    近日,2024中国潜在独角兽企业发展大会在中国工业博物馆举办,会上发布的《中国潜在独角兽企业研究报告2024》,揭晓了“2023中国潜在独角兽榜单”,展示了中国潜在独角兽企业的最新发展
    的头像 发表于 10-30 11:14 158次阅读
    实力登榜!广域铭岛入选中国潜在<b class='flag-5'>独角兽</b>企业

    润芯微科技荣获中国潜在独角兽企业

    近日,长城战略咨询在2024东北亚(沈阳)人才交流大会暨中国潜在独角兽企业发展大会上揭晓了“中国潜在独角兽企业榜单”,润芯微科技(江苏)有限公司凭借卓越的创新能力和快速发展势头,成功入选该榜单。此前
    的头像 发表于 10-29 14:39 210次阅读

    用智能DAC揭开医疗报警设计的神秘面纱

    电子发烧友网站提供《用智能DAC揭开医疗报警设计的神秘面纱.pdf》资料免费下载
    发表于 09-14 10:50 0次下载
    用智能DAC<b class='flag-5'>揭开</b>医疗报警设计的<b class='flag-5'>神秘</b><b class='flag-5'>面纱</b>

    AI芯片独角兽壁仞科技启动上市辅导

    近日,备受瞩目的AI芯片独角兽企业——上海壁仞科技股份有限公司正式在上海证监局完成辅导备案登记,标志着其向首次公开发行股票并上市的目标迈出了坚实的一步。此次辅导券商选定为国泰君安,彰显
    的头像 发表于 09-12 17:35 575次阅读

    2023年中国传感器跑出9家独角兽公司,总估值1807亿!(附全名单)

    核聚变、GPU芯片、半导体材料、氢能、新型储能、合成生物等领域加快涌现独角兽企业。集成电路、清洁能源、商业航天等前沿科技领域独角兽企业数量占比近七成(249家),新晋独角兽企业中这一比
    的头像 发表于 06-20 15:43 6028次阅读
    2023年中国传感器跑出9家<b class='flag-5'>独角兽</b>公司,总估值<b class='flag-5'>达</b>1807亿!(附全名单)

    第一批大模型独角兽开始“挤泡沫”

    避免在“AI黄昏”被挤出,将是中腰部独角兽们接下来的第一要务
    的头像 发表于 06-12 12:18 1917次阅读
    第一批大模型<b class='flag-5'>独角兽</b>开始“挤泡沫”

    从对英伟达到被收购,AI独角兽Graphcore的多舛命运

    电子发烧友网报道(文/周凯扬)对于AI芯片初创公司而言,不少都将英伟视作超越目标,在他们产品的各项指标上,也往往会拿英伟
    的头像 发表于 05-14 00:09 2513次阅读

    揭开快充芯片神秘面纱

    UFP芯片是一种用于USB快充技术的关键元件,它在移动设备和充电器之间进行通信和协调,以实现高效、安全、快速的充电过程。下面我们将揭开快充芯片神秘
    的头像 发表于 04-15 12:51 564次阅读

    2024全球独角兽排名:美中印领先,SpaceX升至第二

    目前,全球独角兽企业总量已达1453家,较去年增长7%。其中,美国以703家独角兽领衔,增量为37家,占据全球总份额的48%。紧随其后的则是中国,独角兽企业数为340家,但相比去年仅增加了24家。印度排名第三,
    的头像 发表于 04-10 11:20 985次阅读

    英国AI芯片独角兽Graphcore考虑出售

    近日,英国AI芯片领域的独角兽企业Graphcore陷入财务困境,据传正在考虑出售给海外买家以筹集新资金并弥补严重亏损。据外媒报道,Graphcore正与多家主要科技公司探讨潜在交易,其中包括英国半导体IP巨头Arm、日本软银集
    的头像 发表于 02-19 13:46 588次阅读

    海辰储能高质量发展产值破百亿获颁“厦门市首家独角兽企业”

    为加强对独角兽企业精准服务,培厚厦门市科技创新沃土,促进企业高质量发展。厦门市政府向海辰储能授予“厦门市首家独角兽企业”称号。2023年海辰储能相继入围福布斯中国新生代“独角兽”和长城战略咨询《中国
    的头像 发表于 01-19 16:11 676次阅读

    踏歌智行入选“2023中国汽车独角兽/隐形独角兽100强榜单”

    近日,首届中国汽车独角兽大会以“汽车独角兽催生新汽车”为主题在安徽马鞍山市举办,“2023中国汽车独角兽/隐形独角兽100强榜单”于会议期间发布,踏歌智行作为矿区无人驾驶领域唯一上榜企
    的头像 发表于 12-14 09:09 1339次阅读

    谷歌揭秘Gemini,AMD对峙英伟

    今天,我们看到谷歌揭开了多模态AI模型Gemini的神秘面纱,AMD挑战英伟
    的头像 发表于 12-07 20:05 706次阅读