0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

二代IPU性能超过GPU且全面支持PyTorch

hl5C_deeptechch 来源:DeepTech深科技 作者:DeepTech深科技 2020-12-30 15:43 次阅读

“不管是在今天 GPU 能够做的事情上,还是 GPU 不能做的事情上,IPU 都有它的价值点和价值定位。” 日前,在英国 AI 芯片初创公司 Graphcore 中国区的媒体沟通会上,Graphcore 高级副总经理兼中国区总经理卢涛和 Graphcore 中国工程总负责人、AI 算法科学家金琛,就 Graphcore 的新产品性能以及该公司在中国的落地策略向 DeepTech 等媒体进行了同步。

沟通会上,Graphcore 解读了其于本月公布的大规模系统级产品 IPU-M2000 的应用测试数据。公布数据显示,在典型 CV 模型 ResNet、基于分组卷积的 ResNeXt、EfficientNet、语音模型、BERT-Large 等自然语言处理模型以及 MCMC 等传统机器学习模型中,IPU-M2000 在吞吐量、训练时间和学习结果生成时间方面都有较好表现。比如,在 IPU-M2000 上 EfficientNet 的吞吐量达到 A100 的 18 倍。

bf6a28a2-4a2e-11eb-8b86-12bb97331649.jpg

图 | IPU-M2000 与 GPU 的吞吐量、训练及结果生成时间对比(来源:Graphcore)

此前,IPU-M2000 与 Graphcore 第二代 IPU 处理器 GC200 已于今年 7 月 15 日发布。据介绍,GC200 芯片基于台积电的 7nm 工艺制造,集成 250 TFlops AI-Float 算力和 900MB 处理器内存,相较第一代产品性能提升 8 倍。而对于第三代 IPU,卢涛在此次沟通会上并未透露发布的具体时间表,不过他表示下一代产品正在研发中,将依旧重点解决存储问题。

支持 PyTorch、TensorFlow,在 IPU 与 GPU 间无缝衔接

另外,Graphcore 还发布了 Poplar SDK 1.4 版本和 PyTorch 的 IPU 版本。

Graphcore 对 Poplar SDK 1.4 版本在易用性和速度上进行了优化,能够支持模型和数据并行,同时能够实现模型的横向扩展 —— 从 1 个 IPU 横向扩展到 64 个 IPU。金琛表示,下一版本的 Poplar SDK 有望实现横向扩展到 128 个 IPU。

值得关注的是,除支持 Graphcore 的自研框架 PopART 外,Poplar SDK 1.4 还支持 Facebook 的 PyTorch 框架、以及 Google 的 TensorFlow 框架。

据金琛介绍,Graphcore 在 PyTorch 代码中引入了 PopTorch 轻量级接口,通过这一接口,用户可基于当前的 PyTorch 模型进行封装,以实现 IPU 和 CPU 之间的无障碍衔接。

对于实现这一功能的核心技术,金琛做进一步解释说,Graphcore 采用 PyTorch 里的 jit.trace 机制对计算图进行编译,转化为 IPU 和 PyTorch 兼容的表达格式,最后用 Graphcore 自研框架 PopART 后端的 audiff 功能自动生成反向图,便可以实现同一个模型在不同平台的无差别运行。

目前,PyTorch 因其直观易懂、灵活易用等优势受到开发者的广泛喜爱和应用。Poplar SDK 1.4 增加了对 PyTorch 的支持,策略上是希望用户在 IPU 上也能体验 PyTorch,让用户多一个转战 IPU 的理由。不过目前英伟达的 GPU 已经在 AI 计算领域占据大部分市场,此时 IPU 能够提供的价值、转场到 IPU 的成本等,都是用户所要考虑的问题。

在迁移成本上,卢涛表示,经过几年来对 Poplar SDK 的打磨,现在从 GPU 到 IPU 的软硬件迁移难度已经比大家认为的小得多。

金琛补充道,在训练上,针对一个不太复杂的模型,一般一周可以迁移完成,对于复杂的模型大概需要两周;在推理上,基本上是 1-2 天的工作量。

谈及性能,卢涛表示:“IPU 在训练推理、语音、图像模型处理上基本全面超越 GPU。” 不过他也坦言:“不能说 100% 超越了 GPU,因为算法模型确实非常多,比如说语音有不同的语音模型、图像也是有不同的图像模型。”

未来:持续优化性能,进一步压缩迁移成本

IPU 在机器学习性能上的明显优势是不可否认的,但前有身强体壮且努力奔跑的巨头英伟达,Graphcore 更是一刻也不容懈怠。卢涛在沟通会上也多次提到,“目前 Graphcore 面对的压力最主要还是来自英伟达”。

“重压” 之下,Graphcore 短期内的计划是聚焦在数据中心高性能训练和推理市场上,持续打磨 IPU 和软件平台,持续优化性能和提高可用性。卢涛说,“只有在我们聚焦的领域跑得更快,Graphcore 和英伟达之间的距离才会越来越短,甚至在某些领域超过英伟达”。

他还表示,Graphcore 希望未来数年内,能在数据中心的 AI 训练、推理批量部署、以及发货和体量上做到除英伟达以外的另一个头部地位。

为实现该目标,Graphcore 也将从增加 AI 框架支持、以及模型覆盖两个维度着手,以期进一步减少用户的迁移成本。此外,除目前 AI 应用最广泛的互联网和云计算两个场景外,卢涛表示公司明年还将在金融、汽车、智慧医疗、智慧教育、智慧城市和政府服务等领域,至少突破一到两个比较主流的领域。

原文标题:二代IPU性能超过GPU、全面支持PyTorch,Graphcore接下来将聚焦数据中心的AI训练和推理部署

文章出处:【微信公众号:DeepTech深科技】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4667

    浏览量

    128548
  • AI
    AI
    +关注

    关注

    87

    文章

    29665

    浏览量

    268004
  • IPU
    IPU
    +关注

    关注

    0

    文章

    34

    浏览量

    15533
  • pytorch
    +关注

    关注

    2

    文章

    802

    浏览量

    13105

原文标题:二代IPU性能超过GPU、全面支持PyTorch,Graphcore接下来将聚焦数据中心的AI训练和推理部署

文章出处:【微信号:deeptechchina,微信公众号:deeptechchina】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    PyTorch GPU 加速训练模型方法

    在深度学习领域,GPU加速训练模型已经成为提高训练效率和缩短训练时间的重要手段。PyTorch作为一个流行的深度学习框架,提供了丰富的工具和方法来利用GPU进行模型训练。 1. 了解GPU
    的头像 发表于 11-05 17:43 271次阅读

    路畅科技发布百秘盾二代加密记录仪,全面升级汽车数据安全防护

    10月25日,路畅科技正式揭晓了其最新的研发成果——百秘盾二代加密记录仪,并宣布该产品将于10月28日全面登陆各大电商平台。这一举动标志着路畅科技在强化汽车记录仪音视频数据安全领域取得了重大进展。
    的头像 发表于 11-05 11:28 266次阅读

    强茂发布高效低耗第二代ESD保护极管

    强茂科技近日宣布推出其最新一静电保护元件——第二代ESD保护极管,该产品在性能上实现了重大飞跃。这款新品不仅融合了高效率与低漏电流的双重优势,更在高频环境下展现出卓越
    的头像 发表于 09-12 17:48 537次阅读

    二代身份证识别仪身份证阅读器读卡器

    :106kBd ?供电电压:3.3V~5V ?待机电流:<40mA ?读卡电流:<100mA 1.3应用范围 ?适用于需要二代居民身份证读卡类功能终端 ?适用于办公区域、酒店
    发表于 09-07 15:09

    高通推出第二代骁龙4s移动平台

    高通技术公司今日宣布推出第二代骁龙4s移动平台,旨在让5G更普及、更可靠。这一全新平台再次展示了高通致力于用工程技术创新推动进步的承诺,引领全球从4G向5G演进,赋能各个社区和千行百业。第二代骁龙
    的头像 发表于 08-01 10:12 621次阅读

    tensorflow和pytorch哪个更简单?

    PyTorch更简单。选择TensorFlow还是PyTorch取决于您的具体需求和偏好。如果您需要一个易于使用、灵活具有强大社区支持的框架,Py
    的头像 发表于 07-05 09:45 693次阅读

    二代SiC碳化硅MOSFET关断损耗Eoff

    二代SiC碳化硅MOSFET关断损耗Eoff
    的头像 发表于 06-20 09:53 397次阅读
    第<b class='flag-5'>二代</b>SiC碳化硅MOSFET关断损耗Eoff

    瑞芯微第二代8nm高性能AIOT平台 RK3576 详细介绍

    ArmSoM-Sige5采用Rockchip 第二代8nm高性能AIOT处理器 RK3576,主频高达2.2GHz,6 TOPS算力NPU , 支持ufs ,双USB,双网口,全功能typec,兼容树莓派40pin arms
    发表于 03-12 13:45

    airpods一二代区别充电仓

    二代AirPods的充电仓有许多显著的区别。 AirPods是由苹果公司推出的一款无线耳机。随着技术的发展,AirPods也得到了一些更新和改进。一AirPods于2016年推出,二代
    的头像 发表于 02-01 13:52 3407次阅读

    高通第二代骁龙XR2+平台支持4.3K单眼分辨率

    高通技术公司近日宣布推出全新第二代骁龙®XR2+平台,这一创新平台旨在为MR和VR设备带来更出色的性能和体验。第二代骁龙XR2+平台具备强大的硬件配置,支持高达4.3K的单眼分辨率和1
    的头像 发表于 01-08 15:22 864次阅读

    高通发布第二代骁龙XR2+平台,开辟MR和VR新体验

    近日,高通技术公司再次引领行业前沿,推出了全新的第二代骁龙XR2+平台。这一平台的性能显著提升,其中GPU频率提升了15%,CPU频率提升了20%,为MR和VR体验开辟了全新的可能性。
    的头像 发表于 01-05 15:19 577次阅读

    荣耀100 Pro搭载第二代骁龙8移动平台

    在新荣耀三周年暨荣耀100系列新品发布会上,荣耀100 Pro闪耀登场,让数字系列再次引领时尚影像新风潮。荣耀100 Pro搭载 第二代骁龙8移动平台 ,将独特的美学设计、出色的性能表现、单反级写真相机以及创新的智能体验融于一体。本期体验报告,一起来感受这款时尚新品从设计
    的头像 发表于 01-02 11:43 1417次阅读

    特斯拉二代4680电芯拆解分析

    相较于特斯拉的一电芯,特斯拉的二代电芯(因为容量变化不大,我们后面把它称为1.5,特斯拉定义的二代电芯是装配到CyberTruck上的Cybercell)。
    发表于 12-20 14:47 1281次阅读
    特斯拉<b class='flag-5'>二代</b>4680电芯拆解分析

    “富二代”IC设计公司缘何“富不过三”?

    来源:半导体投资联盟,谢谢 编辑:感知芯视界 万仞 集微网报道 那边厢国际大厂在接力裁员,这边厢国内“富二代”IC设计公司则相继爆雷。继TCL摩星半导体之后,复星集团旗下复睿微电子被传出解散。加上
    的头像 发表于 12-11 13:26 313次阅读

    Redmi K70系列发布:全面进化的新一性能旗舰

    Redm i K70 Pro亮点 一览 第三骁龙8移动平台 无界美学设计 第二代高端2K直屏 支持Snapdragon Elite Gaming 支持Snapdragon Sound
    的头像 发表于 11-29 23:45 1240次阅读
    Redmi K70系列发布:<b class='flag-5'>全面</b>进化的新一<b class='flag-5'>代</b><b class='flag-5'>性能</b>旗舰