0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

IPU 与 GPU 间无缝衔接,未来聚焦数据中心的AI训练和推理部署

工程师邓生 来源:DeepTech深科技 作者:DeepTech深科技 2021-01-02 10:22 次阅读

“不管是在今天 GPU 能够做的事情上,还是 GPU 不能做的事情上,IPU 都有它的价值点和价值定位。” 日前,在英国 AI 芯片初创公司 Graphcore 中国区的媒体沟通会上,Graphcore 高级副总经理兼中国区总经理卢涛和 Graphcore 中国工程总负责人、AI 算法科学家金琛,就 Graphcore 的新产品性能以及该公司在中国的落地策略向 DeepTech 等媒体进行了同步。

沟通会上,Graphcore 解读了其于本月公布的大规模系统级产品 IPU-M2000 的应用测试数据。公布数据显示,在典型 CV 模型 ResNet、基于分组卷积的 ResNeXt、EfficientNet、语音模型、BERT-Large 等自然语言处理模型以及 MCMC 等传统机器学习模型中,IPU-M2000 在吞吐量、训练时间和学习结果生成时间方面都有较好表现。比如,在 IPU-M2000 上 EfficientNet 的吞吐量达到 A100 的 18 倍。

图 | IPU-M2000 与 GPU 的吞吐量、训练及结果生成时间对比(来源:Graphcore)

66e3cb43bec8442f90d9105440bb1a58.jpeg

此前,IPU-M2000 与 Graphcore 第二代 IPU 处理器 GC200 已于今年 7 月 15 日发布。据介绍,GC200 芯片基于台积电的 7nm 工艺制造,集成 250 TFlops AI-Float 算力和 900MB 处理器内存,相较第一代产品性能提升 8 倍。而对于第三代 IPU,卢涛在此次沟通会上并未透露发布的具体时间表,不过他表示下一代产品正在研发中,将依旧重点解决存储问题。

支持 PyTorch、TensorFlow,在 IPU 与 GPU 间无缝衔接

另外,Graphcore 还发布了 Poplar SDK 1.4 版本和 PyTorch 的 IPU 版本。

Graphcore 对 Poplar SDK 1.4 版本在易用性和速度上进行了优化,能够支持模型和数据并行,同时能够实现模型的横向扩展 —— 从 1 个 IPU 横向扩展到 64 个 IPU。金琛表示,下一版本的 Poplar SDK 有望实现横向扩展到 128 个 IPU。

值得关注的是,除支持 Graphcore 的自研框架 PopART 外,Poplar SDK 1.4 还支持 Facebook 的 PyTorch 框架、以及 Google 的 TensorFlow 框架。

据金琛介绍,Graphcore 在 PyTorch 代码中引入了 PopTorch 轻量级接口,通过这一接口,用户可基于当前的 PyTorch 模型进行封装,以实现 IPU 和 CPU 之间的无障碍衔接。

对于实现这一功能的核心技术,金琛做进一步解释说,Graphcore 采用 PyTorch 里的 jit.trace 机制对计算图进行编译,转化为 IPU 和 PyTorch 兼容的表达格式,最后用 Graphcore 自研框架 PopART 后端的 audiff 功能自动生成反向图,便可以实现同一个模型在不同平台的无差别运行。

目前,PyTorch 因其直观易懂、灵活易用等优势受到开发者的广泛喜爱和应用。Poplar SDK 1.4 增加了对 PyTorch 的支持,策略上是希望用户在 IPU 上也能体验 PyTorch,让用户多一个转战 IPU 的理由。不过目前英伟达的 GPU 已经在 AI 计算领域占据大部分市场,此时 IPU 能够提供的价值、转场到 IPU 的成本等,都是用户所要考虑的问题。

在迁移成本上,卢涛表示,经过几年来对 Poplar SDK 的打磨,现在从 GPU 到 IPU 的软硬件迁移难度已经比大家认为的小得多。

金琛补充道,在训练上,针对一个不太复杂的模型,一般一周可以迁移完成,对于复杂的模型大概需要两周;在推理上,基本上是 1-2 天的工作量。

谈及性能,卢涛表示:“IPU 在训练推理、语音、图像模型处理上基本全面超越 GPU。” 不过他也坦言:“不能说 100% 超越了 GPU,因为算法模型确实非常多,比如说语音有不同的语音模型、图像也是有不同的图像模型。”

未来:持续优化性能,进一步压缩迁移成本

IPU 在机器学习性能上的明显优势是不可否认的,但前有身强体壮且努力奔跑的巨头英伟达,Graphcore 更是一刻也不容懈怠。卢涛在沟通会上也多次提到,“目前 Graphcore 面对的压力最主要还是来自英伟达”。

“重压” 之下,Graphcore 短期内的计划是聚焦在数据中心高性能训练和推理市场上,持续打磨 IPU 和软件平台,持续优化性能和提高可用性。卢涛说,“只有在我们聚焦的领域跑得更快,Graphcore 和英伟达之间的距离才会越来越短,甚至在某些领域超过英伟达”。

他还表示,Graphcore 希望未来数年内,能在数据中心的 AI 训练、推理批量部署、以及发货和体量上做到除英伟达以外的另一个头部地位。

为实现该目标,Graphcore 也将从增加 AI 框架支持、以及模型覆盖两个维度着手,以期进一步减少用户的迁移成本。此外,除目前 AI 应用最广泛的互联网和云计算两个场景外,卢涛表示公司明年还将在金融、汽车、智慧医疗、智慧教育、智慧城市和政府服务等领域,至少突破一到两个比较主流的领域。

责任编辑:PSY

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4700

    浏览量

    128679
  • 数据中心
    +关注

    关注

    16

    文章

    4673

    浏览量

    71944
  • IPU
    IPU
    +关注

    关注

    0

    文章

    34

    浏览量

    15546
收藏 人收藏

    评论

    相关推荐

    超云亮相2024数据中心标准大会,展示AI全栈推理硬件创新成果

    11月20日-21日,CDCC 2024第十二届数据中心标准大会在北京国家会议中心隆重召开。作为数据中心行业规模最大的高端会议,本届大会以“AI之光,照耀
    的头像 发表于 11-22 09:54 51次阅读
    超云亮相2024<b class='flag-5'>数据中心</b>标准大会,展示<b class='flag-5'>AI</b>全栈<b class='flag-5'>推理</b>硬件创新成果

    华迅光通AI计算加速800G光模块部署

    近年来,在人工智能计算需求不断增长的推动下,对GPU和其他计算硬件的需求急剧飙升。仅今年一年,英伟达的股价就上涨了200%以上,这一点显而易见。此外,由于数据中心的人工智能训练需要高速数据
    发表于 11-13 10:16

    为什么ai模型训练要用gpu

    GPU凭借其强大的并行处理能力和高效的内存系统,已成为AI模型训练不可或缺的重要工具。
    的头像 发表于 10-24 09:39 190次阅读

    SK电讯将与Lambda合作打造AI数据中心

    韩国领先的电信巨头SK电讯(SK Telecom)宣布了一项重要合作计划,将与美国知名的云GPU服务提供商Lambda携手,于2024年12月在首尔共同推出一个先进的人工智能(AI数据中心。该
    的头像 发表于 08-23 17:29 1241次阅读

    AI时代,我们需要怎样的数据中心AI重新定义数据中心

    超过60%的中国企业计划在未来12至24个月内部署生成式人工智能。AI、模型的构建,将颠覆数据中心基础设施的建设、运维和运营。一个全新的数据中心
    发表于 07-16 11:33 657次阅读
    <b class='flag-5'>AI</b>时代,我们需要怎样的<b class='flag-5'>数据中心</b>?<b class='flag-5'>AI</b>重新定义<b class='flag-5'>数据中心</b>

    数据中心液冷需求、技术及实际应用

    夏日炎炎,数据中心制冷技术全新升级,液冷散热,让服务器清凉一夏。本文将带您一起探索数据中心液冷需求、技术及实际应用。 1 数据中心液冷需求 AI浪潮来袭,
    的头像 发表于 06-19 11:12 774次阅读
    <b class='flag-5'>数据中心</b>液冷需求、技术及实际应用

    英伟达数据中心GPU出货量飙升,市场份额持续领跑

    ,英伟达在2023年数据中心GPU出货量方面实现了爆炸式增长,这一增长不仅彰显了其在数据中心领域的领先地位,也预示着英伟达在AI和云计算等前沿技术领域的持续发力。
    的头像 发表于 06-13 17:08 883次阅读

    Napatech IPU解决方案助力优化数据中心存储工作负载

    Napatech是全球领先的智能网卡(SmartNIC)和IPU解决方案供 应商,业务范围涵盖云计算、企 业和电信数据中心应用等领域。
    的头像 发表于 05-29 11:50 555次阅读
    Napatech <b class='flag-5'>IPU</b>解决方案助力优化<b class='flag-5'>数据中心</b>存储工作负载

    HNS 2024:星河AI数据中心网络,赋AI时代新动能

    华为数据通信创新峰会2024在巴库隆重举办,在“星河AI数据中心网络,赋AI时代新动能”主题论坛中,华为面向中东中亚地区发布星河AI
    的头像 发表于 05-15 09:15 595次阅读
    HNS 2024:星河<b class='flag-5'>AI</b><b class='flag-5'>数据中心</b>网络,赋<b class='flag-5'>AI</b>时代新动能

    进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

    。 **英伟达Blackwell架构在数据中心方面的应用有哪些?** 1. **AI **大模型训练 Blackwell 架构的 GPU 针对当前火爆的
    发表于 05-13 17:16

    AI推理,和训练有什么不同?

    如果要用一句话概括AI训练推理的不同之处,我觉得用“台上一分钟,台下十年功”最为贴切。话说小明已经和心目中的女神交往数年,在邀约女神出门这件事上积累了大量的经验数据,但却依然捉摸不
    的头像 发表于 04-29 08:06 210次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>,和<b class='flag-5'>训练</b>有什么不同?

    AI训练,为什么需要GPU

    随着由ChatGPT引发的人工智能热潮,GPU成为了AI大模型训练平台的基石,甚至是决定性的算力底座。为什么GPU能力压CPU,成为炙手可热的主角呢?要回答这个问题,首先需要了解当前人
    的头像 发表于 04-24 08:05 1075次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>训练</b>,为什么需要<b class='flag-5'>GPU</b>?

    Meta将于今年在数据中心部署新款定制AI芯片

    Meta近日宣布,计划于2024年在其数据中心部署新款内部定制的AI芯片。这款芯片将用于支持Meta的人工智能业务,进一步提升数据处理和运算效率。
    的头像 发表于 02-04 10:17 712次阅读

    微模块数据中心的优势

    微模块数据中心是以模块化、标准化的架构和高效高可靠的UPS、精密空调等灵活组合于一体打造的模块化数据中心基础设施,可实现灵活快速部署、高效节省、智能管理等优点成为企业未来
    的头像 发表于 01-19 13:53 623次阅读

    Microchip CEO博文《AI将如何重新定义数据中心?》

    训练和运行的模型的大小,生成式AI的基础设施需求预计将比早期AI模型高出10到100倍。事实上,所有数据中心基础设施都受到这一趋势的影响,包括电力、HVAC、网络和物理布局。
    的头像 发表于 12-11 14:50 1307次阅读
    Microchip CEO博文《<b class='flag-5'>AI</b>将如何重新定义<b class='flag-5'>数据中心</b>?》