0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

阿里云震旦异构计算加速平台基于NVIDIA Tensor Core GPU

GLeX_murata_eet 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达企业解 2021-08-13 10:17 次阅读

阿里云震旦异构计算加速平台基于NVIDIA Tensor Core GPU,通过机器学习模型的自动优化技术,大幅提升了算子的执行效率,刷新了NVIDIA A100、A10、T4的GPU单卡性能。并基于8张NVIDIA A100 GPU和开放规则,以离线场景下每秒处理107.8万张图片的成绩,打破MLPerf 1.0推理性能测试纪录。

阿里云自研震旦异构计算加速平台,适配GPU、ASIC等多种异构AI芯片,优化编译代码,深挖和释放异构芯片算力,支持TensorFlow、Caffe、PAI等多种深度学习框架,可实现AI框架及算法的无缝迁移适配,支持云变端多场景快速部署,大幅提升AI应用开发效率。

在MLPerf推理性能测试结果1.0版中,震旦异构计算加速平台,基于8卡NVIDIA A100 GPU配置上性能夺魁,在开放规则的离线场景下取得每秒处理107.8万张图片的成绩。

首先在顶层算法模型上,使用基于自动机器学习(AutoML)的模型设计方式,这种方式可以获得比人工设计更高效的模型。震旦基于MIT的先进的神经网络架构搜索算法Once-For-All。

使用了基于强化学习的自研搜索算法获得了高性能子网络;之后通过INT8量化获得硬件加速继续提高性能,并在量化前进行深度重训练,以保证量化后的精度能够达到测试的精度要求。

IRB即反转残差块(Inverted Residual Block),是用于网络架构搜索的基本模块。每个反转残差块包括三层卷积算子,图上反转残差块的长度代表了该块的输出channel数量。

一般机器学习框架的算子实现专注于优化主流的神经网络架构,而对于NAS的反转残差块则效率不佳,震旦使用了基于自动调优的大规模算子融合技术,大幅提高了推理时算子对GPU的利用率,并且可根据不同的架构自动调优到最佳算子实现。

因此能快速发掘全新GPU架构的潜力,例如对于A100上通过MIG(多实例GPU)技术产生的具有不同计算资源的GPU实例,震旦算子优化技术可以通过自动调优来进一步提升计算资源利用率。

打破纪录的背后,在硬件平台上也得益于NVIDIA A100 GPU 强大的算力支持,近5倍于上一代的INT8性能使得超越百万级性能成为可能。另外,NVIDIA GPU的通用性,即通过CUDA直接对硬件编程,使得用户可以针对其特有的神经网络模型进行定制优化,这让震旦基于GPU的自动算子调优技术成为了现实。

最终获得的调优算子可以更高效地利用A100最新的Tensor Core硬件指令以及更大的共享内存,从而交出了软硬件协同优化的满意答卷。

在MLPerf推理性能测试结果1.0版本图像分类性能测试中,阿里云震旦异构计算加速平台,基于NVIDIA A100 GPU平台和开放规则,在离线场景下以每秒处理107.8万张图片的成绩,打破了此前谷歌保持的绝对性能榜单的世界纪录。这也是阿里在通用GPU平台第一次取得100万+这样的成绩。

此次阿里云震旦异构计算加速平台基于NVIDIA通用GPU硬件,通过机器学习模型的自动优化技术,大幅提升了算子的执行效率,刷新了NVIDIA GPU单卡性能。无论是新推出的A100和A10,还是已面市3年的T4,都带来了单卡性能的大幅提升。

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • asic
    +关注

    关注

    34

    文章

    1182

    浏览量

    120218
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4673

    浏览量

    128555
  • AI芯片
    +关注

    关注

    17

    文章

    1850

    浏览量

    34837

原文标题:NVIDIA A100 GPU助力阿里云打破MLPerf推理性能测试纪录

文章出处:【微信号:murata-eetrend,微信公众号:murata-eetrend】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    GPU加速计算平台是什么

    GPU加速计算平台,简而言之,是利用图形处理器(GPU)的强大并行计算能力来
    的头像 发表于 10-25 09:23 188次阅读

    利用NVIDIA RAPIDS加速DolphinDB Shark平台提升计算性能

    DolphinDB 是一家高性能数据库研发企业,也是 NVIDIA 初创加速计划成员,其开发的产品基于高性能分布式时序数据库,是支持复杂计算和流数据分析的实时计算
    的头像 发表于 09-09 09:57 386次阅读
    利用<b class='flag-5'>NVIDIA</b> RAPIDS<b class='flag-5'>加速</b>DolphinDB Shark<b class='flag-5'>平台</b>提升<b class='flag-5'>计算</b>性能

    如何理解计算

    据的安全性。 **高性能计算:**计算平台提供高性能的计算资源,用于处理复杂的科学和工程计算
    发表于 08-16 17:02

    打造异构计算新标杆!国数集联发布首款CXL混合资源池参考设计

    参考设计是首个支持异构计算架构的CXL硬件设备,标志着CXL技术在数据中心领域迎来异构计算新阶段。   国数集联基于FPGA与自主研发的CXL协议IP的先进特性,可实现CPU、GPU、DDR、SSD
    的头像 发表于 08-06 14:19 254次阅读
    打造<b class='flag-5'>异构计算</b>新标杆!国数集联发布首款CXL混合资源池参考设计

    AvaotaA1全志T527开发板AMP异构计算简介

    Avaota SBC 的部分平台内具有小核心 CPU,与大核心一起组成了异构计算的功能。 在异构多处理系统中,主核心和辅助核心的存在旨在共同协作,以实现更高效的任务处理。这种协作需要系统采取一系列
    发表于 07-24 09:54

    异构计算:解锁算力潜能的新途径

    范式,智慧地解锁了计算潜能的新境界。异构计算:多元并蓄的智慧之选首先,让我们揭开异构计算的神秘面纱。简单来说,异构计算是指将不同类型的计算
    的头像 发表于 07-18 08:28 7361次阅读
    <b class='flag-5'>异构计算</b>:解锁算力潜能的新途径

    NVIDIA 通过 CUDA-Q 平台为全球各地的量子计算中心提供加速

    德国、日本和波兰的超级计算机利用 Grace-Hopper 和量子-经典加速超算平台推进量子计算研究     德国汉堡 —— 国际超算大会(ISC)—— 2024 年 5 月 13 日
    发表于 05-13 15:21 180次阅读
    <b class='flag-5'>NVIDIA</b> 通过 CUDA-Q <b class='flag-5'>平台</b>为全球各地的量子<b class='flag-5'>计算</b>中心提供<b class='flag-5'>加速</b>

    基于NVIDIA Megatron Core的MOE LLM实现和训练优化

    本文将分享阿里人工智能平台 PAI 团队与 NVIDIA Megatron-Core 团队在 MoE (Mixture of Expert
    的头像 发表于 03-22 09:50 679次阅读
    基于<b class='flag-5'>NVIDIA</b> Megatron <b class='flag-5'>Core</b>的MOE LLM实现和训练优化

    高通NPU和异构计算提升生成式AI性能 

    异构计算的重要性不可忽视。根据生成式AI的独特需求和计算负担,需要配备不同的处理器,如专注于AI工作负载的定制设计的NPU、CPU和GPU
    的头像 发表于 03-06 14:15 701次阅读

    《数据处理器:DPU编程入门》DPU计算入门书籍测评

    的架构服务,同时它一般不直接面向于数据存储,通信接口等底层应用。也不直接架构顶层的服务。 因此对于DPU系统来说,现在CPU仍然是GPU于DPU架构异构计算中必须存在的内容。 二、学习性开发 DPU
    发表于 12-24 10:54

    百度智能将在三大方面重构计算服务

    基础设施层,移动互联网时代的应用,底层大多依赖CPU算力,而AI应用对GPU异构计算的需求大幅增加,市场的底层算力需求将逐渐转向以GPU
    发表于 12-21 15:41 321次阅读
    百度智能<b class='flag-5'>云</b>将在三大方面重构<b class='flag-5'>云</b><b class='flag-5'>计算</b>服务

    什么是异构集成?什么是异构计算异构集成、异构计算的关系?

    异构集成主要指将多个不同工艺节点单独制造的芯片封装到一个封装内部,以增强功能性和提高性能。
    的头像 发表于 11-27 10:22 6702次阅读
    什么是<b class='flag-5'>异构</b>集成?什么是<b class='flag-5'>异构计算</b>?<b class='flag-5'>异构</b>集成、<b class='flag-5'>异构计算</b>的关系?

    NVIDIA 为全球领先的 AI 计算平台 Hopper 再添新动力

    Tensor Core GPU 和领先的显存配置,可处理生成式 AI 与高性能计算工作负载的海量数据。   NVIDIA H200 是首款
    发表于 11-14 14:30 225次阅读
    <b class='flag-5'>NVIDIA</b> 为全球领先的 AI <b class='flag-5'>计算</b><b class='flag-5'>平台</b> Hopper 再添新动力

    创新企业福利:腾讯 × NVIDIA 初创加速计划

    x NVIDIA 初创加速计划 助您降低产品使用门槛 高性能计算集 群 HCC 以高性能服务器为节点,通过 RDMA 互联,大幅提升网络性能,提供高带宽和极低延迟的网络服务,能满足
    的头像 发表于 11-13 20:40 539次阅读
    创新企业<b class='flag-5'>云</b>福利:腾讯<b class='flag-5'>云</b> × <b class='flag-5'>NVIDIA</b> 初创<b class='flag-5'>加速</b>计划

    177倍加速NVIDIA最新开源 | GPU加速各种SDF建图!

    但最近,NVIDIA和ETHZ就联合提出了nvblox,是一个使用GPU加速SDF建图的库。计算速度非常快,相较CPU计算TSDF甚至快了1
    的头像 发表于 11-09 16:46 1057次阅读
    177倍<b class='flag-5'>加速</b>!<b class='flag-5'>NVIDIA</b>最新开源 | <b class='flag-5'>GPU</b><b class='flag-5'>加速</b>各种SDF建图!