华为云刷新深度学习加速纪录-电子发烧友网

华为云ModelArts在国际权威的深度学习模型基准测试平台斯坦福DAWNBenchmark上取得了当前图像识别训练时间最佳成绩，ResNet-50在ImageNet数据集上收敛仅用10分28秒，比第二名成绩提升近44%。华为自研了分布式通用加速框架MoXing，在应用层和TensorFlow、MXNet、PyTorch等框架之间实现再优化。

日前，斯坦福大学发布了DAWNBenchmark最新成绩，在图像识别（ResNet50-on-ImageNet，93%以上精度）的总训练时间上，华为云ModelArts排名第一，仅需10分28秒，比第二名提升近44%。

斯坦福大学DAWNBenchmark图像识别训练时间最新成绩，华为云ModelArts以10分28秒排名第一，超越了fast.ai、谷歌等劲敌。

作为人工智能最重要的基础技术之一，近年来深度学习逐步延伸到更多的应用场景。除了精度，训练时间和成本也是构建深度学习模型时需要考虑的核心要素。然而，当前的深度学习基准往往以衡量精度为主，斯坦福大学DAWNBench正是在此背景下提出。

斯坦福DAWNBench是衡量端到端深度学习模型训练和推理性能的国际权威基准测试平台，提供了一套通用的深度学习评价指标，用于评估不同优化策略、模型架构、软件框架、云和硬件上的训练时间、训练成本、推理延迟以及推理成本，吸引了谷歌、亚马逊AWS、fast.ai等高水平队伍参与，相应的排名反映了当前全球业界深度学习平台技术的领先性。

正是在这样高手云集的基准测试中，华为云ModelArts第一次参加国际排名，便实现了更低成本、更快速度的体验。

华为云创造端到端全栈优化新纪录：128块GPU，10分钟训练完ImageNet

为了达到更高的精度，通常深度学习所需数据量和模型都很大，训练非常耗时。例如，在计算机视觉领域常用的经典ImageNet数据集（1000个类别，共128万张图片）上，用1块P100 GPU训练一个ResNet-50模型，耗时需要将近1周。这严重阻碍了深度学习应用的开发进度。因此，深度学习训练加速一直是学术界和工业界所关注的重要问题，也是深度学习应用的主要痛点。

曾任Kaggle总裁和首席科学家的澳大利亚数据科学家和企业家Jeremy Howard，与其他几位教授共同组建了AI初创公司fast.ai，专注于深度学习加速。他们用128块V100 GPU，在上述ImageNet数据集上训练ResNet-50模型，最短时间为18分钟。

最近BigGAN、NASNet、BERT等模型的出现，预示着训练更好精度的模型需要更强大的计算资源。可以预见，在未来随着模型的增大、数据量的增加，深度学习训练加速将变得会更加重要。

只有拥有端到端全栈的优化能力，才能使得深度学习的训练性能做到极致。

华为云ModelArts功能视图

华为云ModelArts是一站式的AI开发平台，已经服务于华为公司内部各大产品线的AI模型开发，几年下来已经积累了跨场景、软硬协同、端云一体等多方位的优化经验。

ModelArts提供了自动学习、数据管理、开发管理、训练管理、模型管理、推理服务管理、市场等多个模块化的服务，使得不同层级的用户都能够很快地开发出自己的AI模型。

自研分布式通用加速框架MoXing，性能再加速

为什么ModelArts能在图像识别的训练时间上取得如此优异的成绩？

答案是“MoXing”。

在模型训练部分，ModelArts通过硬件、软件和算法协同优化来实现训练加速。尤其在深度学习模型训练方面，华为将分布式加速层抽象出来，形成一套通用框架——MoXing（“模型”的拼音，意味着一切优化都围绕模型展开）。

采用与fast.ai一样的硬件、模型和训练数据，ModelArts可将训练时长可缩短到10分钟，创造了新的纪录，为用户节省44%的时间

MoXing是华为云ModelArts团队自研的分布式训练加速框架，它构建于开源的深度学习引擎TensorFlow、MXNet、PyTorch、Keras之上，使得这些计算引擎分布式性能更高，同时易用性更好。

华为云MoXing架构图

MoXing内置了多种模型参数切分和聚合策略、分布式SGD优化算法、级联式混合并行技术、超参数自动调优算法，并且在分布式训练数据切分策略、数据读取和预处理、分布式通信等多个方面做了优化，结合华为云Atlas高性能服务器，实现了硬件、软件和算法协同优化的分布式深度学习加速。

有了MoXing后，上层开发者可以聚焦业务模型，无需关注下层分布式相关的API，只用根据实际业务定义输入数据、模型以及相应的优化器即可，训练脚本与运行环境（单机或者分布式）无关，上层业务代码和分布式训练引擎可以做到完全解耦。

用数据说话：从吞吐量和收敛时间看加速性能

深度学习加速属于一个从底层硬件到上层计算引擎、再到更上层的分布式训练框架及其优化算法多方面协同优化的结果，具备全栈优化能力才能将用户训练成本降到最低。

在模型训练这方面，华为云ModelArts内置的MoXing框架使得深度学习模型训练速度有了很大的提升。

下图是华为云团队测试的模型收敛曲线（128块V100 GPU，完成ResNet50-on-ImageNet）。一般在ImageNet数据集上训练ResNet-50模型，当Top-5精度≥93%或者Top-1 精度≥75%时，即可认为模型收敛。

ResNet50-on-ImageNet训练收敛曲线（曲线上的精度为训练集上的精度）：(a)所对应的模型在验证集上Top-1 精度≥75%，训练耗时为10分06秒；(b) 所对应的模型在验证集上Top-5精度≥93%，训练耗时为10分28秒。

Top-1和Top-5精度为训练集上的精度，为了达到极致的训练速度，训练过程中采用了额外进程对模型进行验证，最终验证精度如下表所示（包含与fast.ai的对比）。

MoXing与fast.ai的训练结果对比

华为云团队介绍，衡量分布式深度学习框架加速性能时，主要看吞吐量和收敛时间。在与吞吐量和收敛时间相关的几个关键指标上，团队都做了精心处理：

在数据读取和预处理方面，MoXing通过利用多级并发输入流水线使得数据IO不会成为瓶颈；

在模型计算方面，MoXing对上层模型提供半精度和单精度组成的混合精度计算，通过自适应的尺度缩放减小由于精度计算带来的损失；

在超参调优方面，采用动态超参策略（如momentum、batch size等）使得模型收敛所需epoch个数降到最低；

在底层优化方面，MoXing与底层华为自研服务器和通信计算库相结合，使得分布式加速进一步提升

后续，华为云ModelArts将进一步整合软硬一体化的优势，提供从芯片（Ascend）、服务器（Atlas Server）、计算通信库（CANN）到深度学习引擎（MindSpore）和分布式优化框架（MoXing）全栈优化的深度学习训练平台。

ModelArts会逐步集成更多的数据标注工具，扩大应用范围，将继续服务于智慧城市、智能制造、自动驾驶及其它新兴业务场景，在公有云上为用户提供更普惠的AI服务。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

华为

华为

+关注

关注
216

文章
34687

浏览量
253787
深度学习

深度学习

+关注

关注
73

文章
5527

浏览量
121873

原文标题：华为云刷新深度学习加速纪录：128块GPU，10分钟训练完ImageNet

文章出处：【微信号：worldofai，微信公众号：worldofai】欢迎添加关注！文章转载请注明出处。

军事应用中深度学习的挑战与机遇

人工智能尤其是深度学习技术的最新进展，加速了不同应用领域的创新与发展。深度学习技术的发展深刻影响了军事发展趋势，导致战争形式和模式发生重大变

发表于 02-14 11:15 •211次阅读

华为云 Flexus X 加速 Redis 案例实践与详解

的 Redis 加速镜像，更是为开发者提供了极大的便利。本文将详细介绍如何利用华为云 Flexus X 实例自带的 Redis 镜像，快速部署并配置 Redis，以及通过实际案例展示其便捷性和高效性。一、

发表于 01-23 17:52 •118次阅读

<b class='flag-5'>华为</b><b class='flag-5'>云</b> Flexus X <b class='flag-5'>加速</b> Redis 案例实践与详解

使用 sysbench 对华为云 Flexus 服务器 X 做 Mysql 应用加速测评

❀前言大家好，我是早九晚十二。昨天有梳理一篇关于华为云最新推出的云服务器产品 Flexus 云服务器 X 的文章。当时有说过，这次的华为

发表于 01-23 17:26 •144次阅读

使用 sysbench 对<b class='flag-5'>华为</b><b class='flag-5'>云</b> Flexus 服务器 X 做 Mysql 应用<b class='flag-5'>加速</b>测评

华为云 Flexus X 实例部署安装 Jupyter Notebook，学习 AI，机器学习算法

前言由于本人最近在学习一些机器算法，AI 算法的知识，需要搭建一个学习环境，所以就在最近购买的华为云 Flexus X 实例上安装了学习环

发表于 01-02 13:43 •235次阅读

<b class='flag-5'>华为</b><b class='flag-5'>云</b> Flexus X 实例部署安装 Jupyter Notebook，<b class='flag-5'>学习</b> AI，机器<b class='flag-5'>学习</b>算法

华为云Flexus X实例，Redis性能加速评测及对比

加速 Redis 的选项。本文旨在通过实际测试，展示华为云 Flexus X 实例在加速 Redis 方面的性能优势，并与其他业界 U1 实例进行对比。

发表于 12-29 15:47 •271次阅读

<b class='flag-5'>华为</b><b class='flag-5'>云</b>Flexus X实例，Redis性能<b class='flag-5'>加速</b>评测及对比

NPU在深度学习中的应用

设计的硬件加速器，它在深度学习中的应用日益广泛。 1. NPU的基本概念 NPU是一种专门针对深度学习算法优化的处理器，它与传统的CPU和G

发表于 11-14 15:17 •1207次阅读

Pytorch深度学习训练的方法

掌握这 17 种方法，用最省力的方式，加速你的 Pytorch 深度学习训练。

发表于 10-28 14:05 •352次阅读

Pytorch<b class='flag-5'>深度</b><b class='flag-5'>学习</b>训练的方法

GPU深度学习应用案例

GPU在深度学习中的应用广泛且重要，以下是一些GPU深度学习应用案例：一、图像识别图像识别是深度学习

发表于 10-27 11:13 •638次阅读

FPGA加速深度学习模型的案例

FPGA（现场可编程门阵列）加速深度学习模型是当前硬件加速领域的一个热门研究方向。以下是一些FPGA加速

发表于 10-25 09:22 •572次阅读

深度学习GPU加速效果如何

图形处理器（GPU）凭借其强大的并行计算能力，成为加速深度学习任务的理想选择。

发表于 10-17 10:07 •341次阅读

FPGA做深度学习能走多远？

，共同进步。欢迎加入FPGA技术微信交流群14群! 交流问题（一） Q：FPGA做深度学习能走多远？现在用FPGA做深度学习加速成为一个热

发表于 09-27 20:53

新手小白怎么学GPU云服务器跑深度学习?

新手小白想用GPU云服务器跑深度学习应该怎么做? 用个人主机通常pytorch可以跑但是LexNet，AlexNet可能就直接就跑不动,如何实现更经济便捷的实现GPU云服务器

发表于 06-11 17:09

华为云尚海峰：以数智技术为核心，加速培育和形成新质生产力

科技创新与产业创新深度融合，记者采访了华为混合云总裁、主机上云军团CEO 尚海峰，他分享了如何通过数智技术帮助政企加快发展新质生产力，实现产业转型和智能化升级的观点。

发表于 04-10 23:19 •663次阅读

科技融合金融深度创新成果加速落地|华为云Web3与伙伴共创价值

2023年是区块链技术飞速发展的一年，也是华为云Web3服务的辉煌之年，作为华为云核心产品，华为云

发表于 04-07 16:53 •1003次阅读

FPGA在深度学习应用中或将取代GPU

上涨，因为事实表明，它们的 GPU 在训练和运行深度学习模型方面效果明显。实际上，英伟达也已经对自己的业务进行了转型，之前它是一家纯粹做 GPU 和游戏的公司，现在除了作为一家云 GPU 服务

发表于 03-21 15:19

搜索历史

华为云刷新深度学习加速纪录

评论

军事应用中深度学习的挑战与机遇

华为云 Flexus X 加速 Redis 案例实践与详解

使用 sysbench 对华为云 Flexus 服务器 X 做 Mysql 应用加速测评

华为云 Flexus X 实例部署安装 Jupyter Notebook，学习 AI，机器学习算法

华为云Flexus X实例，Redis性能加速评测及对比

NPU在深度学习中的应用

Pytorch深度学习训练的方法

GPU深度学习应用案例

FPGA加速深度学习模型的案例

深度学习GPU加速效果如何

FPGA做深度学习能走多远？

新手小白怎么学GPU云服务器跑深度学习?

华为云尚海峰：以数智技术为核心，加速培育和形成新质生产力

科技融合金融深度创新成果加速落地|华为云Web3与伙伴共创价值

FPGA在深度学习应用中或将取代GPU