0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

攀登深度学习之巅 对AI领域会产生什么深远影响

Tensorflowers 来源:未知 2019-02-23 10:54 次阅读

2018 年,由美国国家能源研究科学计算中心 (NERSC) 与 NVIDIA组成的联合团队取得了一项突破性成就。他们成功将一种科学严谨的深度学习应用扩展至 27000 多个NVIDIA V100Tensor 核心 GPU,攻克了此过程中百亿亿次运算的难关。凭借该项成就,研究团队由此斩获高性能计算领域的最高奖项ACM 戈登贝尔奖。除 2018 年的技术论文与新闻稿之外,我们还将在本文中探讨这项成就对 AI 领域产生的深远影响,以及未来面临的开放性挑战。

由伯克利实验室与橡树岭国家实验室各自领导的两个研究团队共享 2018 年 ACM 戈登贝尔奖

深度学习软件:性能与生产力

低级工具能为开发者带来精确度,高级工具则可提高工作效率,这二者之间总存在一个折衷点。我们已为此找到解决方案。在本次项目中,我们用高效的 PythonTensorFlow 表示网络架构与整体的应用工作流。TensorFlow 反过来会利用在 C 和 C++ 环境中实施的例程来实现高性能,提供精确度,并解放开发者以提高其工作效率。因此,在 8 个月的时间里,我们的团队从头开始构建网络原型,并在全球最大的高性能计算 (HPC) 系统 Summit 上对其性能与扩展作出了优化。

我们相信,此项目能够展示出研究人员长期推测的 HPC 与 AI 软件堆栈的实际融合效果,即以 C/C++ 编写的高性能库 (CuDNN) 和框架 (TensorFlow),以及通过 Python 公开的高效接口。同理,我们还在 NCCL 和 MPI 中实施经高度优化且基于拓扑感知的通信集合,但通过简单高效的 Horovod 接口实现公开。展望未来,我们相信,在助力科学家及更广泛的研究社区探索更复杂架构的过程中,为混合并行模式(数据、模型、流水线)提供透明支持将至关重要。

深度学习硬件:GPU 和混合精度

本次项目利用 NVIDIA Volta GPU 来训练 DeepLabv3+ 分割网络。在混合精度模式下,Volta 上可达到的峰值性能为 125 万亿次浮点运算。该模式由 NVIDIA 通过 Tensor 核心 GPU 架构推出,可执行 FP16 精度计算并能以 FP32 精度模式累积结果。在本项目开展之前,该领域存在一个仍待解决的问题,即现实的科学应用能否利用 FP16(不损失精确度)并获得较高的峰值性能。我们的研究最终证明,对于科学领域的模式识别问题,16 位精度可能足以满足相关需求。此外,对于拥有 4000 多个计算核心的复杂应用而言,极高的峰值亦有可能实现:在规模庞大的 GPU 集群上,我们的应用实现了每块 GPU 大约 40 万亿次浮点运算的峰值性能。

我们相信,这些结果为科学应用打开了通往低精度加速器的一扇大门。虽然原始数据集可能具有高精度(64 位或 32 位),但我们或许仍可以在不损失收敛或稳定性的前提下,以低精度模式执行模式识别任务。

开放性挑战

如要在当代的 HPC 系统上实现百亿亿级的性能,我们需对所有组件仔细调优,包括硬件(CPU、GPU、NVLink、文件系统、网络互连)和软件。虽然我们的项目成功实现了大幅调优、优化和扩展,但我们想指出两项挑战,以便向行业及研究社区征求更多意见。

大规模数据管理

得益于 GPU 架构在加快计算方面取得的进展,我们现已能在单个硅处理器上畅享高于 100 万亿次浮点运算级的性能。随着 GPU 速度越来越快,向其输送数据的能力会逐渐限制性能。本次项目中,我们对 20 太字节的数据集展开分析,这实际上需要整个 Summit 系统保持每秒大约 4 太字节的 I/O 速率。Summit 上的 GPFS 文件系统根本无法胜任该项任务,在 NERSC Cori 系统的 Lustre 文件系统上执行的类似实验也以彻底失败而告终。对于这两种情况,在节点本地 NVMe上暂存数据和突发缓冲区技术便显得至关重要。

传统的 HPC 文件系统主要用于支持以写入为主的工作负载;而深度学习工作负载则属于读取密集型负载,对数据带宽和元数据操作速率要求颇高。如要支持大规模深度学习工作负载,我们可能必须先对缓存分层、分片和混编操作提供透明支持。

大规模收敛

提供深度学习解决方案的时间由两部分构成:计算扩展效率和统计扩展效率。我们的研究已经展示出卓越的计算扩展性能,并且提供了许多有关系统级注意事项的建议。一个未解决的问题是,如何使用 SGD(随机梯度下降)的其中一个收敛属性取代大批量(在本项目中,批量大小高于 27000)。

在 HPC 资源上提供高度并行性具有正反两方面作用。如要以超高并发级别在大规模资源上运行,我们需在短时间内对超参数进行调优。有关收敛算法行为的启发式方法可能会或不会继承自较小规模的运行。尽管目前对于选择各类超参数所产生效果的实证评估都很合理,但我们预计,科学界将需要更好的指导原则,以及用于解决新问题的收敛保证。

我们相信,在解决收敛问题的过程中,进一步开发 LARS 与 LARC 等新算法和潜在的高阶优化方法将是至关重要的一环。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4754

    浏览量

    129102
  • 人工智能
    +关注

    关注

    1792

    文章

    47458

    浏览量

    239101
  • 深度学习
    +关注

    关注

    73

    文章

    5508

    浏览量

    121319

原文标题:攀登百亿亿级深度学习之巅

文章出处:【微信号:tensorflowers,微信公众号:Tensorflowers】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    AI人工智能技术主要应用于什么方面,给未来带来什么影响?

    解决复杂的决策问题到优化日常生活中的各类服务,AI的应用领域广泛而深入,以下将详述其主要应用场景及所带来的深远影响。 在工业生产中,人工智能通过机器人技术、自主控制和预测性维护等手段重塑了制造业格局。基于机器
    的头像 发表于 11-05 18:11 539次阅读

    AI干货补给站 | 深度学习与机器视觉的融合探索

    在智能制造的浪潮中,阿丘科技作为业界领先的工业AI视觉平台及解决方案提供商,始终致力于推动AI+机器视觉技术的革新与应用。为此,我们特别开设了「AI干货补给站」专栏,分享此领域的基础知
    的头像 发表于 10-29 08:04 245次阅读
    <b class='flag-5'>AI</b>干货补给站 | <b class='flag-5'>深度</b><b class='flag-5'>学习</b>与机器视觉的融合探索

    GPU深度学习应用案例

    GPU在深度学习中的应用广泛且重要,以下是一些GPU深度学习应用案例: 一、图像识别 图像识别是深度学习
    的头像 发表于 10-27 11:13 423次阅读

    AI大模型与深度学习的关系

    AI大模型与深度学习之间存在着密不可分的关系,它们互为促进,相辅相成。以下是对两者关系的介绍: 一、深度学习
    的头像 发表于 10-23 15:25 969次阅读

    AI for Science:人工智能驱动科学创新》第4章-AI与生命科学读后感

    很幸运社区给我一个阅读此书的机会,感谢平台。 《AI for Science:人工智能驱动科学创新》第4章关于AI与生命科学的部分,为我们揭示了人工智能技术在生命科学领域中的广泛应用和深远影响
    发表于 10-14 09:21

    FPGA做深度学习能走多远?

    。FPGA的优势就是可编程可配置,逻辑资源多,功耗低,而且赛灵思等都在极力推广。不知道用FPGA做深度学习未来怎样发展,能走多远,你怎么看。 A:FPGA 在深度
    发表于 09-27 20:53

    深度学习中的时间序列分类方法

    时间序列分类(Time Series Classification, TSC)是机器学习深度学习领域的重要任务之一,广泛应用于人体活动识别、系统监测、金融预测、医疗诊断等多个
    的头像 发表于 07-09 15:54 1053次阅读

    基于AI深度学习的缺陷检测系统

    在工业生产中,缺陷检测是确保产品质量的关键环节。传统的人工检测方法不仅效率低下,且易受人为因素影响,导致误检和漏检问题频发。随着人工智能技术的飞速发展,特别是深度学习技术的崛起,基于AI深度
    的头像 发表于 07-08 10:30 1565次阅读

    人工智能、机器学习深度学习是什么

    在科技日新月异的今天,人工智能(Artificial Intelligence, AI)、机器学习(Machine Learning, ML)和深度学习(Deep Learning,
    的头像 发表于 07-03 18:22 1349次阅读

    人工智能深度学习的五大模型及其应用领域

    随着科技的飞速发展,人工智能(AI)技术特别是深度学习在各个领域展现出了强大的潜力和广泛的应用价值。深度
    的头像 发表于 07-03 18:20 4765次阅读

    谷歌CEO皮查伊探讨AI革命:影响深远AI将融入日常工作

    在访谈中,主持人首先询问皮查伊为何选择使用谷歌的AI,他回应称,AI将对我们的生活产生深远影响。“AI的应用多种多样,能提升用户体验,简化工
    的头像 发表于 05-28 15:00 593次阅读

    深度解析深度学习下的语义SLAM

    随着深度学习技术的兴起,计算机视觉的许多传统领域都取得了突破性进展,例如目标的检测、识别和分类等领域。近年来,研究人员开始在视觉SLAM算法中引入
    发表于 04-23 17:18 1331次阅读
    <b class='flag-5'>深度</b>解析<b class='flag-5'>深度</b><b class='flag-5'>学习</b>下的语义SLAM

    FPGA在深度学习应用中或将取代GPU

    基础设施,人们仍然没有定论。如果 Mipsology 成功完成了研究实验,许多正受 GPU 折磨的 AI 开发者将从中受益。 GPU 深度学习面临的挑战 三维图形是 GPU 拥有如此大的内存和计算能力
    发表于 03-21 15:19

    FPGA的力量:2024年AI计算领域的黑马?

    、效率和可扩展性等方面的挑战。在这一背景下,现场可编程门阵列(FPGA)以其独特的优势逐渐崭露头角,并有望在2024年对AI领域产生深远影响
    的头像 发表于 03-07 09:37 946次阅读
    FPGA的力量:2024年<b class='flag-5'>AI</b>计算<b class='flag-5'>领域</b>的黑马?

    揭秘AI与半导体深度融合背后的创新力量

    随着科技的飞速发展,人工智能(AI)与半导体产业正以前所未有的速度深度融合。这一融合不仅推动了半导体技术的进步,更为AI的广泛应用和商业化提供了坚实的基础。本文旨在探讨这种深度融合将如
    的头像 发表于 02-22 10:09 1136次阅读
    揭秘<b class='flag-5'>AI</b>与半导体<b class='flag-5'>深度</b>融合背后的创新力量