0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

利用NVIDIA GPU并行计算技术解决AI研究问题

星星科技指导员 来源:NVIDIA 作者:Solee Moon 2022-04-19 16:44 次阅读

由于冠状病毒的存在, 2021 年韩国科学技术信息研究所( KISTI ) GPU 黑客大赛在 KISTI NVIDIA 和 OpenACC 组织的专家导师指导下举行。为了激发科学家加速 AI 研究或 HPC 代码的可能性, hackathon 提供了利用 NVIDIA GPU并行计算技术解决研究问题和扩展专业知识的机会。

以面对面活动而闻名的虚拟黑客大会对与会者和主持人都提出了自己的挑战。新的模式还需要兼顾由三个 HPC 和 AI 团队、四个高等教育和研究团队以及两个行业团队组成的多样化团队。

活动团队发现以下配方有助于为参与者创造有意义的成功体验:

指导

基于他们在特定领域或编程语言方面的专业知识,专门的导师与团队一起进行指导,以设定目标,并考虑不同的方法。导师们合作解决团队遇到的问题并排除障碍。每天的导师同步电话让每个人都集中精力,朝着实现目标的最佳策略努力。

社交

每个人都知道,只工作不玩耍实际上会阻碍团队的生产力。 hackathon 为参与者和导师提供了 TGIF 社交时间会议。使用 Metaverse Gather 城镇空间,导师和团队分享经验,为电池充电,并建立联系,帮助他们在活动期间继续前进。

资源和现场研讨会

成功的另一个重要因素是为与会者提供专门的培训和资源。例如, NVIDIA 深度学习培训中心( DLI )的一位大使和导师介绍了一个涵盖 CUDA C / C ++主题的研讨会。其他导师提供了团队专用的技术课程,重点是TRT和 NVIDIA Triton 、OpenACC和 NSight 系统的评测、并行计算和优化。

努力工作是有回报的

延世大学的帕斯卡团队正在开发一种热流体解算器,该解算器可以有效地计算湍流的热运动。在这次黑客大会上,团队通过 OpenACC 和 cuFFT 库将基于 CPU 的现有代码转换为多 GPU 环境。这使得最耗时的子程序之一的计算速度加快了 4 . 84 倍 RHS (右侧,分步)。

来自 AmorePacific 化妆品公司的 Amore Opt 团队致力于 GPU 优化 DeepLabV3 +细分模型。通过应用他们对 TensorRT 推理优化器和 NVIDIA Triton 推理服务器的了解,他们提高了推理速度,使推理速度提高了 26 倍。他们做到了这一点,同时保持人工智能模型的准确性,以便为未来的大规模客户服务检测皮肤问题。

首尔国立大学的 TFC 团队参与了一个项目,以加速基于 CPU 的 Fortran 内部流体计算代码。通过在 KISTI 使用 NVIDIA GPU s ,团队加速了耗时的三对角矩阵算法( TDMA )用于热解算器和动量解算器,以及快速傅立叶变换( FFT )用于压力解算器计算。他们在一台 V100 GPU 上实现了 11.15 倍的速度。

NVIDIA Inception 成员 Nota 和杭阳大学合作,通过利用 NVIDIA GPU s 中的张量核进行 INT4 量化,优化了 Nota 模型压缩引擎。名为 NOTA-HYU 的团队学会了使用 NVIDIA 分析工具 NSight 系统和 NSight 计算。然后,他们应用 NVIDIA 库弯刀,通过 CUDA 优化,使剩余块的总体速度提高 1.85 倍。

关于作者

Solee Moon 是 NVIDIA 高等教育与研究( HER )和 NVIDIA 深度学习培训中心( DLI )项目的企业营销专家,专注于支持 AI 开发者社区的发展。在 NVIDIA 之前, Solee 曾在三星电子 CTR 担任品牌营销专家,执行各种整合营销传播活动。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4953

    浏览量

    102869
  • 深度学习
    +关注

    关注

    73

    文章

    5495

    浏览量

    121045
收藏 人收藏

    评论

    相关推荐

    《算力芯片 高性能 CPUGPUNPU 微架构分析》第3篇阅读心得:GPU革命:从图形引擎到AI加速器的蜕变

    对卷积核优化的思考。 GPU的存储体系采用了独特的倒金字塔结构,在我看来这是其计算性能的关键。大容量寄存器设计破解了传统冯诺依曼架构的内存瓶颈,合并访存机制巧妙解决了内存带宽限制。NVIDIA
    发表于 11-24 17:12

    利用NVIDIA SHARP网络计算提升系统性能

    AI 和科学计算是分布式计算问题的典型示例。这些问题通常计算量巨大,计算很密集,无法在单台机器上完成。于是,这些
    的头像 发表于 11-13 11:42 248次阅读
    <b class='flag-5'>利用</b><b class='flag-5'>NVIDIA</b> SHARP网络<b class='flag-5'>计算</b>提升系统性能

    PyTorch GPU 加速训练模型方法

    的基本原理 GPU(图形处理单元)最初是为图形渲染设计的,但随着技术的发展,人们发现GPU并行计算方面有着天然的优势。GPU拥有成千上万个
    的头像 发表于 11-05 17:43 479次阅读

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】--了解算力芯片GPU

    方式可以提高处理器的吞吐量。并行计算模式(而非图形模式下)GPGPU的流水线是针对线程束进行管理的,也就是NVIDIA所说的 CUDA环境下的 warp 或者AMD 所说的 OpenCL 环境下
    发表于 11-03 12:55

    GPU加速计算平台是什么

    GPU加速计算平台,简而言之,是利用图形处理器(GPU)的强大并行计算能力来加速科学计算、数据分
    的头像 发表于 10-25 09:23 226次阅读

    深度学习GPU加速效果如何

    图形处理器(GPU)凭借其强大的并行计算能力,成为加速深度学习任务的理想选择。
    的头像 发表于 10-17 10:07 168次阅读

    初创公司SEA.AI利用NVIDIA边缘AI计算机视觉技术变革航海安全系统

    总部位于奥地利林茨的初创公司正在利用 NVIDIA 边缘 AI计算机视觉技术变革航海安全系统,让每一次出海变得更安全。
    的头像 发表于 09-09 09:32 471次阅读

    名单公布!【书籍评测活动NO.41】大模型时代的基础架构:大模型算力中心建设指南

    案例,展示如何针对机器学习应用进行需求分析、设计与实现。 无论是高等院校计算机与人工智能等相关专业的本科生或研究生,还是对并行计算技术、云计算技术、高性能存储及高性能网络
    发表于 08-16 18:33

    恒讯科技的GPU云解决方案有什么特点和优势?

    GPU云解决方案通常指的是云服务提供商提供的、基于图形处理单元(GPU)的计算服务。这些服务利用GPU
    的头像 发表于 06-12 17:24 377次阅读

    进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

    Blackwell Tensor Core GPU 与1个 NVIDIA Grace CPU 连接,实现高效的计算协同。GB200 NVL72 同时集成尖端功能和第二代 Transformer 引擎,
    发表于 05-13 17:16

    利用NVIDIA组件提升GPU推理的吞吐

    本实践中,唯品会 AI 平台与 NVIDIA 团队合作,结合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)将推理的稠密网络和热
    的头像 发表于 04-20 09:39 662次阅读

    NVLink技术GPUGPU的通信

    在多 GPU 系统内部,GPU 间通信的带宽通常在数百GB/s以上,PCIe总线的数据传输速率容易成为瓶颈,且PCIe链路接口的串并转换会产生较大延时,影响GPU并行计算的效率和性能。
    发表于 03-27 09:40 3687次阅读
    NVLink<b class='flag-5'>技术</b>之<b class='flag-5'>GPU</b>与<b class='flag-5'>GPU</b>的通信

    NVIDIA cuPQC帮助开发适用于量子计算时代的加密技术

    NVIDIA cuPQC 可为相关开发者提供加速计算支持,帮助开发适用于量子计算时代的加密技术。cuPQC 库可利用
    的头像 发表于 03-22 09:53 402次阅读

    NVIDIA 发布全新交换机,全面优化万亿参数级 GPU 计算AI 基础设施

    NVIDIA 软件实现了跨  Blackwell GPU、新交换机和 BlueField-3 SuperNIC 的分布式计算,大幅提升了 AI、数据处理、高性能
    发表于 03-19 10:05 320次阅读
    <b class='flag-5'>NVIDIA</b> 发布全新交换机,全面优化万亿参数级 <b class='flag-5'>GPU</b> <b class='flag-5'>计算</b>和 <b class='flag-5'>AI</b> 基础设施

    NVIDIA 人工智能开讲 | 什么是 AI For Science?详解 AI 助力科学研究领域的新突破

    ”两大音频 APP上搜索“ NVIDIA 人工智能开讲 ”专辑,众多技术大咖带你深度剖析核心技术,把脉未来科技发展方向! AI For Science (亦称 “
    的头像 发表于 12-25 18:30 973次阅读
    <b class='flag-5'>NVIDIA</b> 人工智能开讲 | 什么是 <b class='flag-5'>AI</b> For Science?详解 <b class='flag-5'>AI</b> 助力科学<b class='flag-5'>研究</b>领域的新突破