0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA cuBLAS库加速BLAS的GPU设计实现

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达 2022-08-07 15:46 次阅读

cuBLAS 库可提供基本线性代数子程序(BLAS)的 GPU 加速实现。cuBLAS 利用针对 NVIDIA GPU 高度优化的插入式行业标准 BLAS API,加速 AI 和 HPC 应用。cuBLAS 库包含用于批量运算、跨多个 GPU 的执行以及混合精度和低精度执行的扩展程序。通过使用 cuBLAS,应用将能自动从定期性能提升及新的 GPU 体系架构中受益。cuBLAS 库包含在 NVIDIA HPC SDKCUDA 工具包中。

cuBLAS 多 GPU 扩展

cuBLASMg 提供了先进的多 GPU 矩阵间乘法,您可在多台设备间以 2D 块循环方式分发每个矩阵。cuBLASMg 目前已加入 CUDA 数学库抢先体验计划。

cuBLAS 性能

cuBLAS 库针对 NVIDIAGPU 上的性能进行了高度优化,并利用 Tensor Core 对低精度和混合精度矩阵乘法进行加速。

07805336-14c8-11ed-ba43-dac502259ad0.png07bae154-14c8-11ed-ba43-dac502259ad0.png07ed0fee-14c8-11ed-ba43-dac502259ad0.png

cuBLAS 的主要特性

全面支持 152 个标准 BLAS 例程

支持半精度和整数矩阵乘法

GEMM 和 GEMM 扩展程序针对 Volta 及 Turing Tensor Core 进行了优化

针对各种深度学习模型中使用的规模调整 GEMM 性能

支持用于并发操作的 CUDA 流

加速计算基础——CUDA C/C++

您将能够使用最基本的 CUDA 工具和技术,加速和优化仅适用于 CPU 的 C/C++ 应用程序。您将了解 CUDA 开发的迭代风格,这将帮助您快速发布加速应用程序。

加速计算基础——CUDA Python

您将了解使用 CUDA 和 Numba 编译器在大规模并行 GPU 上加速运行 Python 应用程序的基本工具和技能。

通过 CUDA C++ 在多个 GPU 之间扩展工作负载

您将学习如何在单个节点上使用多个 GPU,构建强大高效的 CUDA C++ 应用程序。

通过并发流加速 CUDA C++ 应用程序

您将在 CUDA C++ 应用程序中,学习利用 CUDA Streams 进行复制/计算重叠。




审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4662

    浏览量

    128539
  • 矩阵
    +关注

    关注

    0

    文章

    418

    浏览量

    34468
  • HPC
    HPC
    +关注

    关注

    0

    文章

    308

    浏览量

    23640

原文标题:DevZone | NVIDIA cuBLAS库

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    AMD与NVIDIA GPU优缺点

    在图形处理单元(GPU)市场,AMD和NVIDIA是两大主要的竞争者,它们各自推出的产品在性能、功耗、价格等方面都有着不同的特点和优势。 一、性能 GPU的性能是用户最关心的指标之一。在高端市场
    的头像 发表于 10-27 11:15 333次阅读

    GPU加速计算平台是什么

    GPU加速计算平台,简而言之,是利用图形处理器(GPU)的强大并行计算能力来加速科学计算、数据分析、机器学习等复杂计算任务的软硬件结合系统。
    的头像 发表于 10-25 09:23 175次阅读

    NVIDIA CorrDiff生成式AI模型能够精准预测台风

    NVIDIA GPU 上运行的一个扩散模型向天气预报工作者展示了加速计算如何实现新的用途并提升能效。
    的头像 发表于 09-13 17:13 622次阅读

    暴涨预警!NVIDIA GPU供应大跳水

    gpu
    jf_02331860
    发布于 :2024年07月26日 09:41:42

    NVIDIA加速微软最新的Phi-3 Mini开源语言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微软最新的 Phi-3 Mini 开源语言模型。TensorRT-LLM 是一个开源,用于优化从 PC 到云端的
    的头像 发表于 04-28 10:36 453次阅读

    利用NVIDIA组件提升GPU推理的吞吐

    本实践中,唯品会 AI 平台与 NVIDIA 团队合作,结合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)将推理的稠密网络和热 Embedding 全置于
    的头像 发表于 04-20 09:39 601次阅读

    搭载英伟达GPU,全球领先的向量数据公司Zilliz发布Milvus2.4向量数据

    在美国硅谷圣何塞召开的 NVIDIA GTC 大会上,全球领先的向量数据公司 Zilliz 发布了 Milvus 2.4 版本。这是一款革命性的向量数据系统,在业界首屈一指,它首次采用了英伟达
    的头像 发表于 04-01 14:33 426次阅读
    搭载英伟达<b class='flag-5'>GPU</b>,全球领先的向量数据<b class='flag-5'>库</b>公司Zilliz发布Milvus2.4向量数据<b class='flag-5'>库</b>

    NVIDIA cuPQC帮助开发适用于量子计算时代的加密技术

    NVIDIA cuPQC 可为相关开发者提供加速计算支持,帮助开发适用于量子计算时代的加密技术。cuPQC 可利用 GPU 并行性,为要求严苛的安全算法提供支持。
    的头像 发表于 03-22 09:53 368次阅读

    NVIDIA将在今年第二季度发布Blackwell架构的新一代GPU加速器“B100”

    根据各方信息和路线图,NVIDIA预计会在今年第二季度发布Blackwell架构的新一代GPU加速器“B100”。
    的头像 发表于 03-04 09:33 1204次阅读
    <b class='flag-5'>NVIDIA</b>将在今年第二季度发布Blackwell架构的新一代<b class='flag-5'>GPU</b><b class='flag-5'>加速</b>器“B100”

    如何选择NVIDIA GPU和虚拟化软件的组合方案呢?

    NVIDIA vGPU 解决方案能够将 NVIDIA GPU 的强大功能带入虚拟桌面、应用程序和工作站,加速图形和计算,使在家办公或在任何地方工作的创意和技术专业人员能够访问虚拟化工作
    的头像 发表于 01-12 09:26 954次阅读
    如何选择<b class='flag-5'>NVIDIA</b> <b class='flag-5'>GPU</b>和虚拟化软件的组合方案呢?

    OpenHarmony开源GPUMesa3D适配说明

    接口。 OpenGL(Open Graphics Library) 开放图形,是用于渲染2D、3D矢量图形的跨语言、跨平台的应用程序编程接口(仅定义了接口及规范,没有实现)。OpenGL的高效性
    发表于 12-25 11:38

    NVIDIA 初创加速计划 Omniverse 加速

    新的 AI 技术和迅速发展的应用正在改变各行各业,生成式 AI 已经展示出在艺术、设计、影视动画、互娱、建筑等领域加速内容创作的价值,助力实现高质量、高效率、多样化的内容生产,成为推动数字生产力变革
    的头像 发表于 12-04 20:35 603次阅读
    <b class='flag-5'>NVIDIA</b> 初创<b class='flag-5'>加速</b>计划 Omniverse <b class='flag-5'>加速</b>营

    NVIDIA GPU的核心架构及架构演进

    在探讨 NVIDIA GPU 架构之前,我们先来了解一些相关的基本知识。GPU 的概念,是由 NVIDIA 公司在 1999 年发布 Geforce256 图形处理芯片时首先提出,从此
    发表于 11-21 09:40 1396次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>GPU</b>的核心架构及架构演进

    创新企业云福利:腾讯云 × NVIDIA 初创加速计划

    助力生成式 AI、大模型训练与推理、自动驾驶、图像处理等场景初创企业加速成长,最高获赠 10 万元扶持基金、NVIDIA 深度学习培训中心(DLI)优惠课程,以及免费的 GPU 技术支持。 腾讯云
    的头像 发表于 11-13 20:40 535次阅读
    创新企业云福利:腾讯云 × <b class='flag-5'>NVIDIA</b> 初创<b class='flag-5'>加速</b>计划

    177倍加速NVIDIA最新开源 | GPU加速各种SDF建图!

    但最近,NVIDIA和ETHZ就联合提出了nvblox,是一个使用GPU加速SDF建图的。计算速度非常快,相较CPU计算TSDF甚至快了177倍。更重要的是,因为所有数据都已经存储在
    的头像 发表于 11-09 16:46 1052次阅读
    177倍<b class='flag-5'>加速</b>!<b class='flag-5'>NVIDIA</b>最新开源 | <b class='flag-5'>GPU</b><b class='flag-5'>加速</b>各种SDF建图!