0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

超级芯片GH200发布,AI算力是H100的两倍

智能计算芯世界 来源:智能计算芯世界 2023-08-10 09:16 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

英伟达在计算机图形学顶会 SIGGRAPH 2023 上发布了专为生成式 AI 打造的下一代 GH200 Grace Hopper 平台,并推出了 OVX 服务器、AI Workbench 等一系列重磅更新。

五年前,也是在 SIGGRAPH 大会的演讲中,英伟达宣布将 AI 和实时光线追踪引入 GPU ,可以说,当时的这个决定重塑了计算图形学。

「我们意识到光栅化已经达到了极限,」黄仁勋表示:「这要求我们重塑硬件、软件和算法。在我们用 AI 重塑 CG 的同时,也在为 AI 重塑 GPU。」

预言应验了:几年来,计算系统变得越来越强大,例如 NVIDIA HGX H100,它利用 8 个 GPU 和总共 1 万亿个晶体管,与基于 CPU 的系统相比,提供了显著的加速。

「这就是世界数据中心迅速转向加速计算的原因,」在今年的 SIGGRAPH 大会,黄仁勋重申:「The more you buy, the more you save.」

如今,训练越来越大的生成式 AI 模型所需的计算未必由具有一定 GPU 能力的传统数据中心来完成,而是要依靠像 H100 这样从一开始就为大规模运算而设计的系统。可以说,AI 的发展在某种程度上只受限于这些计算资源的可用性。

但黄仁勋断言,这仅仅是个开始。新模型不仅需要训练时的计算能力,还需要实现由数百万甚至数十亿用户实时运行的计算能力。

「未来,LLM 将出现在几乎所有事物的前端:人类就是新的编程语言。从视觉效果到快速数字化的制造市场、工厂设计和重工业,一切都将采用自然语言界面。」黄仁勋表示。

在这场一个多小时的演讲中,黄仁勋带来了一系列新发布,全部面向「生成式 AI」。

更强的 GH200 Grace Hopper 超级芯片平台

英伟达的 Grace Hopper 超级芯片 NVIDIA GH200 结合了 72 核 Grace CPU 和 Hopper GPU,并已在 5 月全面投入生产。

现在,黄任勋又宣布 Grace Hopper 超级芯片将配备 HBM3e 高带宽内存(HBM3e 比当前的 HBM3 快 50%),下一代 GH200 Grace Hopper 平台将大幅提升生成式 AI 的计算速度。

全新的 GH200 内存容量将增加至原有的 3.5 倍,带宽增加至 3 倍,包含一台具有 144 个 Arm Neoverse 核心、282GB HBM3e 内存的服务器,提供 8 petaflops 的 AI 算力。

为了提升大模型的实际应用效率,生成式 AI 模型的工作负载通常涵盖大型语言模型、推荐系统和向量数据库。GH200 平台旨在全面处理这些工作负载,并提供多种配置。

英伟达表示,这款名为 GH200 的超级芯片将于 2024 年第二季度投产。

Nvidia AI Workbench,模型即服务

此外,为了加快全球企业定制化采用生成式 AI,老黄宣布英伟达即将推出 Nvidia AI Workbench。

尽管很多预训练模型都是开源的,但使其定制化服务自身业务仍然具有挑战性。AI Workbench 减轻了企业 AI 项目入门的复杂程度,将所有必要的企业级模型、框架、软件开发套件和库整合到统一的 workspace 之中。

只需要在本地系统上运行的简化界面进行点击,AI Workbench 就能让开发者使用自定义数据微调 Hugging Face、GitHub 和 NGC 等流行存储库中的模型,然后将其扩展到数据中心、公有云或 Nvidia DGX 云。

黄仁勋还宣布英伟达将与 Hugging Face 合作,开发人员将能够访问 Hugging Face 平台中的 NVIDIA DGX Cloud AI 超级计算来训练和调整 AI 模型。这将使数百万构建大型语言模型和其他高级 AI 应用程序的开发人员能够轻松实现生成式 AI 超级计算。

「这将是一项全新的服务,将世界上最大的人工智能社区与世界上最好的训练和基础设施连接起来,」黄仁勋表示。

全新的 RTX 工作站和 Omniverse

老黄还宣布,英伟达与 BOXX、戴尔科技、惠普和联想等工作站制造商合作,打造了一系列全新的高性能 RTX 工作站。

最新发布的 RTX 工作站提供多达四个英伟达 RTX 6000 Ada GPU,每个 GPU 配备 48GB 内存。单个桌面工作站可提供高达 5828 TFLOPS 的性能和 192GB 的 GPU 内存。

根据用户需求,这些系统可配置 Nvidia AI Enterprise 或 Omniverse Enterprise 软件,为各种要求苛刻的生成式 AI 和图形密集型工作负载提供必要的动力。这些新发布预计将于秋季推出。

新发布的 Nvidia AI Enterprise 4.0 引入了 Nvidia NeMo,这是一个用于构建和定制生成式 AI 基础模型的端到端框架。它还包括用于数据科学的 Nvidia Rapids 库,并为常见企业 AI 用例(例如推荐器、虚拟助理和网络安全解决方案)提供框架、预训练模型和工具。

工业数字化平台 Omniverse Enterprise 是 Nvidia 生态系统的另一个组成部分,让团队能够开发可互操作的 3D 工作流程和 OpenUSD 应用程序。Omniverse 利用其 OpenUSD 原生平台,使全球分布的团队能够协作处理来自数百个 3D 应用程序的完整设计保真度数据集。

此次英伟达主要升级了 Omniverse Kit(用于开发原生 OpenUSD 应用和扩展程序的引擎),以及 NVIDIA Omniverse Audio2Face 基础应用和空间计算功能。开发者可以轻松地利用英伟达提供的 600 多个核心 Omniverse 扩展程序来构建自定义应用。

作为发布的一部分,英伟达还推出了三款全新的桌面工作站 Ada Generation GPU:Nvidia RTX 5000、RTX 4500 和 RTX 4000。

全新 NVIDIA RTX 5000、RTX 4500 和 RTX 4000 桌面 GPU 采用最新的 NVIDIA Ada Lovelace 架构技术。其中包括增强的 NVIDIA CUDA 核心(用于增强单精度浮点吞吐量)、第三代 RT 核心(用于改进光线追踪功能)以及第四代 Tensor 核心(用于更快的 AI 训练性能)。

Nvidia RTX 5000 Ada 一代 GPU。

这几款 GPU 还支持 DLSS 3,为实时图形提供更高水平的真实感和交互性,以及更大的 GPU 内存选项,用于大型 3D 模型、渲染图像、模拟和 AI 数据集的无差错计算。此外,它们还提供扩展现实功能,以满足创建高性能 AR、VR 和混合现实内容的需求。

因为配备了第三代 RT Core,这几款 GPU 的吞吐量高达上一代的 2 倍,使用户能够实时处理更大、保真度更高的图像,将应用于艺术创作和设计生产。

RTX 5000 GPU 已经上市,并由 HP 和分销合作伙伴发货,而 RTX 4500 和 RTX 4000 GPU 将于秋季从 BOXX、Dell Technologies、HP、Lenovo 及其各自的分销合作伙伴上市。

Nvidia OVX 服务器

英伟达还推出了配备 Nvidia L40S GPU 的 Nvidia OVX 服务器,用于生成式 AI 和数字化时代的开发和内容创作。

每台 Nvidia OVX 服务器将支持多达 8 个 Nvidia L40S GPU,每个 GPU 配备 48GB 内存。L40S GPU 由 Nvidia Ada Lovelace GPU 架构提供支持,拥有第四代张量核心和 FP8 Transformer 引擎,可实现超过 1.45 petaflops 的张量处理能力。

Nvidia L40S GPU。

在具有数十亿参数和多种数据模式的生成式 AI 工作负载领域,与 Nvidia A100 Tensor Core GPU 相比,L40S GPU 的生成式 AI 推理性能提高了 1.2 倍,训练性能提高了 1.7 倍。这将更好地满足 AI 训练和推理、3D 设计和可视化、视频处理和工业数字化等计算密集型应用的需求,加速多个行业的工作流程和服务。






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA技术
    +关注

    关注

    0

    文章

    17

    浏览量

    6582
  • 晶体管
    +关注

    关注

    78

    文章

    10470

    浏览量

    148927
  • 英伟达
    +关注

    关注

    23

    文章

    4126

    浏览量

    99774
  • GPU芯片
    +关注

    关注

    1

    文章

    308

    浏览量

    6579
  • NGC
    NGC
    +关注

    关注

    0

    文章

    8

    浏览量

    4081

原文标题:超级芯片GH200发布,AI算力是H100两倍

文章出处:【微信号:AI_Architect,微信公众号:智能计算芯世界】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    给机器人装“超级大脑“,这个AI模组有点料!

    近日,杰和科技正式发布LM2-100-V0AI模组,该产品搭载DX-M1边缘AI计算芯片,并
    的头像 发表于 05-22 17:05 1425次阅读
    给机器人装“<b class='flag-5'>超级</b>大脑“,这个<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>模组有点料!

    AI爆款应用驱动需求增长,英伟达H100租赁费用飙升40%

    电子发烧友网综合报道 近期,半导体研究机构SemiAnalysis发布的“H100一年期租赁合约价格指数”显示,英伟达四年前发布H100芯片
    的头像 发表于 04-05 07:05 1.3w次阅读

    龙腾半导体超结MOSFET重新定义AI电源

    随着人工智能(AI)和大模型训练的爆发式增长,AI服务器的功耗正以前所未有的速度攀升。从NVIDIA H100到B200,单卡功耗已突破1000W,整机柜功率甚至冲向
    的头像 发表于 03-23 11:16 640次阅读
    龙腾半导体超结MOSFET重新定义<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>电源

    边缘AI临界点:深度解析176TOPS香橙派AI Station的产业价值

    310P芯片的底层架构,深度剖析这款产品的技术细节、门槛及其在实际产业落地中的真实价值。 一、176TOPS的产业门槛:为何这是边缘
    发表于 03-10 14:19

    力争百万 Tokens 推理成本降低百:云天励飞发布未来三年大芯片战略,首曝 DeepVerse 路线图

    集中于攻克大模型落地的“成本壁垒”,致力于通过底层架构创新,力争实现百万 Tokens 推理成本降低 100 以上的目标,推动 AI 从技术尝鲜走向普惠生产。产业变局:推理竞速,从
    的头像 发表于 02-03 20:25 3296次阅读
    力争百万 Tokens 推理成本降低百<b class='flag-5'>倍</b>:云天励飞<b class='flag-5'>发布</b>未来三年大<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>芯片</b>战略,首曝 DeepVerse 路线图

    中国芯片的拐点时刻

    作者|Taylor出品|芯片技术与工艺当OpenAI的GPT-5在得克萨斯州的机房中昼夜轰鸣,当Nvdia的H200芯片被炒至数十万美元仍一卡难求,中国的
    的头像 发表于 01-31 07:00 2216次阅读
    中国<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>芯片</b>的拐点时刻

    即电力:当单机柜功率突破100kW,谁在守护AI心脏的每一次跳动?

    的尽头是能源,像英伟达GB200这样超级芯片带来超的同时产生巨大的能量消耗,迫使单机柜功率
    的头像 发表于 12-24 17:18 1058次阅读
    <b class='flag-5'>算</b><b class='flag-5'>力</b>即电力:当单机柜功率突破<b class='flag-5'>100</b>kW,谁在守护<b class='flag-5'>AI</b>心脏的每一次跳动?

    迈向云端巅峰:昆仑芯K200 AI加速卡全面解读

    昆仑芯K200作为云端AI加速卡,在K100架构基础上全面升级。其INT8达256 TOPS,配备16GB HBM内存与512GB/s带
    的头像 发表于 12-14 11:17 2481次阅读
    迈向云端<b class='flag-5'>算</b><b class='flag-5'>力</b>巅峰:昆仑芯K<b class='flag-5'>200</b> <b class='flag-5'>AI</b>加速卡全面解读

    湘军,让变成生产

    脑极体
    发布于 :2025年11月25日 22:56:58

    国产AI芯片真能扛住“内卷”?海思昇腾的这波操作藏了多少细节?

    最近行业都在说“AI的命门”,但国产芯片真的能接住这波需求吗? 前阵子接触到海思昇腾910B,实测下来有点超出预期——7nm工艺下
    发表于 10-27 13:12

    英伟达 H100 GPU 掉卡?做好这五点,让稳如泰山!

    H100服务器停工一天损失的成本可能比维修费还高。今天,我们给大家总结一套“防掉卡秘籍”,从日常管理到环境把控,手把手教你把掉卡风险压到最低。一、供电是“生命线”,这3点必须盯紧H100
    的头像 发表于 09-05 11:03 1621次阅读
    英伟达 <b class='flag-5'>H100</b> GPU 掉卡?做好这五点,让<b class='flag-5'>算</b><b class='flag-5'>力</b>稳如泰山!

    2025端侧AI芯片爆发:存一体、非Transformer架构谁主浮沉?边缘计算如何选型?

    各位技术大牛好!最近WAIC 2025上端侧AI芯片密集发布,彻底打破传统困局。各位大佬在实际项目中都是如何选型的呢?
    发表于 07-28 14:40

    一文看懂AI集群

    最近这几年,AI浪潮席卷全球,成为整个社会的关注焦点。大家在讨论AI的时候,经常会提到AI集群。AI
    的头像 发表于 07-23 12:18 2090次阅读
    一文看懂<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>集群

    【「芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】+NVlink技术从应用到原理

    : NVlink1.0——初代的堆叠技术 英伟达2014发布了NVLink的首个版本——NVLink 1.0。在2016年发布的P100芯片上,首次搭载了NVLink 1.0技术。 N
    发表于 06-18 19:31

    AIGC基础设施技术架构与行业实践

    AIGC基础设施技术架构与行业实践 一、硬件层:AI的物理载体 芯片技术升级‌ 国际前沿
    的头像 发表于 05-29 07:44 1205次阅读
    AIGC<b class='flag-5'>算</b><b class='flag-5'>力</b>基础设施技术架构与行业实践