0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

爆红智能AI如何看待DPU

芯启源 来源:芯启源 2023-02-10 14:30 次阅读

上线仅2个月,OpenAI最新一代产品-AI聊天机器人ChatGPT月活用户接近1亿。

作为自然语言处理(NLP)领域的前沿研究成果之一,ChatGPT已成为AIGC里程碑式的产品。

这周我们也与ChatGPT聊了聊他/她对大规模预训练背后所需资源的看法。

让我们一起来看看ChatGPT的回答是否能让你满意呢?

9f63de06-a8df-11ed-bfe3-dac502259ad0.png

9f8cfb56-a8df-11ed-bfe3-dac502259ad0.png

9fb5eda4-a8df-11ed-bfe3-dac502259ad0.png

强大的语言生成能力现在引起更多讨论的是规模预训练。在过去的很长一段时间里,许多的AI厂商都是通过本地设备来进行训练的。

GPT-3所训练的参数约为1750亿个,这部分需要大量的算力,而目前我们已知ChatGPT导入了至少1万颗英伟达高端GPU来训练模型。

a0011ebe-a8df-11ed-bfe3-dac502259ad0.png

a01a0bf4-a8df-11ed-bfe3-dac502259ad0.png

a034200c-a8df-11ed-bfe3-dac502259ad0.png

业界部分专家认为GPT-4训练参数可能会达到100万亿个参数,如此大规模、长时间的GPU集群训练任务,也对网络互联底座的性能、可靠性、成本等各方面都提出了极致的要求。

面对千亿、万亿参数规模的大模型训练,仅仅是单次计算迭代内梯度同步需要的通信量就高达TB量级。此外还有各种并行模式、加速框架引入的通信需求,使得传统低速网络的带宽远远无法支撑GPU集群的高效计算,甚至成为了其中关键的瓶颈。

因此要充分发挥GPU计算资源的强大算力,必须构建一个全新的高性能网络底座,用高速网络的大带宽来助推整个集群计算的高效率。

a0b178ae-a8df-11ed-bfe3-dac502259ad0.png

a0e8cb24-a8df-11ed-bfe3-dac502259ad0.png

CPU+GPU的异构计算模型已经成为高性能计算领域中的主流计算架构。而高吞吐、低延时是高性能计算场景中最为迫切的应用需求。

a124efc8-a8df-11ed-bfe3-dac502259ad0.png

a14629cc-a8df-11ed-bfe3-dac502259ad0.png

a1dac668-a8df-11ed-bfe3-dac502259ad0.png

我们可以知道,GPUDirect RDMA是RDMA在异构计算场景中的应用延伸,使得GPU之间的通信不在依赖CPU转发,从而进一步提升高性能计算场景中整体算力。

从DPU芯片的实现角度看,不同DPU厂商的核心竞争壁垒在于专用加速引擎的硬件实现上。由于DPU是数据中心中所有服务器的流量入口,并以处理报文的方式处理数据,在网络芯片领域积累更多的厂商将更有优势。

a1fea060-a8df-11ed-bfe3-dac502259ad0.png

传统的GPU在访问存储时,需要将数据先搬移到系统内存,再由系统内存搬移到目标设备。而采用DPU介入后可以绕过CPU,直接通过PCIe访问远端的NVMe设备,加速AI训练,大大降低CPU的开销。

在AI/ML领域的工作负载对于存储系统的要求十分苛刻,目前此类应用已主要采用全闪存存储,其中NVMe全闪存逐渐成为主流趋势。同时存储与前端应用主机的网络存储协议开始采用NVMe over Fabrics(NVMe-oF)。

NVMe-oF是一种存储网络协议,通过网络将NVMe命令传送到远程NVMe子系统,以利用NVMe 全闪存的并行访问和低延迟,该规范定义了一个协议接口,旨在与高性能fabric技术配合使用,包括通过实现RDMA技术的InfiniBand、RoCE v2、iWARP或TCP。

NVMe-oF是一种使用NVMe协议将访问扩展到远程存储系统的非易失性存储器(NVM)设备的方法。这使得前端接口能够连接到存储系统中,扩展到大量NVMe设备,并延长数据中心内可以访问NVMe子系统的距离。NVMe-oF的目标是显著改善数据中心网络延迟,并为远程NVMe设备提供近似于本地访问的延迟,目标为10us。

我们知道AI对计算的需求非常大,目前主流的AI加速还是以GPU、FPGA和一些专门的AI芯片等为主。在GPU、AI芯片用于AI计算之前都是CPU承担计算的任务,CPU的效率难以满足需求,从而产生CPU+GPU+ASIC的异构计算。随着DPU的出现,这种异构计算的发展更加彻底,可以更大提供并行处理能力,适合大规模计算的发展。

a217cd2e-a8df-11ed-bfe3-dac502259ad0.png

支持Chiplet技术的超异构算力芯片,伴随着AI/ML的发展将会得到更好的应用,而支持Die-To-Die互联技术将能够提供互联其他AI芯片和算力单元的巨大能力,摆脱一直以来PCIe发展的限制。 ‍‍拿芯启源自身举例,以支持高级AI为主要目标之一的芯启源最新的DPU芯片,其架构中就应用Chiplet技术。不仅提升了自有智能网卡的性能,通过支持与第三方芯片的Die-To-Die互联,还可以集成更多的特定专业领域的芯片,比如AI训练中的GPU芯片。

虽然PCIe非常的标准,但是带宽非常有限的,PCIe Gen3的理论带宽是32GB/s,PCIe Gen4的理论带宽是64GB/s,而实测带宽大概分别是24GB/s和48GB/s。

在AI训练中,每完成一轮计算,都要同步更新一次参数,也就是权系数。模型规模越大,参数规模一般也会更大,这样算力芯片的效率会收到PCIe架构的限制,支持更高能力层次的互联技术讲彻底解决带宽限制和瓶颈,极大提升单节点计算效率。

和ChatGPT聊了那么多,最后再让我们来看看他/她对于DPU应用了解多少呢?

a2a5aea0-a8df-11ed-bfe3-dac502259ad0.png

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    27442

    浏览量

    265122
  • DPU
    DPU
    +关注

    关注

    0

    文章

    319

    浏览量

    24002
  • chiplet
    +关注

    关注

    6

    文章

    385

    浏览量

    12466

原文标题:爆红智能AI如何看待DPU ChatGPT这样说

文章出处:【微信号:corigine,微信公众号:芯启源】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    DPU技术赋能下一代AI算力基础设施

    4月19日,在以“重构世界 奔赴未来”为主题的2024中国生成式AI大会上,中科驭数作为DPU新型算力基础设施代表,受邀出席了中国智算中心创新论坛,发表了题为《以网络为中心的AI算力底座构建之路》主题演讲,勾勒出在通往AGI之路
    的头像 发表于 04-20 11:31 522次阅读

    明天线上见!DPU构建高性能云算力底座——DPU技术开放日最新议程公布!

    算力,是数字经济时代的新质生产力。随着人工智能、智算中心建设等需求不断拓展,DPU在各行各业数据中心的应用逐步深入。异构算力代表DPU在新质生产力建设中,能否给出别开生面的答案,应战算力难题?
    的头像 发表于 04-03 18:12 812次阅读

    《数据处理器:DPU编程入门》DPU计算入门书籍测评

    一、DPU计算框架 通过一周多的时间翻阅这本书,基本上这本书是一本比较全面的,面向架构的新手指导数据。它在书中详尽介绍了关于DPU在计算机架构中的应用。 对于DPU来说,是一种平行于CPU和GPU
    发表于 12-24 10:54

    《数据处理器:DPU编程入门》读书笔记

    AI、机器学习、安全、电信和存储等应用,并提升性能,减轻虚拟化Hypervisor的工作负载。同时,它还具备开放性集成功能,未来支持更多功能集成。NVIDIA的DPU还提供统一的面向各种应用的编程接口
    发表于 12-21 10:47

    《数据处理器:DPU编程入门》+初步熟悉这本书的结构和主要内容

    成本和提高性能。 2.人工智能和机器学习:DPU可以在人工智能和机器学习应用中发挥重要作用。它可以加速模型训练和推理过程,提高算法的执行效率和响应速度。这对于需要实时决策和处理大量数据的应用非常关键,如
    发表于 12-08 18:03

    什么是DPU

    ,能以线速或网络中的可用速度解析、处理数据,并高效地将数据传输到GPU和CPU。 各种灵活和可编程的加速引擎,可以卸载AI、机器学习、安全、电信和存储等应用,并提升性能。 所有这些DPU功能对于实现
    发表于 11-03 10:55

    【书籍评测活动NO.23】数据处理器:DPU编程入门

    主席 人工智能正在呈爆发式发展,成为数据中心算力需求的主要驱动力之一。为了卸载、加速和隔离数据中心基础设施工作负载,DPU应运而生。本书是一本应用NVIDIA BlueField系列DPU
    发表于 10-24 15:21

    【KV260视觉入门套件试用体验】Vitis-AI加速的YOLOX视频目标检测示例体验和原理解析

    示例体验 参考此前的帖子:【KV260视觉入门套件试用体验】部署DPU镜像并运行Vitis AI图像分类示例程序 - 智能硬件论坛 - 电子技术论坛 - 广受欢迎的专业电子论
    发表于 10-06 23:32

    【KV260视觉入门套件试用体验】四、学习过程梳理&DPU镜像&Resnet50

    =xilinx-kv260-dpu-v2022.2-v3.0.0.img.gz 镜像下载 Vitis AI Library 用户指南 镜像安装教程,软件开发教程。 五、DPU-ResNet50 实验 ResNet50模型以其深
    发表于 09-26 15:21

    AI智能呼叫中心

    随着科技的飞速发展,人工智能(AI)已经成为了各行各业的关键技术,其中,AI智能呼叫中心的出现,给传统的呼叫中心带来了巨大的改变与创新,本文将探讨A
    发表于 09-20 17:53

    【KV260视觉入门套件试用体验】部署DPU镜像并开发一个图像识别程序

    一.部署DPU镜像到KV260 DPU镜像有关介绍:DPU(Data Processing Unit)镜像是一个包含特定配置和预安装软件的虚拟化环境,用于运行数据处理任务。它可以帮助工程师快速部署
    发表于 09-18 14:15

    加速AI应用“遍地开花”,中科驭数基于DPU的算力底座方案亮相2023全球AI芯片峰会

    高峰论坛发表题为《基于DPU的高效AI大模型算力底座》的重要演讲。 ▲  中科驭数高级副总裁张宇受邀发表重要演讲 随着人工智能从高端科研领域向人们日常工作生活推进,传统数据中心都在向智算中心演进。
    的头像 发表于 09-15 20:10 510次阅读
    加速<b class='flag-5'>AI</b>应用“遍地开花”,中科驭数基于<b class='flag-5'>DPU</b>的算力底座方案亮相2023全球<b class='flag-5'>AI</b>芯片峰会

    【KV260视觉入门套件试用体验】部署DPU镜像并运行Vitis AI图像分类示例程序

    本文首先将会对Vitis统一软件平台和Vitsi AI进行简单介绍,然后介绍如何在KV260上部署DPU镜像,最后在KV260 DPU镜像上运行Vitis AI自带的图像分类示例。通过
    发表于 09-10 23:01

    你如何看待人工智能

    你如何看待人工智能 人工智能AI)是指机器和计算机程序通过学习和自我修正来模拟人类智能的过程。它可以实现人类无法完成或极其耗费时间和能源才能完成的任务,并且具有高度准确性和效率。随着
    的头像 发表于 08-12 17:39 2162次阅读

    如何看待人工智能

    如何看待人工智能 人工智能是一种正在快速发展的新兴技术,可以模拟人类的思维和行为,从而解决一些人类无法解决的难题,对未来的发展产生重大影响。在本文中,我将从以下几个角度来探讨人工智能: 一、人工
    的头像 发表于 08-12 16:34 2691次阅读