云计算三大神器CPU、GPU、DPU！-电子发烧友网

最近又读了阿里巴巴的技术委员会的新书《弹性计算》，从序上看的确很新，2020年7月。在疫情这个年代，短时间内出版再次证明了中国人民的伟大。关于书中的内容，不想再多说。俺几个小时读下来，挑了几个错别字，以后找各位大佬领赏了。

其中印象深刻的是，为什么有神龙裸金属服务器，对RDMA的支持是一个关键的场景。在云计算中引入RDMA，目的也很明确-HPC。HPC是老黄的老巢，也是老黄现在整合网络，计算和存储的试验田。有了Mellanox，ARM加持，老黄提出了自己的口号：

CPU，做业务的编排，框架

GPU，做计算

DPU，数据的搬运和服务

不得不讲，老黄的市场部很强大，DPU就这样横空出世了。对比我司万能的P2P[1]的功能，我们就是简单说P2P，不知道的人以为我们就是个金融片子，悲催的我司没赶上匹凸匹的好时光。人家老黄不对称的P2P实现就有一个响亮的名字，GPUDirect。同样，老黄的Tensor Core也有一个土鳖的名字，DSP。

这里就来谈谈这个RDMA，RDMA的优势和劣势都很清楚。在过去的10几年中，mellanox作为另类的以色列公司持续投入了很多年。（大部分以色列公司的套路是第一代产品创新，卖公司。公司卖不掉，第二代产品就SoSo了，如果有第三代产品，可以真接pass了）。

在Flash刚刚进入数据中心的时候，大家都在考虑DAS到SANder问题，什么样的网络最合适。

其中试过PCIE 外接，AMD的HT，等等。就像一位做HPC出身的朋友讲的一样：“没几年就会冒出了一堆硬件公司，然后大家就上一把，然后大部分公司都死掉了”

因此，可以看到IB versb在2010年成为主流，在HPC中目前已经已有疲态了，正是把这个HPC的专用技术用到hyperscale数据中心的好时机。

第一个规模使用IB而成功的案例是Oracle 的Exadata[1]

之后就是大量的SDS存储的公司起来了。Flash+RDMA是大家的标配。直到Microsoft在数据中心中规模部署。其实之前的RoCE本质上还是一个channel的协议，和之前的FCOE类似，只是在RoCEv2的时候，因为Microsoft的加持，从真正成就了Mellanox，同时把原来最擅长存储的Iwarp打进了小众市场，但是目前IBM和Netapp依然在坚守。

原来一个Intel的网卡大佬就很不服气，“我们做网卡快20年了，Mellanox的ethernet 网卡到现在都有很多功能不支持，但是他们咋就成了先进技术了，成了Smartnic呢？”。这样的话，当年EMC也说过Fusion-io这样的startup。

不管结果如何，Microsoft和Mellanox在Data Center Network的深度合作，让Mellanox在25G成功上位。取代了Intel和Broadcom在高端网卡的江湖地位。

当年在见识了Annapuna的EBS性能之后，我在加入新公司时就对大佬说要做RDMA，要做RoCEv2。但是大佬就是大佬，他们认为lossless的网络一直就是一个传说。而且，那个时候AI正在风口上。总之，这个事情也让我看清了一个事实，就是Hyperscale用RDMA，只会有两种配置：Mellanox的RDMA，以及他们自己的RDMA。

这个微软是最先这么考虑的，他们就是认为RDMA只有两种。微软内部实现的RDMA的细节很少有透露，知道的大佬欢迎分享。

但是另一个大佬的AWS的RDMA就有很多细节。拿另一个常常教育我的大佬的话:" 他们想做什么都在EFA的驱动里写着！！！“。在火焰图流行的这个时代，静态分析的确有点反人类。

比较好的是，作为HPC RDMA权威的熊猫教授率先被AWS的EFA招安，他们在SC19以及今年发表很多关于EFA的详细信息[2]。当然还有Annapurna CTO Nafea 同学的软文[3]

熊猫教授的一个学生做了Azure和AWS的RDMA性能的分析，因为过于敏感，自己关心的人可以去了解。但是以后估计每家大厂炫耀的资本里面会很快有一个：“我的RDMA是自研的，是XXXCloud特色的RDMA！”

--"老黄你怎么办呢？"

"DPU，DPU+GPU，DPU+GPU+CPU。。。。。。。"

--"Chiplets 要不要考虑一下？"

责任编辑：lq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

cpu

cpu

+关注

关注
68

文章
10816

浏览量
211000
云计算

云计算

+关注

关注
39

文章
7720

浏览量
137159
DAS

DAS

+关注

关注
0

文章
104

浏览量
31043

原文标题：云计算三大神器来了！CPU、GPU、DPU！

文章出处：【微信号：SSDFans，微信公众号：SSDFans】欢迎添加关注！文章转载请注明出处。

如何构建及优化GPU云网络

并从计算节点成本优化、集群网络与拓扑的选择等方面论述如何构建及优化GPU云网络。

发表于 11-06 16:03 •224次阅读

如何构建及优化<b class='flag-5'>GPU</b><b class='flag-5'>云</b>网络

IaaS+on+DPU(IoD)+下一代高性能算力底座技术白皮书

DPU 是当下算力基础设施的核心创新之一。如果把 CPU 比做大脑，那么 GPU 就好比是肌肉，而 DPU 就是神经中枢。CPU 承载了应

发表于 07-24 15:32

恒讯科技的GPU云解决方案有什么特点和优势？

GPU云解决方案通常指的是云服务提供商提供的、基于图形处理单元（GPU）的计算服务。这些服务利用GPU

发表于 06-12 17:24 •365次阅读

CPU渲染和GPU渲染优劣分析

使用计算机进行渲染时，有两种流行的系统：基于中央处理单元(CPU)或基于图形处理单元(GPU)。CPU渲染利用计算机的

发表于 05-23 08:27 •522次阅读

gpu是什么和cpu的区别

GPU和CPU是两种常见的计算机处理器，它们在结构和功能上有很大的区别。在这篇文章中，我们将探讨GPU和CPU的区别，并详细介绍它们的原理、

发表于 02-20 11:24 •1.8w次阅读

gpu服务器是干什么的 gpu服务器与cpu服务器的区别有哪些

gpu服务器是干什么的 gpu服务器与cpu服务器的区别 GPU服务器是一种专门用于处理图形运算的服务器，而CPU服务器则是一种处理通用

发表于 01-30 15:31 •799次阅读

为什么GPU比CPU更快？

GPU比CPU更快的原因并行处理能力：GPU可以同时处理多个任务和数据，而CPU通常只能一次处理一项任务。这是因为GPU的架构使得它可以同时

发表于 01-26 08:30 •2210次阅读

GPU是显卡吗 cpu和gpu哪个算力强

GPU（图形处理器）是显卡（显像处理器）的一种，它是一种专门用于图形计算的处理器。显卡是计算机中的一个重要组件，负责处理和渲染图形，使它们能够在显示屏上显示出来。GPU与

发表于 01-10 15:45 •5015次阅读

CPU与GPU散热器设计的异同及其重要性

CPU与GPU散热器的设计异同及其重要性在计算机的发展过程中，中央处理单元（CPU）和图形处理单元（GPU）在性能和热量产生方面的不断提升

发表于 01-09 14:00 •1169次阅读

《数据处理器：DPU编程入门》DPU计算入门书籍测评

一、DPU计算框架通过一周多的时间翻阅这本书，基本上这本书是一本比较全面的，面向架构的新手指导数据。它在书中详尽介绍了关于DPU在计算机架构中的应用。对于

发表于 12-24 10:54

百度智能云将在三大方面重构云计算服务

在云基础设施层，移动互联网时代的应用，底层大多依赖CPU算力，而AI应用对GPU或异构计算的需求大幅增加，云市场的底层算力需求将逐渐转向以

发表于 12-21 15:41 •324次阅读

《数据处理器：DPU编程入门》读书笔记

首先感谢电子发烧友论坛提供的试读机会。第一周先阅读了DPU的技术发展背景，了解到DPU是结合了高性能及软件可编程的多核CPU、高性能网络接口，以及各种灵活和可编程的加速引擎。DPU的

发表于 12-21 10:47

浅谈DPU和CPU、GPU的关系

把CPU的一大部分算力卸载给GPU之后，人们发现可以把很多其他功能也外包出去，于是又有了智能网卡，或者叫做DPU。

发表于 12-14 11:44 •815次阅读

《数据处理器：DPU编程入门》+初步熟悉这本书的结构和主要内容

之一。随着人们对云计算和大数据处理需求的增加，数据中心的计算负载也不断增加。传统的中央处理器（CPU）在处理这些工作负载时可能会遇到瓶颈，难以提供足够的性能和效率。

发表于 12-08 18:03

gpu服务器是干什么的 gpu服务器与cpu服务器的区别

　相比于传统的CPU服务器，GPU服务器支持同时计算大量相似的计算操作，可以实现更强的并行计算性能。GP

发表于 12-02 17:20 •1853次阅读

搜索历史

云计算三大神器CPU、GPU、DPU！

评论

如何构建及优化GPU云网络

IaaS+on+DPU(IoD)+下一代高性能算力底座技术白皮书

恒讯科技的GPU云解决方案有什么特点和优势？

CPU渲染和GPU渲染优劣分析

gpu是什么和cpu的区别

gpu服务器是干什么的 gpu服务器与cpu服务器的区别有哪些

为什么GPU比CPU更快？

GPU是显卡吗 cpu和gpu哪个算力强

CPU与GPU散热器设计的异同及其重要性

《数据处理器：DPU编程入门》DPU计算入门书籍测评

百度智能云将在三大方面重构云计算服务

《数据处理器：DPU编程入门》读书笔记

浅谈DPU和CPU、GPU的关系

《数据处理器：DPU编程入门》+初步熟悉这本书的结构和主要内容

gpu服务器是干什么的 gpu服务器与cpu服务器的区别