HPC网络的发展与RoCE的诞生

RoCE(RDMA over Converged Ethernet)协议是一种能在以太网上进行RDMA（远程内存直接访问）的集群网络通信协议，它大大降低了以太网通信的延迟，提高了带宽的利用率，相比传统的TCP/IP协议的性能有了很大提升。本文将聊一聊我对于将RoCE应用到HPC上这件事的看法。

HPC网络的发展与RoCE的诞生

在早年的高性能计算(HPC)系统中，往往会采用一些定制的网络解决方案，例如：Myrinet、Quadrics、InfiniBand，而不是以太网。这些网络可以摆脱以太网方案在设计上的限制，可以提供更高的带宽、更低的延迟、更好的拥塞控制、以及一些特有的功能。

IBTA在2010年发布了RoCE(RDMA over Converged Ethernet)协议技术标准，随后又在2014年发布了RoCEv2协议技术标准，同时带宽上也有大幅提升。以太网性能的大幅提升，使越来越多的人想要选择能兼容传统以太网的高性能网络解决方案。这也打破了top500上使用以太网的HPC集群数量越来越少的趋势，使以太网现在仍然占有top500的半壁江山。虽然现在Myrinet、Quadrics已经消亡，但InfiniBand仍然占据着高性能网络中重要的一席之地，另外Cray自研系列网络，天河自研系列网络，Tofu D系列网络也有着其重要的地位。

RoCE协议介绍

RoCE协议是一种能在以太网上进行RDMA（远程内存直接访问）的集群网络通信协议。它将收/发包的工作卸载(offload)到了网卡上，不需要像TCP/IP协议一样使系统进入内核态，减少了拷贝、封包解包等等的开销。这样大大降低了以太网通信的延迟，减少了通讯时对CPU资源的占用，缓解了网络中的拥塞，让带宽得到更有效的利用。

RoCE协议有两个版本：RoCE v1和RoCE v2。其中RoCE v1是链路层协议，所以使用RoCEv1协议通信的双方必须在同一个二层网络内；而RoCE v2是网络层协议，因此RoCE v2协议的包可以被三层路由，具有更好的可扩展性。

RoCE v1协议

RoCE协议保留了IB与应用程序的接口、传输层和网络层，将IB网的链路层和物理层替换为以太网的链路层和网络层。在RoCE数据包链路层数据帧中，Ethertype字段值被IEEE定义为了0x8915，来表明这是一个RoCE数据包。但是由于RoCE协议没有继承以太网的网络层，在RoCE数据包中并没有IP字段，因此RoCE数据包不能被三层路由，数据包的传输只能被局限在一个二层网络中路由。

RoCEv2协议

RoCE v2协议对RoCE协议进行了一些改进。RoCEv2协议将RoCE协议保留的IB网络层部分替换为了以太网网络层和使用UDP协议的传输层，并且利用以太网网络层IP数据报中的DSCP和ECN字段实现了拥塞控制的功能。因此RoCE v2协议的包可以被路由，具有更好的可扩展性。由于RoCE v2协议现在已经全面取代存在缺陷的RoCE协议，人们在提到RoCE协议时一般也指的是RoCE v2协议，故本文中接下来提到的所有RoCE协议，除非特别声明为第一代RoCE，均指代RoCE v2协议。

无损网络与RoCE拥塞控制机制

在使用RoCE协议的网络中，必须要实现RoCE流量的无损传输。因为在进行RDMA通信时，数据包必须无丢包地、按顺序地到达，如果出现丢包或者包乱序到达的情况，则必须要进行go-back-N重传，并且期望收到的数据包后面的数据包不会被缓存。

RoCE协议的拥塞控制共有两个阶段：使用DCQCN(Datacenter Quantized Congestion Notification)进行减速的阶段和使用PFC(Priority Flow Control)暂停传输的阶段（虽然严格来说只有前者是拥塞控制策略，后者其实是流量控制策略，但是我习惯把它们看成拥塞控制的两个阶段，后文中也这会这么写）。当在网络中存在多对一通信的情况时，这时网络中往往就会出现拥塞，其具体表现是交换机某一个端口的待发送缓冲区消息的总大小迅速增长。如果情况得不到控制，将会导致缓冲区被填满，从而导致丢包。因此，在第一个阶段，当交换机检测到某个端口的待发送缓冲区消息的总大小达到一定的阈值时，就会将RoCE数据包中IP层的ECN字段进行标记。当接收方接收到这个数据包，发现ECN字段已经被交换机标记了，就会返回一个CNP(Congestion Notification Packet)包给发送方，提醒发送方降低发送速度。需要特别注意的是，对于ECN字段的标记并不是达到一个阈值就全部标记，而是存在两个Kmin和Kmax，如图2所示，当拥塞队列长度小于Kmin时，不进行标记。当队列长度位于Kmin和Kmax之间时，队列越长，标记概率越大。当队列长度大于Kmax时，则全部标记。而接收方不会每收到一个ECN包就返回一个CNP包，而是在每一个时间间隔内，如果收到了带有ECN标记的数据包，就会返回一个CNP包。这样，发送方就可以根据收到的CNP包的数量来调节自己的发送速度。

当网络中的拥塞情况进一步恶化时，交换机检测到某个端口的待发送队列长度达到一个更高的阈值时，交换机将向消息来源的上一跳发送PFC的暂停控制帧，使上游服务器或者交换机暂停向其发送数据，直到交换机中的拥塞得到缓解的时候，向上游发送一个PFC控制帧来通知上有继续发送。由于PFC的流量控制是支持按不同的流量通道进行暂停的，因此，当设置好了每个流量通道带宽占总带宽的比例，可以一个流量通道上的流量传输暂停，并不影响其他流量通道上的数据传输。值得一提的是，并不是每一款声称支持RoCE的交换机都完美的实现了拥塞控制的功能。在我的测试中，发现了某品牌的某款交换机的在产生拥塞时，对来自不同端口但注入速度相同的流量进行ECN标记时概率不同，导致了负载不均衡的问题。

RoCE和Soft-RoCE

虽然现在大部分的高性能以太网卡都能支持RoCE协议，但是仍然有一些网卡不支持RoCE协议。因此IBM、Mellanox等联手创建了开源的Soft-RoCE项目。这样，在安装了不支持RoCE协议的网卡的节点上，仍然可以选择使用Soft-RoCE，使其具备了能与安装了支持RoCE协议的网卡的节点使用RoCE协议进行通信的能力，如图3所示。虽然这并不会给前者带来性能提升，但是让后者能够充分发挥其性能。在一些场景下，比如：数据中心，可以只将其高IO存储服务器升级为支持RoCE协议的以太网卡，以提高整体性能和可扩展性。同时这种RoCE和Soft-RoCE结合的方法也可以满足集群逐步升级的需求，而不用一次性全部升级。

将RoCE应用到HPC上存在的问题

HPC网络的核心需求

我认为HPC网络的核心需求有两个：①低延迟；②在迅速变化的流量模式下仍然能保持低延迟。

对于①低延迟，RoCE就是用来解决这个问题的。如前面提到的，RoCE通过将网络操作卸载到网卡上，实现了低延迟，也减少了CPU的占用。对于②在迅速变化的流量模式下仍然能保持低延迟，其实就是拥塞控制的问题。但是关键在于HPC的流量模式是迅速变化的，而RoCE在这个问题上表现是欠佳的。

RoCE的低延迟

实机测试

RoCE的延迟有幸有机会与IB实测对比了一下：以太网用的是25G Mellanox ConnectX-4 Lx 以太网卡，和Mellanox SN2410交换机；IB用的是100G InfiniBand EDR网卡(Mellanox ConnectX-4)，和Mellanox CS7520。测试中以太网交换机摆位于机架顶部，IB交换机摆在比较远的机柜，因而IB的会因为线缆的实际长度较长而有一点劣势。测试使用OSU Micro-Benchmarks中的osu_latency对IB、RoCE、TCP协议进行延迟测试，结果如下。

虽然IB用的是100G的，RoCE用的是25G的，但是这里我们关注的是延迟，应该没有关系。可以看出，虽然RoCE协议的确能大幅降低通信延迟，比TCP快了5倍左右，但仍然比IB慢了47%-63%。

官方纸面数据

上面用到的以太网交换机SN2410的官方延迟数据是300ns，虽然IB交换机CS7520没找到官方延迟数据，不过找到了同为EDR交换机的SB7800的官方数据，延迟为90ns。不过上面这些是有些旧的前两年的设备了，新一点的Mellanox以太网交换机SN3000系列的200G以太网交换机官方延迟数据是425ns，更新的Mellanox SN4000系列400G以太网交换机，在官方文档没有找到延迟数据。新一点的Mellanox IB交换机QM8700系列HDR交换机的官方延迟数据是130ns，最新的QM9700系列NDR交换机，在官方文档中也没有找到延迟数据。（不知道为啥都是新一代的比旧的延迟还大一点，而且最新一代的延迟都没放出来）定制网络的Cray XC系列Aries交换机延迟大约是100ns，天河-2A的交换机延迟也大约是100ns。可见在交换机实现上，以太网交换机与IB交换机以及一些定制的超算网络的延迟性能还是有一定差距的。

RoCE的包结构

假设我们要使用RoCE发送1 byte的数据，这时为了封装这1 byte的数据包要额外付出的代价如下：

以太网链路层：14 bytes MAC header + 4 bytes CRC

以太网IP层：20 bytes

以太网UDP层：8 bytes

IB传输层：12 bytes Base Transport Header (BTH)

总计：58 bytes

假设我们要使用IB发送1 byte的数据，这时为了封装这1 byte的数据包要额外付出的代价如下：

IB链路层：8 bytes Local Routing Header(LHR) + 6 byte CRC

IB网络层：0 bytes 当只有二层网络时，链路层Link Next Header (LNH)字段可以指示该包没有网络层

IB传输层：12 bytes Base Transport Header (BTH)

总计：26 bytes 如果是定制的网络，数据包的结构可以做到更简单，比如天河-1A的Mini-packet (MP)的包头是有8 bytes。由此可见，以太网繁重的底层结构也是将RoCE应用到HPC的一个阻碍之一。数据中心的以太网交换机往往还要具备许多其他功能，还要付出许多成本来进行实现，比如SDN、QoS等等，这一块我也不是很懂。对于这个以太网的这些features，我挺想知道：以太网针这些功能与RoCE兼容吗，这些功能会对RoCE的性能产生影响吗？

RoCE拥塞控制存在的问题

RoCE协议的两段拥塞控制都存在一定的问题，可能难以在迅速变化的流量模式下仍然能保持低延迟。

采用PFC(Priority Flow Control)采用的是暂停控制帧来防止接收到过多的数据包从而引起丢包。这种方法比起credit-based的方法，buffer的利用率难免要低一些。由其对于一些延迟较低的交换机，buffer会相对较少，此时用PFC(Priority Flow Control)就不好控制；而如果用credit-base则可以实现更加精确的管理。 DCQCN与IB的拥塞控制相比，其实大同小异，都是backward notification：通过通过先要将拥塞信息发送到目的地，然后再将拥塞信息返回到发送方，再进行限速。但是在细节上略有不同：RoCE的降速与提速策略根据论文Congestion Control for Large-Scale RDMA Deployments，是固定死的一套公式；而IB中的可以自定义提速与降速策略；虽然大部分人应该实际上应该都用的是默认配置，但是有自由度总好过没有叭。还有一点是，在这篇论文中测试的是每N=50us最多产生一个CNP包，不知道如果这个值改小行不行；而IB中想对应的CCTI_Timer最小可以为1.024us，也不知道实际能不能设置这么小。最好的方法当然还是直接从拥塞处直接返回拥塞信息给源，即Forward notification。以太网受限于规范不这么干可以理解，但是IB为啥不这么干呢？

RoCE在HPC上的应用案例

Slingshot

美国的新三大超算都准备用Slingshot网络，这是一个改进的以太网，其中的Rosetta交换机兼容传统的以太网同时还对RoCE的一些不足进行了改进，如果一条链路的两端都是支持的设备（专用网卡、Rosetta交换机）就可以开启一些增强功能：

将IP数据包最小帧大小减小到32 bytes

相邻交换机的排队占用情况(credit)会传播给相邻的交换机

更加nb的拥塞控制，但是具体怎么实现的论文里没细说

最后达到的效果是交换机平均延迟是350ns，达到了较强的以太网交换机的水平，但是还没没有IB以及一些定制超算交换机延迟低，也没有前一代的Cray XC超算交换机延迟低。但是在实际应用的表现似乎还行，但是论文An In-Depth Analysis of the Slingshot Interconnect中似乎只是和前一代的Cray超算比，没有和IB比。

CESM与GROMACS测试

我也用前面测试延迟的25G以太网和100G测了CESM与GROMACS来对比了应用的性能。虽然两者之间带宽差了4倍，但是也有一点点参考价值。

GROMACS测试结果

一些期待

如果能有人将100G或者200G的IB和以太网组一个大规模集群来对比两者之间的性能差距，其实就能说明很多问题，但是成本实在太高，到目前为止还没发现有哪里做了这样的实验。

总结与结论

将RoCE应用到HPC中有我觉得如下问题：

以太网交换机的延迟相比于IB交换机以及一些HPC定制网络的交换机要高一些

RoCE的流量控制、拥塞控制策略还有一些改进的空间

以太网交换机的成本还是要高一些

但是从实测性能上来看，在小规模情况下，性能不会有什么问题。但是在大规模情况下，也没人测过，所以也不知道。虽然Slingshot的新超算即将出来了，但是毕竟是魔改过的，严格来说感觉也不能算是以太网。但是从他们魔改这件事情来看，看来他们也觉得直接应用RoCE有问题，要魔改了才能用。

编辑：黄飞

阅读全文

以太网(165908) 以太网(165908)
交换机(95393) 交换机(95393)
proce(7580) proce(7580)

基于Redfish的COM-HPC平台管理接口

　　开发人员现在可以决定是否需要具有 COM-HPC PMI 的模块，或者是否足以通过载板上的 BMC 实现 COM-HPC PMI。

2022-07-11 09:14:22

862

智算中心网络架构选型原则

通常，在在AI智算系统中，一个模型从生产到应用，一般包括离线训练和推理部署两大阶段；本文选自“ 智算中心网络架构白皮书（2023） ”“ 智能计算中心规划建设指南 ”，常用的对IB和ROCE

2023-08-07 09:13:41

1391

符合《COM-HPC载板设计指南》的生态系统康佳特简化COM-HPC设计

康佳特COM-HPC生态系统完全符合全新 PICMG COM-HPC标准的所有要求，该标准包括《COM-HPC模块基本规范》、《载板设计指南》、《嵌入式EEPROM规范》和《平台管理接口规范》。这套PICMG标准获得了包括康佳特在内的所有主流嵌入式计算技术供应商的支持，为开发者保障了最高的设计安全性。

2022-02-14 11:00:24

1385

HPC-100CT-2液位变送器

hitrol液位开关中国总代吴经理="" ：***，0755-26998458 =""供应韩国HITROL液位变送器 HPC-100CT-2吴经理

2019-01-08 09:40:09

HPC-100CT-2液位计

HPC-100CT-2液位计 HPC-100CT-2液位计详询请致电： ***吴经理工作Q：1139878854 地址：深圳市南山区科技园南海大道4050号 HITROL公司运用专利的热扩散技术，为

2020-01-15 17:57:17

HPC-100CT-2韩国HITROL液位变送器

HPC-100CT-2韩国HITROL液位变送器 HPC-100CT-2韩国HITROL液位变送器吴经理:***工作Q: 1139878854韩国HITROL专注流量计领域50余载，拥有众多创新

2020-05-22 17:54:14

HPC-7000-50ZXE

HPC-7000 TOWER CHASSIS FOR EATX

2024-03-14 20:16:25

HPC-7140-R4A1E

HPC-7140 1U 4 BAYS SERVER CHASSI

2024-03-14 20:16:25

HPC-95PH

` HPC-95PHHPC-95PH长期代理韩国HITROL液位开关吴经理：132.4667.5433 / 0755-26998458工作Q：1139878854 地址：深圳市南山区南海大道4050

2019-12-19 09:45:30

HPC3015F-100M

HPC3015F-100M

2023-03-28 14:56:58

HPC3015TF-1R5Y

HPC3015TF-1R5Y

2023-03-29 17:16:01

HPC522

HPC522 - PHOTO COUPLERS - AZ Displays

2022-11-04 17:22:44

HPC高性能计算知识介绍

HPC高性能计算知识异构并行计算

2020-05-29 17:45:33

网络分析仪的发展趋势

年代多种电子仪器的基础上发展起来的。网络分析仪促进了高频元件及其设计方法的发展，测量电路和器件的传输、反射和阻抗特性的能力使工程师们能优化放大器、变频器、信号分离和滤波器件以及其它元件的性能。下面我们一起来看看网络分析仪的诞生背景以及早期五款重要的网络分析仪。

2019-06-10 07:27:29

网络电话的发展前景？

现在网络电话成了IT、通信界的焦点，但是真正对于网络电话的发展前景是如何呢？

2012-07-05 10:12:27

Bricked Curiosity HPC无法进行编程

嗨，所有，得到一个好奇的HPC的盒子，可以读取固件（1.41），并试图通过MPLAB 4.15更新到最新的PKOB固件（1.51），它失败了。无法进行编程。好奇号HPC是否有应急引导加载程序恢复

2018-10-16 15:32:25

CANopen协议诞生及发展，不看肯定后悔

2021-05-21 06:12:25

HITROL HPC-100CTH-2液位开关

HITROL HPC-100CTH-2液位开关 HITROL HPC-100CTH-2液位开关吴经理：0755-26998458 /132.4667.5433工作Q

2019-02-13 14:16:13

HITROL HPC-95P

` 代理韩国HITROL液位传感器,控制器吴经理：0755-26998458/132.4667.5433 工作QQ：1139878854HCC(HPC)-95P系列是一款电容式液/料位开关，它通过

2019-12-19 09:47:57

HITROL液位开关 HPC-100CT-2

HITROL液位开关 HPC-100CT-2HITROL液位开关 HPC-100CT-2HITROL液位开关 HPC-100CT-2 代理韩国HITROL浮球液位开关吴工:0755-26998458

2019-04-28 10:44:39

HITROL液位开关HPC-95P

韩国hitrol液位传感器中国总代理代理韩国HITROL液位开关 HPC-95P详询请致电：132.4667.5433/ 0755-26998458 吴经理工作QQ：1139878854

2019-01-02 11:32:29

HITROL电容液位计 HPC-95PH

`HITROL电容液位计 HPC-95PHHITROL电容液位计 HPC-95PHHITROL液位开关中国总代电话：132.4667.5433/0755-26998458联系人：吴经理工作Q

2019-12-19 11:17:23

IPTV网络电视的发展

IPTV网络电视的发展IPTV 又名交互电视、网络电视或者宽带电视，是通过电信宽带互联网(如电信和网通的ADSL、社区5 类线等接入方式，已经FTTH 光纤到户)传输电视节目的新型多种交互式电视传播

2009-08-11 10:45:57

MCU发展史

来源：EEPN微控制器在经过不断地研究和发展,历经了从4位、8位,到现在的16位及32位,甚至64位。产品的成熟度,以及投入厂商之多,应用范围之广,真可谓之空前。单片机诞生于20世纪70年代末，经历

2016-06-29 11:20:26

wich PIC模型是否与HPC好奇板兼容？

嗨，伙计们，因为好奇信息页面说404错误页面被移动到另一个站点，我不知道wich PIC模型是否与HPC好奇板兼容。PIC弄丢了OSCCAL，我没有扔它。在我的国家，我只找到一家卖PIC18F46K22和其他字母K的商店。所有兼容MCC的图片也兼容HPC？

2019-11-11 15:19:50

云计算产业发展现状及趋势

云计算产业发展现状及趋势，本文讲的是云计算时代IT产业六大发展趋势，【IT168 资讯】1946年2月14日第一台计算机诞生，至今已经有50多年的历史，随着计算机和网络的普及，全球经济步入发展

2021-07-27 06:25:03

从社区看区块链发展

自人类文明诞生以来，多种多样的组织形式在人类活动的过程中诞生，其中最成功的无疑是公司，或者叫企业。迄今为止，世界上大部分人都是在公司这种组织内来进行生产生活的。在公司之外，社区也是较为成功的一种

2018-01-04 13:32:17

内存条是如何诞生的？内存条容量是怎样变化的？

内存条是如何诞生的？内存条容量是怎样变化的？DDR4还是很年轻？还有发展空间吗？

2021-06-18 07:24:30

功耗成为HPC和Networking的关键设计挑战

功耗成为HPC和Networking的关键设计挑战

2021-05-21 06:32:23

卷积神经网络模型发展及应用

卷积神经网络模型发展及应用转载****地址：http://fcst.ceaj.org/CN/abstract/abstract2521.shtml深度学习是机器学习和人工智能研究的最新趋势，作为一个

2022-08-02 10:39:39

嵌入式网络视频监控系统怎么发展？

视频监控系统经历了本地模拟信号监控系统，基于PC插卡的数字监控系统，基于嵌入式技术的网络数字监控系统等发展过程。

2019-09-26 06:51:00

我和容器有个约会：浅析HPC容器的前世今生

应用通过TCP/IP通信，而HPC应用都是通过专属网络(IB/ROCE)进行通信的。● 包含了不必要的资源开销既然普通的容器化技术满足不了HPC应用的需求，那还有其它办法吗？所谓天降大任于斯人也，必先苦其

2022-09-28 10:43:09

无线传感器网络有什么发展趋势？

近年来，无线技术的爆炸式发展催生了多种工业、科学及医疗（ISM）频带无线标准。由于有了这些新标准，各种无线应用渗透到我们日常生活的方方面面。毫无疑问，无线传感器网络（WSN）便是一种最为受益于这些标准的重要应用。

2020-04-10 08:26:16

无线传感器网络简单介绍

）等组成。近期微电子机械加工（MEMS）技术的发展为传感器的微型化提供了可能，微处理技术的发展促进了传感器的智能化，通过MEMS技术和射频（RF）通信技术的融合促进了无线传感器及其网络的诞生。传统

2019-07-01 06:25:23

移动通信未来的发展

用户仅700个，至1997年7月17日中国移动第1000万个移动电话客户在南京诞生，花了9年8个月左右的时间。而后我国移动通信产业进入快速发展阶段，1998年8月18日用户即达2000万，至2001年

2019-06-27 08:29:05

阿里云E-HPC赋能制造业仿真云弹性

摘要：从公测开始说起去年9月份E-HPC开始公测，某仿真客户便开始申请使用弹性高性能服务。该客户因为业务关系已开始或多或少使用云计算产品，另一方面传统制造业发展问题也促使客户想尝试做出一些改变

2018-05-18 22:19:53

韩国 HITROL HPC-100CTW-2

代理韩国 HITROL HPC-100CTW-2吴工：132,466,75433 / 0755-26998458工作Q: 1139878854 简单介绍：浮球液位控制器，是利用一个磁浮球即可发出多点

2020-03-30 15:41:40

韩国HITROL HPC-95PW

位开关，HITROL液位计，HITROL海特勒射频式料位开关，HITROL桨式料位开关经过40年的发展，HITROL已经成长为一家致力于测量仪表领域的专业化公司。重视持续地投入开发研究工作，在专业领域

2019-01-02 11:40:16

韩国HITROL料位开关HPC-95PH

代理韩国HITROL料位开关HPC-95PH详询请致电:***HCC(HPC)-95P系列液位开关的应用：液体 : 各种燃料，溶剂，酸，碱，液化气和纯水等。混合液体 : 工业污水，城市污水

2020-10-10 11:20:23

韩国HITROL液位开关 HPC-95PH

韩国HITROL液位开关 HPC-95PH韩国HITROL液位开关 HPC-95PHHITROL中国总代！！！吴经理：132,4667,5433/0755-26998458工作Q

2019-12-19 09:44:20

韩国HITROL液位开关HPC-96RF-RH

韩国HITROL液位开关HPC-96RF-RH韩国HITROL液位开关HPC-96RF-RH深圳市现代豪方仪器仪表科技有限公司吴经理：132.4667.5433韩国HITROL液位开关

2021-01-21 11:06:08

韩国HITROL液位计HPC-100CT-2

，使用寿命长。安装方便、结构简单、经济耐用随着工业的不断发展，液位传感器被愈来愈多的行业所应用，在使用变送器的时候，我们需要注意一些问题，这样不仅仅使我们的测量更加准确，同时也能使我们的液位传感器

2020-04-22 09:20:08

华强HPC-2598电路图

华强HPC-2598彩色电视机电路图，华强HPC-2598彩电图纸，华强HPC-2598原理图。

2009-05-09 14:58:06

陈卫荣 - Platform for HPC and AI SoCs in Data Center 1

HPCRISC-V

RISCV国际基金会发布于 2022-09-06 13:00:28

陈卫荣 - Platform for HPC and AI SoCs in Data Center 2

HPCRISC-V

RISCV国际基金会发布于 2022-09-06 13:01:24

实现InfiniBand网络优化自动化HPC管理工具

实现InfiniBand网络优化自动化HPC管理工具凭借对通信网络独特和系统深入的认知，QLogic Corp.（Nasdaq: QLGC）新推出的InfiniBand® Fabric Suite (IFS) 6.0以其

2010-05-24 11:09:12

768

Linux诞生和发展的五个重要支柱

Linux操作系统诞生于1991年的10月5日（第一次正式向外公布的时间）。以后借助于Internet网络，经过全世界各地计算机爱好者的共同努力下，才成为今天世界上使用最多的一种UNIX类操作系

2011-04-20 21:08:06

NVIDIA:HPC的未来是ARM非x86

NVIDIA HPC产品部门主管Sumit Gupta在接受媒体采访时表示，HPC的未来方向在于ARM而非x86。

2011-12-14 09:41:09

779

因特网的诞生和发展(1)#计算机网络

计算机网络

未来加油dz发布于 2023-06-02 16:09:17

因特网的诞生和发展(2)#计算机网络

计算机网络

未来加油dz发布于 2023-06-02 16:10:06

因特网的诞生和发展(3)#计算机网络

计算机网络

未来加油dz发布于 2023-06-02 16:10:58

英特尔HPC协调器网络研讨会：简化您的HPC系统软件

Intel® HPC Orchestrator, based on the OpenHPC system software stack, is the Intel solution for your HPC needs.

2018-10-18 05:33:00

1828

AI将使用HPC,这将永远改变HPC

全球最快的计算机上也在运行人工智能负载，这也在改变HPC（高性能计算，High Performance Computing）。

2019-04-17 10:18:48

3395

混合云环境中的Kubernetes HPC使用经验

该公司成立于2013年，致力于开发HPC容器技术和容器化工程应用程序，以促进在共享的本地或按需云环境中访问和使用工程HPC工作负载。本文及上一篇文章中，他们描述了过去12个月在Kubernetes上使用UberCloud HPC容器的经验。

2020-03-21 11:47:55

1782

康佳特推出COM-HPC新生态系统 COM-HPC集成的重要里程碑

符合ATX规格的载板conga-HPC/EVAL-Client专为COM-HPC平台评估而设计，包含各类用于编程、固件重刷和重置的研发用接口。

2020-11-24 15:25:56

2452

华为端到端NVMe over RoCE增强方案亮相，打造高性能算力的高速公路

华为企业存储领域总经理廖成带来了《激发全闪存澎湃新动力，加速端到端NVMe over RoCEv2方案成熟商用》的分享，廖成指出NVMe over RoCE增强方案需要从操作系统、网络交换到存储设备

2020-11-27 16:00:55

5321

如何扩大HPC资源的使用？

重要科研挑战，推动了尖端人工智能（AI）应用的发展。但是，有限的HPC资源及其不充分利用，阻碍了研究人员开发新产品和服务的能力。我国在超级计算机方面发展迅速，达到国际先进水平，但同样需要增益超算资源的利用，以支持更多的科研和

2020-12-24 10:07:40

1578

是德科技与中国移动合作开发RoCE测试方案：首次使用通用测试仪表

首次使用通用测试仪表，提高了RoCE测试效率和准确性是德科技公司（NYSE：KEYS）宣布与全球最大的移动运营商中国移动合作推进以太无损网络测试方案。是德科技是一家领先的技术公司，致力于帮助企业

2021-01-08 15:01:19

54566

2020年全球主要HPC存储厂商盘点

HPC（高性能计算）是人类社会发展的重要技术驱动力，它与科技进步相辅相成、互为促进。从宇宙探索到油气勘探、从基因测序到自动驾驶，HPC都功不可没。进入2020年，全球各国纷纷加码HPC赛道，推进

2021-01-27 15:58:50

3128

HPC技术对社会发展有什么深远影响

大大提升——这项技术就是高性能计算HPC。那么到底什么是HPC，这项技术对社会发展有什么深远影响，答案尽在本期鹏友会客厅。数据存储承担文明传承、生产生活改善、科技创新三大重任在数字化时代，数据存储是政企运行的生

2021-06-13 09:24:00

1578

用NVIDIA NetQ 4.0.0实现网络质量和可靠性监测

聚合以太网上的 RDMA ( RoCE ）提供了使用以太网上的远程直接内存访问（ RDMA ）而不是使用主机 cpu 来写入计算或存储元素的能力。 RoCE 依靠拥塞控制和无损以太网来运行

2022-04-11 14:25:26

970

在ZTR无配置大规模中实现的缩放零接触RoCE技术

数据中心。同时，大规模部署传统上依赖于显式拥塞通知（ ECN ）来启用 RoCE 网络传输，这需要交换机配置。

2022-04-14 14:15:51

2067

利用英伟达ARM HPC开发套件开发下一代HPC应用程序

　　英伟达 ARM HPC 开发工具包是第一个步骤，使 AR-HPC 生态系统 GPU 加速。 NVIDIA 致力于全面支持 Arm 的 HPC 和 AI 应用。

2022-04-14 14:50:41

1289

基于Redfish的COM-HPC平台管理接口

　　开发人员现在可以决定是否需要具有 COM-HPC PMI 的模块，或者是否足以通过载板上的 BMC 实现 COM-HPC PMI。

2022-06-15 10:53:32

1500

6院士+1图灵奖得主齐聚CCF HPC China 2022

一年一度的全球顶级超算盛会 HPC China将于2022年9月23日－25日在“泉城”济南重磅亮相！诞生于2005年的HPC China至今已成功举办了17届，累计有超2500+演讲嘉宾

2022-06-27 11:01:58

1922

基于Redfish的COM-HPC平台管理接口

　　开发人员现在可以决定是否需要具有 COM-HPC PMI 的模块，或者是否足以通过载板上的 BMC 实现 COM-HPC PMI。

2022-08-11 17:06:10

779

RoCE技术在HPC中的应用分析

RoCE的延迟有幸有机会与IB实测对比了一下：以太网用的是25G Mellanox ConnectX-4 Lx 以太网卡，和Mellanox SN2410交换机；IB用的是100G InfiniBand EDR网卡(Mellanox ConnectX-4)，和Mellanox CS7520。

2022-09-05 10:39:15

1128

HPC如何走向平民化

USIMD和HPCRunner开源项目Leader，目前主要聚焦于openEuler HPC SIG运营，openEuler HPC SIG致力于建立气象、分子动力学、生物和制造等领域的生态交流

2022-09-26 11:14:40

1067

为何要使用NVIDIA HPC SDK

NVIDIA HPC SDK包含经过验证的编译器、库和软件工具，对于更大程度提高开发者的工作效率以及 HPC 应用的性能和可移植性至关重要。

2022-10-09 10:22:43

624

什么是HPC（高性能计算）？

高性能计算 (High Performance Computing，又叫HPC、超级计算) 是指比传统计算机和服务器提供更高马力聚合计算能力的计算方法。与超级计算机或硬件加速机器不同，高性能计算特别强调使用分布式资源来组合存储、应用程序、计算能力和网络资源，以完成其他方式无法完成的任务。

2022-11-01 11:47:30

19544

HPC网络的发展与RoCE的诞生

在早年的高性能计算(HPC)系统中，往往会采用一些定制的网络解决方案，例如：Myrinet、Quadrics、InfiniBand，而不是以太网。这些网络可以摆脱以太网方案在设计上的限制，可以提供更高的带宽、更低的延迟、更好的拥塞控制、以及一些特有的功能。

2022-11-16 12:37:09

1402

SC22 HPC市场分析报告解析

本次SC22 HPC市场报告（2022）内容包含10章节（近百页），本文重点分析HPC市场、HPC云、存储、网络以及应用。回顾2021年，HPC整体市场（服务器、存储、云、服务、中间件、应用）规模是348亿美元。服务器占比最大，其次是存储和云。

2022-11-21 10:53:07

1025

2022年HPC领域市场分析报告服务器占比最大

SC22 HPC市场报告（2022）内容包含10章节（近百页），本文重点分析HPC市场、HPC云、存储、网络以及应用。回顾2021年，HPC整体市场（服务器、存储、云、服务、中间件、应用）规模是348亿美元。服务器占比最大，其次是存储和云。

2022-11-23 09:58:34

4294

华为超融合以太网络亮相CCF HPC China 2022——融万物，合万网

）解决方案供应商，华为技术有限公司（以下简称华为）亮相本次盛会，受邀在主会场、分论坛进行主题分享。会上，华为与中国信息通信研究院联合发布《数据中心超融合以太技术白皮书》，超融合以太技术的提出为数据中心网络的发展指明了方向。白皮书中指出，华为在HPC高性能以太网

2022-12-14 18:45:02

626

戴尔：2023 HPC行业的趋势和挑战

云计算、可持续性、大规模和指数级数据增长——这些曾在2022年为HPC（高性能计算）定下基调的关键创新，也将是2023年推动HPC的关键因素。

2023-01-31 17:01:31

1080

2023：五大趋势引领HPC可持续发展

的应用领域和使用方法方面， HPC 概念在过去几年中均得到了发展。如今，HPC不再局限于大型数据中心、研究实验室和超级计算机，而是被广泛应用在各种行业中，如产品设计、财务建模、天气预报等。它为我们所依赖并乐享的居家、办公和汽车体验带来了更加强大的计

2023-02-10 05:35:06

578

IP_数据表(Z-1):GPIO for TSMC 28nm HPM/HPC/HPC+

IP_数据表(Z-1):GPIO for TSMC 28nm HPM/HPC/HPC+

2023-03-16 19:32:49

新闻 | 华为亮相2023国际超算大会，加速HPC领域智能化进程

传统HPC到新兴技术和应用的持续转变。华为作为大会的金牌赞助商，在现场围绕HPC领域的发展趋势、华为HPC战略及创新进行了丰富的展览展示内容分享，华为数通驻欧洲高级网络架构师郑彤表示“本次ISC是疫情恢复以来举办的首次线下展会，各厂商

2023-05-26 08:55:03

659

IP_数据表(Z-1):GPIO for TSMC 28nm HPM/HPC/HPC+

IP_数据表(Z-1):GPIO for TSMC 28nm HPM/HPC/HPC+

2023-07-06 20:19:04

网卡启动版本10.2iSCSI RoCE FCoE协议用户手册

电子发烧友网站提供《网卡启动版本10.2iSCSI RoCE FCoE协议用户手册.pdf》资料免费下载

2023-07-27 15:20:37

什么是RDMA？什么是RoCE网络技术？

在数据为王的时代，人们对网络的要求更加严苛。然而传统的TCP / IP以太网连接占用了大量的CPU资源，并且需要额外的数据处理，已无法再满足当前更快、更高效和可扩展性的网络需求。在这种情况下，RoCE（RDMA over Converged Ethernet ）走进了人们的视野。

2023-07-24 17:40:16

3151

Linux RoCE发行说明

电子发烧友网站提供《Linux RoCE发行说明.pdf》资料免费下载

2023-07-28 11:46:19

引导版本10.3适用于网卡、iSCSI、FCoE和RoCE协议用户手册

电子发烧友网站提供《引导版本10.3适用于网卡、iSCSI、FCoE和RoCE协议用户手册.pdf》资料免费下载

2023-07-28 09:42:07

RoCE Linux版本说明

电子发烧友网站提供《RoCE Linux版本说明.pdf》资料免费下载

2023-07-31 10:53:37

适用于网卡、iSCSI、FCoE和RoCE协议用户手册引导版本10.4

电子发烧友网站提供《适用于网卡、iSCSI、FCoE和RoCE协议用户手册引导版本10.4.pdf》资料免费下载

2023-08-04 09:25:22

适用于网卡、iSCSI、FCoE和RoCE协议引导版本10.6

电子发烧友网站提供《适用于网卡、iSCSI、FCoE和RoCE协议引导版本10.6.pdf》资料免费下载

2023-08-23 15:27:48

CCF HPC China 2023 | 华为超融合以太网络解决方案荣获CCF创新奖，助“中国算力”高质量发展

8月24日，在青岛举行的全国高性能计算学术年会大会（CCF HPC China 2023）上，由北京大学和华为技术有限公司联合申报的超融合以太网络荣获解决方案创新奖。CCF是中国计算机学会的简称

2023-08-24 18:25:03

357

中国HPC的高潜力与AI融合的未来

云端HPC部署方面，根据数据显示，2020-2022年，用户上公有云的速度和应用速度加快，促使HPC云上支出增速大大高于HPC线下本地部署规模，2022年全球HPC云上支出市场规模达到63.04亿美元，同比增长23.61%。

2023-09-10 10:53:19

739

HPC和数据中心融合网络面临的技术挑战

随着大型DC采用具有更高带宽需求的高性能加速器，数据中心网络通过支持远程直接内存访问（RDMA）、RDMA融合以太网（RDMA over converged Ethernet，RoCE）、互联网广域RDMA协议（iWarp）等新技术不断向HPCN融合。

2023-09-15 09:56:19

500

HPC与AI：完美融合

HPC早于AI问世，因此这两个领域在软件和基础设施方面存在显著差异。要将它们有机地融合在一起，需要对工作负载管理和工具进行必要的调整。以下是HPC如何逐步发展以迎合AI挑战的一些方法。

2023-10-22 14:59:50

763

慧与拟收购瞻博，Quantinuum 助力量子-HPC

大家好，欢迎收看河套 IT WALK 第 138 期。慧与宣布计划以 140 亿美元现金收购瞻博网络，此举预示着网络技术领域即将诞生一个新的巨头。Quantinuum 与理化学研究所达成协议，将为

2024-01-11 03:20:02

304

什么是HPC高性能计算

高性能计算（HighPerformanceComputing，简称HPC），是指利用集群、网格、超算等计算机技术，通过合理地组织计算机资源以及运用适合的算法和程序，提高计算效率和处理能力，实现对大量

2024-02-19 13:27:07

116

已全部加载完成

搜索历史

HPC网络的发展与RoCE的诞生

评论