0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA为数据中心运营商实现实现共享精确计时

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-04-14 16:31 次阅读

Facebook 正在开源 开放计算项目 Time Appliance 项目( OCP TAP ),该项目以经济高效的方式跨数据中心提供非常精确的计时和时间同步。该解决方案包括一个时间卡,它可以将几乎任何商用现货( COTS )服务器转换为精确的时间设备,由 NVIDIA ConnectX-6 Dx 网卡( NIC )启用,并具有精确计时协议,以便与数据中心的其他服务器共享精确的计时。

Facebook 的时间卡和 NVIDIA 的 NIC 相结合,为数据中心运营商提供了一个开源、安全、可靠和可扩展的现代化、价格合理的时间同步解决方案。

为什么准确的时间在数据中心很重要

随着应用程序的扩展和 IT 运营遍布全球,保持数据中心内不同服务器之间的数据同步,或跨大陆的不同数据中心之间的数据同步,这变得更加重要和困难。如果数据库是分布式的,它必须跟踪事件的确切顺序,以保持一致性并显示因果关系。如果两个人试图购买同一只股票,公平性(和合规性)要求明确知道哪一张订单先到。同样,当成千上万的人每小时发布内容,数百万用户喜欢/大笑/喜爱这些帖子时, Facebook 需要知道每个帖子、竖起大拇指、回复或表情符号的实际发生顺序。

保持数据同步的一种方法是让每个数据中心在每次事务完成后将其更新发送给其他数据中心,但这很快变得不可行,因为数据中心之间的延迟太高,无法支持每小时数百万个事件。

更好的方法是让每个服务器和数据中心同步到精确的时间,彼此之间的同步时间不超过一微秒。这使每个站点能够跟踪时间,并且当它们与其他数据中心共享事件时,每个事件的顺序已经正确。

时间同步越精确,应用程序的性能就越快。最近的一项测试表明,使计时 80x 更精确(使任何时间差异减小 80x )使分布式数据库的运行速度提高了 3 倍——在相同的服务器硬件上,这是一个令人难以置信的性能提升,只是因为保持了更准确、更可靠的时间。

NIC 和网络在时间同步中的作用

OCP TAP 项目(以及 Facebook 的 博文 关于开源 Time Appliance )精确定义了时间卡如何接收和处理来自 GPS 卫星网络的时间信号,即使卫星信号暂时不可用也保持准确的时间,并与时间服务器共享准确的时间。但是网络——以及使用的网卡——也至关重要。

pYYBAGJX3EqAfTu7AABfK25ykME623.png

图 1 。 OCP 时间卡保持准确的时间,并与支持 PPS 输入/输出的 NIC 共享,如 NVIDIA ConnectX-6 Dx (来源: Facebook 工程博客)。时间设备中的 NIC 必须具有每秒时间脉冲( PPS )端口才能连接到时间卡。这确保了每个时间服务器中的时间卡和 NIC 之间的精确时间同步,精确到几纳秒以内。 ConnectX-6 Dx 是第一个支持此功能的现代 25 / 50 / 100 / 200 Gb / s NIC 之一。它还过滤和检查传入的 PPS 信号,并使用其 ASIC 中的硬件在内部维护时间,以确保准确性和一致性。

时间设备中的网卡必须有一个用于连接Time Card的每秒时间脉冲(PPS)端口。这能确保每个时间服务器中Time Card和网卡之间的精确时间同步(精确到几纳秒之内)。ConnectX-6 Dx是首批支持此功能的现代25/50/100/200Gb/s网卡之一。它还能过滤和检查传入的PPS信号,并使用其ASIC中的硬件在内部维护时间,从而确保精确性和一致性。

计时精度达到次微秒级的时间装置可以与数百个使用网络时间协议(NTP)的普通服务器或数万个使用精确时间协议(PTP)的服务器共享该计时。由于网络会增加时间信号的延迟,因此NTP和PTP通过为数据包添加时间戳来测量两个方向的传输时间、将抖动和延迟考虑在内并计算出每个服务器上的正确时间(PTP的精度更高,因此它开始取代NTP协议)。

pYYBAGJX3FCAUmsMAAIvOXhw6Mk117.png

图 2 。 NVIDIA 将 X-6 Dx 与 PPS 输入/输出端口连接,以实现与时间卡的直接时间同步。它还对硬件中的数据包执行精确的硬件时间戳。

另一种方法是使用软件解决方案来添加时间戳,但在由于拥堵或CPU的干扰,用软件添加时间戳的误差可能达到几毫秒,因此以今天的软件方案添加时间戳是过于难预测、不精确、甚至是不可行的。相反,ConnectX-6 Dx网卡和BlueField-2 DPU可以在高达100Gb/s的速度下,在接收的数据包到达后和发送的数据包进入网络前,立即为它们添加硬件时间戳。ConnectX-6 Dx可以为每一个数据包添加时间戳,即使在网络负载极大的情况下,时间戳的精度误差也小于4纳秒(4ns)。其他大多数具有时间功能的网卡只对部分数据包进行标记并且精度抖动很大,因此在网络流量大的情况下,它们的时间精确性就会下降。

NVIDIA网络解决方案为商用网卡提供最精确的延迟测量,从而在所有服务器上实现最精确的时间,应用层面的时间误差通常低于一微秒(《1us)。网络计时精度的提升意味着每台服务器上的时间变得更加精确,这将为分布式应用带来更快的性能(并且为每个人带来更多的Facebook“点赞数”)。

poYBAGJX3FaAJuqtAAGfry8U3G4267.png

图 3 。使用 OCP 时间服务器和 NVIDIA NIC 或 DPU s 部署 NTP 或 PTP 可将极其准确的时间传播到数据中心的所有服务器。

精确时间同步,人人皆可受益

OCP时间设备项目使任何组织都能获得精准的计时功能。来自Facebook、NVIDIA和OCP的开源时间服务器和开源管理工具提供了一个让每个人都可以像超大规模用户一样轻松使用这项功能的方法。

NVIDIA所提供的精确时间功能网卡和DPU(数据处理器)具有精确计时设备所需的超精确时间戳和网络同步功能。当使用BlueField DPU时,就可以在其Arm核上运行PTP栈,从而将时间栈与其他服务器软件隔离、持续验证该服务器内的时间精确性并持续计算整个数据中心的最大时间误差范围。

为了发挥经过优化的时间服务器和时间同步所带来的优势,云服务和数据库已经增加了基于时间的新命令和API。这些解决方案一同开启了精确计时的新时代,提高了分布式应用的性能并为云和企业带来新型解决方案。

关于作者

John Kim 是 NVIDIA 网络事业部的存储市场总监,致力于帮助客户和供应商从高性能网络连接、智能网卡卸载和远程直接数据存取 (RDMA) 中获益,尤其是在存储、大数据和人工智能领域。

Elad Wind 目前担任解决方案工程总监,推动 Hyperscaler 采用 NVIDIA 互连解决方案。在加入 NVIDIA 之前, Elad 曾在 Mellanox 担任各种技术和销售职务,包括产品销售和项目管理。 Elad 也是 Mellanox 新加坡亚太区总部的创始成员。 ELAD 持有特拉维夫大学 MBA 和巴黎 ESSEC 商学院,并获得了来自 Technion 、以色列的 Eel CTR 工程的理学学士学位。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4796

    浏览量

    102508
  • 服务器
    +关注

    关注

    12

    文章

    8751

    浏览量

    84738
  • 人工智能
    +关注

    关注

    1788

    文章

    46142

    浏览量

    235821
收藏 人收藏

    评论

    相关推荐

    需要合理规划数据中心不能盲目建设

    的资源,把现有闲置的服务器等资源整合起来,建立虚拟的数据中心,但是现在的运营商却大肆的购买新设备,建立大量密集的数据中心。原来的服务器资源有很多是放到那用不到的,为了更好的利用这些资源,才出现了云计算这种技术
    的头像 发表于 08-21 11:11 163次阅读

    数据中心在5G网络中的演进与发展

    几十年来,数据中心一直位于或靠近网络中心。对于企业、电信运营商、有线电视运营商以及近来的Google和Facebook等服务提供而言,
    的头像 发表于 08-16 16:02 321次阅读

    数据中心布线标准有什么

    数据中心布线标准是现代IT基础设施的基石。它们组织建立可靠和有效的网络提供了指导方针和框架。了解这些标准对于寻求优化其数据中心运营和确保无缝连接的组织至关重要。 什么是
    的头像 发表于 06-14 10:51 332次阅读

    NVIDIA新工业革命打造 AI 工厂和数据中心

    搭载 Grace CPU 以及 NVIDIA 网络和基础设施,助力于企业建立 AI 工厂和数据中心,推动新一轮生成式 AI 突破。 NVIDIA 创始人兼首席执行官
    的头像 发表于 06-03 18:14 891次阅读

    数据中心布线光缆设计方案

    ,对于保证数据中心的高效、稳定运行具有重要意义。 数据中心的布线光缆类型主要包括单模光纤和多模光纤。单模光纤具有很小的芯径(一般9微米),只允许一种模式的光通过,因此可以实现更长距离
    的头像 发表于 04-29 11:32 424次阅读

    美国主流运营商指南:美国运营商认证如何选择?

    不管在中国还是在美国,无线通信市场的竞争都相当激烈。中国主流主要是电信、移动、联通三大运营商,而在美国市场也由几家知名的主要运营商主导。如果您的产品有出口美国市场销售的需求,且产品本身带有通信功能
    的头像 发表于 04-23 17:07 678次阅读
    美国主流<b class='flag-5'>运营商</b>指南:美国<b class='flag-5'>运营商</b>认证如何选择?

    #mpo极性 #数据中心mpo

    数据中心MPO
    jf_51241005
    发布于 :2024年04月07日 10:05:13

    第四大运营商,攻击前三大运营商

    1&1称其委托Aetha Consulting开展的研究发现德国前三大移动运营商相比欧洲其他有四家移动运营商的国家的排名前三的运营商的频谱持有量,平均多出38 MHz的低频段频率,总计多出了几乎120 MHz。
    的头像 发表于 01-30 16:00 687次阅读

    构建高效数据中心组网,实现企业业务协同发展

    的持续发展。 数据中心的重要性 数据中心不仅仅是企业数据的存储地点,更是实现数据共享、备份和协作
    的头像 发表于 01-24 15:46 302次阅读

    #光缆水峰 #综合布线光缆 #数据中心

    数据中心光缆
    jf_51241005
    发布于 :2024年01月15日 09:43:26

    借助 NVIDIA NVUE 和 Ansible 实现数据中心网络自动化

    数据中心自动化可以追溯到大型机的早期,运营效率是其优势之一。多年来,数据中心内外的技术都发生了变化。因此,工具和方法也发生了变化。 NVIDIA NVUE Collection 和 A
    的头像 发表于 12-20 19:35 442次阅读
    借助 <b class='flag-5'>NVIDIA</b> NVUE 和 Ansible <b class='flag-5'>实现</b><b class='flag-5'>数据中心</b>网络自动化

    数据中心vs企业边缘:SONiC与DENT的不同使命

    此前,网络创新主要由大型设备制造推动,企业和网络运营商等消费者提出问题和挑战,再由设备提出解决方案。随着开放组织的陆续成立,这一情况发生了很大变化,许多项目开始由微软、Meta等数据中心
    的头像 发表于 12-18 17:26 1031次阅读
    <b class='flag-5'>数据中心</b>vs企业边缘:SONiC与DENT的不同使命

    #预端接光缆 #24芯光缆 #数据中心

    数据中心光缆
    jf_51241005
    发布于 :2023年12月08日 11:01:21

    安科瑞数据中心能效管理系统:提升能效,降低运营成本

    数据中心能效管理系统是一套功能强大、应用广泛、优势明显的能效管理解决方案。通过该系统,数据中心可以实现对能源的精细化、智能化管理,提高能源利用效率,降低运营成本。随着技术的不断进步和应
    的头像 发表于 11-07 15:57 478次阅读
    安科瑞<b class='flag-5'>数据中心</b>能效管理系统:提升能效,降低<b class='flag-5'>运营</b>成本

    数据中心能耗越来越大,氮化镓会是效救星吗?

    在AI的蓬勃发展下,数据中心对电力与运算的需求呈正比成长,激增的用电量不仅对营运效率造成压力,更成为数据中心达成净零排放目标的阻碍。当前数据中心所采用的电力转换及分配技术,已难以满足来自云计算及机器学习的运算需求,面对更庞大能源
    的头像 发表于 10-18 16:28 643次阅读