0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

阿里自研交换机实现多平面可扩展的新一代网络架构

牵手一起梦 来源:中国IDC圈 作者:佚名 2020-09-16 15:51 次阅读

开放数据中心峰会(ODCC2020)在北京召开,峰会围绕数据中心新基建为主题,有数据中心领域及相关行业的众多专家与会。在9月16日网络论坛上,阿里巴巴的高级技术专家王永灿先生就阿里近年来自研交换机的实践和探索进行了分享。

阿里巴巴高级技术专家王永灿

王永灿:随着阿里云业务的快速发展,我们的数据中心网络已经发展成为一个超大规模的网络,传统的商业设备在运维的稳定性和效率都是带来了很大的挑战,网络芯片在摩尔定律下仍然保持高速狂奔,基本上每两年芯片带宽就会翻一倍,所以阿里数据中心网络已经全面走向自研。

我们的自研交换机是盒式的单芯片交换机,整个数据中心实现了整集群全自研,包括自研光模块、自研DAC。基于自研交换机,实现了多平面可扩展的新一代网络架构,实现单集群可部署超过10万台服务器

自研交换机和商业设备到底有什么区别?商业设备面对的是多客户、多场景,所以特点是功能非常全,什么场景都可以用,数据中心对功能的要求不多,但对稳定性和运维的效率有非常大的挑战,自研交换机正是这个场景的专用设备。

首先我们在功能上要求极简,因为简单所以稳定,而实际上要做到真正的简单比复杂更难。另一方面,在特定场景上,需要做到极致,来提升运维效率。举个汽车换轮的例子,家用汽车有一个备胎,更换一般需要几个小时。但是在一级方程式中,赛车需要在几秒内完成4个轮胎的更换,因此需要人和车的完美结合,整体能力的输出,自研交换机也一样,通过自研将架构、管控、运维和研发结合起来,形成一个内部闭环的、迭代的体系,来提升整体网络的能力。下面,在几个代表性的场景上,进行详细的介绍。

首先大规模网络稳定性的最重要一环是监控。而商业设备是一个黑盒,因此主要以外部流量相关的监控为主,而自研交换机是白盒,是系统内部的代码级监控。其次,我们把运维经验与设备系统结合,设备可以主动告警、自修复。另外,在大规模网络里,如果告警有噪声,那么这个监控几乎是不可用的,因此自研机在本地进行数据分析,消除噪声,精确告警。最后,在监控数据的颗粒度上,从分钟级提升到秒级,可以看到任何一秒的流量数据,使监控进入了秒级时代。因此虽然自研是新系统,新芯片,新硬件,但是比商业机更稳定,至今保持着0故障的记录。

在数据中心网络中,设备的硬件故障占比高,而硬件故障有两个痛点:第一是硬件宕机故障,处理不可控,第二是,根因定位困难,重复发生。因此我们在自研上引入了服务器的BMC,并自主研发了BMC的OS – AliBMC。通过AliBMC,对硬件部件级监控,对CPU和转发芯片定制化监控,使硬件故障可分析、可定位。另外通过标准化底层接口,与硬件解耦,从差异化的设备,变为统一的软件系统,完成了运维设备到运维软件的转变。最后我们将AliBMC向ODM进行了开源,来促进白盒的生态发展。

随着自研的规模部署,设备链路也进入了百万级。而以往的链路排查,是人工排查,靠换靠试,几乎每天都需要花大量的人力、物力。链路排查的难点在于,涉及多器件,而且信号串联,互相干扰,一个器件有问题,多个器件状态异常,而且还与软件、配置、甚至机房环境、现场的人都相关,所以时间不可控,10天半月都很正常。因此我们在自研上,通过AliNOS将设备软硬件技术、光模块技术、运维经验深度融合,研发了链路自动诊断系统 -- 明眸,通过明眸,对链路实时监控、自动分析原因,建立数据大盘,实现百万级链路的智能化运维。

最后,问题修复、新功能发布,都必须依赖设备的升级,而大规模网络升级对效率和业务无损有极高的要求,因此我们在自研上从冷升级全面转向了热升级。AliNOS是一个开放的标准Linux,所有模块都以Docker的方式部署,各个容器间通过DB通信。通过DB进行数据的存储、恢复,实现了基于Docker的热升级,做到升级对业务无损、0感知。另外通过AliNOS屏蔽了硬件差异,所有硬件型号一个版本、一个补丁,1万台和1台无差别升级,简化了运维复杂度,提升了运维效率

最后总结一下,通过自研交换机,我们把设备、运维、架构和管控进行结合,形成了一个内部的闭环,所以在很多场景都要做更多的智能化运维,以及针对高性能的新技术进行创新。

责任编辑:gt

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 交换机
    +关注

    关注

    21

    文章

    2646

    浏览量

    99803
  • 数据中心
    +关注

    关注

    16

    文章

    4813

    浏览量

    72217
  • 阿里巴巴
    +关注

    关注

    7

    文章

    1617

    浏览量

    47306
收藏 人收藏

    评论

    相关推荐

    16口模反射内存交换机:高速数据共享的核心枢纽

    天津拓航科技生产的反射内存交换机完全兼容替代GE八口反射内存交换机
    发表于 12-06 15:40 0次下载

    反射内存交换机工作原理

    天津拓航科技生产的反射内存交换机工作原理解析
    的头像 发表于 11-14 10:45 240次阅读
    反射内存<b class='flag-5'>交换机</b>工作原理

    反射内存交换机与普通交换机的区别

    反射内存交换机与普通交换机在以下几个方面存在明显区别:工作原理和机制:反射内存交换机基于反射内存技术,通过硬件实现数据的快速同步和共享。当
    的头像 发表于 09-05 09:57 625次阅读
    反射内存<b class='flag-5'>交换机</b>与普通<b class='flag-5'>交换机</b>的区别

    网管型交换机和非网管型交换机的区别

    网管型交换机和非网管型交换机是两种不同类型的交换机,它们在功能、性能、应用场景等方面存在明显的差异。 定义 网管型交换机(Managed Switch)是
    的头像 发表于 08-05 15:41 2814次阅读

    交换机的不同连接方式

    交换机有多种连接方式,主要涉及到其在网络中的部署和与其他网络设备的互连。以下是些常见的连接方式。1级联方式级联是最常见的交换机连接方式,可
    的头像 发表于 07-19 08:21 1174次阅读
    <b class='flag-5'>交换机</b>的不同连接方式

    数据中心交换机购买指南

    由于数据中心网络基础设施变得更加分散,数据中心交换机正在成为种新型交换机。与传统的三层架构网络
    的头像 发表于 06-11 16:37 562次阅读

    交换机怎么配置IP地址

      在构建和管理网络架构中,交换机作为核心设备之,其IP地址的配置是确保网络正常运行的重要步骤。正确配置
    的头像 发表于 06-06 11:16 1.2w次阅读

    广域网交换机与局域网交换机的区别

      在构建和管理网络架构时,交换机作为核心设备,其选择和配置直接影响到网络的性能、可靠性和安全性。广域网交换机和局域网
    的头像 发表于 06-06 11:07 1134次阅读

    交换机的基本分类

      交换机作为网络通讯中的核心设备之,其在网络架构中起着至关重要的作用。随着信息技术的飞速发展,交换机
    的头像 发表于 06-06 11:06 2145次阅读

    浅谈交换机的发展历史

      交换机作为网络通讯中的关键设备,其发展历程见证了信息技术的飞速进步和网络架构的持续优化。从早期的电路交换到现代的以太网
    的头像 发表于 06-06 11:05 2227次阅读

    光纤交换机网络交换机的区别在哪

    光纤交换机网络交换机是两种不同类型的网络设备,它们在数据传输介质、传输速率、应用场景以及设计上有所区别。
    的头像 发表于 05-28 15:16 2352次阅读

    交换机芯片架构的演变

    交换机芯片架构的演变是随着网络技术的发展和数据处理需求的增长而逐步推进的。
    的头像 发表于 03-26 15:03 808次阅读

    字节跳动「突袭」交换机

    因为字节跳动交换机,早在2019年,就开始悄悄布局了。
    的头像 发表于 02-26 15:34 1542次阅读
    字节跳动「突袭」<b class='flag-5'>交换机</b>!

    交换机的作用与功能 交换机的基本配置

    交换机(Switch)是计算机网络中常见的种数据通信设备,它用于在局域网(LAN)内的不同设备之间进行数据的转发和交换交换机通过学习和转
    的头像 发表于 02-04 09:17 1.7w次阅读

    汇聚交换机和核心交换机区别

    汇聚交换机和核心交换机网络中常见的两种交换机设备,在网络中扮演着不同的角色和功能。虽然它们的主要目标是提供高速、高效的数据
    的头像 发表于 01-22 14:32 4650次阅读