0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据中心服务器运维存在哪些痛点

智能计算芯世界 来源:智能计算芯世界 作者:智能计算芯世界 2022-07-25 16:22 次阅读

本文来自“数据中心服务器智能故障诊断系统”,从云和数据中心的发展趋势、产业互联网时代的智能化运营需求和TIFDS故障诊断系统进行分析。

f4b4f944-06f5-11ed-ba43-dac502259ad0.png

随着云技术的普及,尤其是“新基建”,“数字化转型”等需求驱动着数字经济的高速发展,服务器在CDC数据中心的部署规模也呈指数级增长。随之而来的运维管理复杂度和难度也越来越大,而传统的海量服务器数据中心的故障运营也面临着更大的挑战和更高昂的成本,从最初的脚本运维、工具运维到平台运维演进至今,人力已接近极限,越来越无法满足快速修复故障和恢复业务运行的要求。

大规模数据中心运维存在如下的痛点问题:

1. 机器故障后,重要的日志信息不全,无法自动准确进行故障部件定位;

2. 故障诊断效能较低,服务器出现问题后主要基于人工分析和经验判断结果,自动化与智能化程度不高。

3. 成本高时效性差,人工经验分析依赖大量运维人力投入并导致较长的运维时间(MTTR),影响业务的快速恢复。

4. 由于诊断结果的明确化率低,引起二次故障维修比例较高,导致额外数据迁移成本和业务影响。

TIFDS (Tencent&Inspur Fault Diagnosis System) 故障诊断系统是服务器健康监管技术及故障预警诊断技术的总称,旨在实现运维工作任务由人工离线分析向自动智能在线识别的方向发展,建立一套以带外BMC为中心的自动化故障诊断系统,提升服务器故障预警能力、故障诊断明确率、以及停机维护效率,减少非计划停机时间,提升服务器全生命周期的健壮的RAS特性(可靠性,可用性及可维护性)。

该系统依托腾讯超过100万台服务器的维护数据,深度定制了服务器事件日志,通过AI技术对服务器运营数据进行实时的分析,从而实现了对CPU,内存、硬盘,PCIe等设备的自动化预警,将服务器故障诊断自动明确化率提升至95%以上。

f4d7a5d4-06f5-11ed-ba43-dac502259ad0.png

宕机类故障诊断

TIFDS可以覆盖由于IERR(Internal Error)和非IERR造成的系统宕机故障,并精准地定位出故障部件,如CPU,内存,主板,PCIe外插卡,存储等设备。服务器运行过程中一旦发生异常,TIFDS系统会立刻响应并准确诊断出故障的部件,将故障问题原因、故障部件具体位置、部件型号信息、维修建议等信息及时上报至运维管理系统。运维管理系统可自动生成维修工单,运维人员根据维修建议,需要更换部件信息,快捷更换故障部件或者依据TIFDS指导排除故障,迅速使机器恢复健康状态。传统的以小时计算维修时间级别压缩至分钟级别。极大提升运维效率,实现云业务快速恢复。

f4f4e98c-06f5-11ed-ba43-dac502259ad0.png

非宕机类故障诊断

TIFDS系统通过BMC实时监控服务器系统上遍布各处的电压、电流温度传感器信息,实时监控电源、风扇、以及各部件的工作状态和工作负荷情况;根据可在线更新的告警阈值、预警阈值和故障判定规则,可实现对服务器中存在风险的位置进行故障预警、故障告警或故障判定,并时刻上报智能运维系统。

f505cd88-06f5-11ed-ba43-dac502259ad0.png

故障预警与隔离

TIFDS可以对服务器内所有部件进行全生命周期的寿命和运行状态进行跟踪,通过机器学习算法对高风险的部件提前进行预警,降低服务器在高负荷运行状态下的突然失效。另外对已发生故障的部件,TIFDS可以按部件类别做出相应的隔离措施处理,避免单一非必要部件故障影响整机系统的运行。

f5271786-06f5-11ed-ba43-dac502259ad0.png

TIFDS是腾讯云运维监控系统中的重要组成部分,是服务器带外数据的主要来源,在内存,CPU,PCIe等部件的故障监控,失效预测,大规模告警上有极大贡献。通过定制化的日志自动适配腾讯云备件系统,给腾讯云健康管理系统增加参考维度,并基于带内带外日志开发出线上诊断系统,深度的定制化模式和简单易用的维护工具使整个运维系统能更加智能,高效。

编辑:黄飞

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 服务器
    +关注

    关注

    12

    文章

    9050

    浏览量

    85246
  • 数据中心
    +关注

    关注

    16

    文章

    4722

    浏览量

    71989

原文标题:数据中心服务器智能故障诊断系统

文章出处:【微信号:AI_Architect,微信公众号:智能计算芯世界】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    锐捷助互联网数据中心网络自动化、可视化

    数据,目前我国规划在建数据中心达到246个,总设计机架数约为103万个,总设计服务器规模约1326万台。在用超大型、大型数据中心达37个,总设计机架数约为20万个,总设计
    发表于 01-25 09:42

    基于数据中心服务器的新接口测试设计

    本文档中介绍了基于数据中心服务器的新接口测试设计,包含了系统框图及电路图。
    发表于 09-12 11:10 5次下载
    基于<b class='flag-5'>数据中心服务器</b>的新接口测试设计

    基于大数据的高能效数据中心服务器研究

    分析ARM服务器的发展以及应用现状,结合数据中心的特点,设计基于ARMv8架构的高能效数据中心服务器,选取目前工业界具有代表性的ARMv8服务器参数,使用典型的
    发表于 01-29 13:56 0次下载
    基于大<b class='flag-5'>数据</b>的高能效<b class='flag-5'>数据中心服务器</b>研究

    自动化重要里程碑,腾讯数据中心服务台的正式启用

    腾讯数据中心服务台是腾讯数据中心基础设施管理的“大脑”——基础设施中心,集呈现“全球园区与网络资源视图”、“机架、机位、
    发表于 07-27 17:16 1983次阅读

    数据中心服务器接口测试方案

    本文档内容介绍了基于数据中心服务器接口测试方案,供参考
    发表于 03-16 16:26 3次下载

    如何才能提高数据中心服务器的效率

    研究表明,虽然数据中心的能耗成本高昂,但服务器效率也越来越高。每个数据中心都拥有运行各种工作负载的大量服务器。无论是企业数据中心、托管
    发表于 06-01 08:00 1次下载
    如何才能提高<b class='flag-5'>数据中心服务器</b>的效率

    数据中心正从云时代向AI时代进化

    随着数据中心服务器规模的不断增加,以及计算网络、存储网络、数据网络的三网融合,数据中心人员也迎来了更大的问题,这也让传统的人工运
    的头像 发表于 07-09 11:48 1990次阅读

    传统香港服务器数据中心正在面临哪些挑战

    数据中心维护管理重要工种之一,IT出现的问题也映射了传统数据中心正面临的问题。 今天,恒讯科技小编就给大家分析一下传统香港服务器
    的头像 发表于 04-12 15:13 1424次阅读

    数据中心服务器安全白皮书

    电子发烧友网站提供《数据中心服务器安全白皮书.pdf》资料免费下载
    发表于 08-23 09:25 0次下载
    <b class='flag-5'>数据中心服务器</b>安全白皮书

    超聚变获TÜV南德全球首个数据中心服务器智能认证标志

    数据中心服务器智能化 深圳2024年1月15日 /美通社/ -- 1月15日,TÜV南德意志集团(以下简称"TÜV南德")为超聚变数字技术有限公司(以下简称"超聚变")的数据中心液冷整机柜服务器产品
    的头像 发表于 01-15 20:58 502次阅读
    超聚变获TÜV南德全球首个<b class='flag-5'>数据中心服务器</b>智能认证标志

    数据中心服务器功率一般多大 数据中心服务器操作系统三大类包括

    数据中心服务器功率一般多大: 数据中心服务器的功率大小可以根据具体的需求和规模而定。一般来说,数据中心服务器的功率会相对较大,以应对大量数据处理和存储的需求。根据统计
    的头像 发表于 01-25 10:10 2447次阅读

    数据中心机房建设的:投资与之间的博弈

    在数字化浪潮的推动下,数据中心机房建设成为企业发展不可或缺的一环。然而,这一过程中存在一系列的,其中投资与
    的头像 发表于 02-03 09:54 688次阅读

    韩国大带宽服务器数据中心位置

    很多用户会选择韩国大宽带服务器,那么韩国大带宽服务器数据中心位置在哪,rak小编为您整理发布韩国大带宽服务器
    的头像 发表于 03-15 10:47 397次阅读

    分布式管理平台解决大型数据中心难题的案例

    。因此,某大型数据中心决定引入分布式管理平台,以解决过程中的诸多难题。 来百度APP畅享高清图片 二、平台实施与功能 资源整合与统一
    的头像 发表于 03-26 16:10 432次阅读
    分布式<b class='flag-5'>运</b><b class='flag-5'>维</b>管理平台解决大型<b class='flag-5'>数据中心</b><b class='flag-5'>运</b><b class='flag-5'>维</b>难题的案例

    如何选择数据中心服务

    在选择数据中心服务时,需要考虑多个关键因素以确保选择的服务能够满足业务需求并确保数据的安全、可靠性和性能。以下是一些关键步骤和考虑因素: 一、明确业务需求 首先,需要明确自己的业务需求,包括
    的头像 发表于 10-24 16:14 172次阅读