互联网+时代对传统运维带来新的挑战,维护单位需要做好数以万计的设备管理,实现设备故障快速定位,需要维护海量的设备配置信息,满足负责的业务服务以实现快速的业务响应,降低人工操作成本并保证支撑质量,做好相关运维资源的有效运营,是中国联通IT运营平台亟待解决的问题。从中国联通运维支撑系统建设现状出发,对中国联通IT运营平台建设思路进行探讨,从系统定位、能力需求,技术路线等多方面对平台功能需求、技术架构、系统框架等方面进行研究,进而提出相应的IT运营平台建设方案。
1
研究背景
经过多年的建设,中国联通已建成OSS2.0。作为集中化的运营支撑系统,OSS2.0形成了全网集中的智能监控、电子运维、移网业务保障、客服支撑等核心应用,具备全国统一的资源管理能力、全网O域大数据分析能力,有力支撑了全国运维工作的集约化改革,切实提升了网络运营效率与效益。
1.1 运维支撑系统建设现状
中国联通总部运维支撑系统现状如图1所示。其中应用和能力管控系统共有26个,控制层网管系统15个。
图1 中国联通总部运维支撑系统现状
1.2 系统需求背景
中国联通IT运维现状如下:
a) 缺乏统一的IT管控平台,每个系统对IT层面的管理水平参次不齐,独立维护。
b) 管理单元突增,缺少配套的管理手段。
c) 数据分散且无法动态准确维护,依靠人工台账进行管理。
d) 维护单位人员之间在运维活动的协同基本依靠电话、短信及第三方通信软件沟通,无法做到历史留存以及运维闭环。
e) 虚拟化技术、云化技术、容器技术、集群化技术的应用导致监控采集数据海量增长,存储和计算能力不足,且缺乏有效利用。
f) 运维工作不规范,缺少制度化和流程化的电子支撑手段。
g) 大部分维护工作还是依靠维护人员手工操作,依靠运维人员的经验,效率有待提升。
h) 传统相对静态的阈值设定方式,无法根据业务趋势变化而动态变化,导致预警不准确。
i) 业务系统复杂度增加,伴随新技术的发展与应用,新生系统的部署与监控方式更加复杂,对监控策略及配置的灵活性要求更高。
j) 随着SDN/NFV、5G、物联网、AI、NB-IoT等新技术不断发展,业界标准组织、国内外运营商等,也积极进行着网络转型及下一代运营支撑系统的研究,中国联通也提出了5G战略、CubeNet2.0战略、物联网+战略等积极适配网络的转型。从业务角度,也向下一代运营系统提出了新的需求,面向管理,需要实现数据端到端的闭环呈现及管理;面向客户,需要提供按需随选的服务,实现实时响应、操作便捷;面向运维,需要提供自动化、智能化的运维保障支撑,以缩减人工,简化流程、缩短处理时长。网络新技术的演进、运营的变革以及IT技术本身的发展,使得未来运营系统应具备“智能运维、网络使能、能力开放、业务编排”特征,以便更充分地发挥未来网络的技术优势,支撑整体网络效率的提升。
2
建设思路
2.1 技术要求
IT系统在迅猛发展的同时,对于IT系统的运维管理的要求同步发展。最早期缺乏有效运维系统支撑时依靠人工方式,维护效率低下、错误率高,后来有了ITIL(information Technology Infrastructure Library)开始成体系地进行运维管理,缺点是流程较长、效率低下。再后来从被动运维向主动运维转换(ITOM),敏捷开发与自动化运维相互结合的开发运维一体化(DevOps),运维大数据分析辅助运维决策(ITOA)。目前运维领域正尝试将人工智能技术引入运维管理,从而实现以AI为中枢调度同时关注效率、质量与成本的无人运维。
根据IT运维管理的技术发展方向,中国联通新建的IT运维平台应以业务运营支撑需求为驱动,建立规范化的流程支撑体系。近期目标着眼于支撑业务运营并巩固IT运营支撑的核心竞争力,中长期目标集中于积极探索转型IT运营。
新建的IT运维平台实现一体化管理,被动向主动转变、应用向业务转变;由被动工具型运维向主动管理型运营转变;从保证应用系统安全、稳定、可靠运行,向支撑业务全生命周期的体验、效率和效益的能力转变。全面提供IT业务运营支撑能力,加强前后端运营支撑的协作,建立灵活的支撑模式。
2.2 系统定位
中国联通总部需建设一套向各级管理单位与合作伙伴提供统一的IT运营与运维服务能力的运营支撑系统。
a) 中国联通总部IT运营平台定位。中国联通总部IT运营平台是对运维工作中的计划、组织、实施、控制、升级、改造、需求等工作进行合集管理,为产品生产、运维、服务创造密切相关的各项管理工作提供集中自动化、智能化、运营化的平台。
b) 中国联通总部IT运营平台与OSS2.0总部系统、省分运维系统关系。中国联通总部IT运营平台作为OSS2.0及省分系统之上的系统,对总部智能监控、沃网络、电子运维、资源管理、客服支撑、统一采集与指令适配等OSS2.0系统及省分系统提供管理手段和运营支撑工具。
2.3 建设思路
具体建设目标:通过技术运营的手段,推进运营体系向智能化运维转变,实现四化的效果(可视化、标准化、自动化和智能化),最终实现AI调度中枢管理的质量、成本、效率三者兼顾的无人值守运维。
2.3.1 运维可视化
新建的IT运营平台以配置管理数据库为核心,以监控管理(基础设施监控、应用监控、日志监控)为手段,通过网络扫描以及机器学习等自动发现技术,将系统抽象、庞杂、海量的数据、IT物理机房、逻辑架构以及业务流程以数据驱动的直观图的形式呈现在人们眼前,实现“数图互换,全栈监控”。
运维人员通过直观图,按图索骥,在架构图中精准定位,检测告警、性能等各类信息,辅助排查故障。通过可视化运维的建设,避免了因IT系统运维人员的离职而造成“信息断层”情况的发生,而且通过直观图,企业的管理层底层、决策层甚至是底层员工都能有效认知企业的IT架构,并随时洞悉最新动态,从而高效地完成各类运维工作,并为运维自动化,智能运维(AIOPS)打下基础。
2.3.2 运维标准化
制定基于IT服务管理(ITSM)的轻量级运维服务流程,再基于该流程建立线上支撑模块,是运维过程中管理意识的落地与标准实现。规范日常运维工作,工作内容可留痕、可评估、可评价。
2.3.3 运维自动化
以IT运营管理场景化为目标,强化企业运维工具以及业务数据的整合。通过搭建场景,在场景中一站式整合各种管理要素,包括IT架构图、运维数据、运维工具、处理规则等,模式化、场景化的整合管理,从而实现IT系统自动化部署、故障预处理、业务连续性保障、系统维护功能,达到高效的运营管理目的。
计划建设或集成的运维工具包括:
a) 代码管理:代码管理工具具备对源代码全生命周期管理的能力,主要功能包括代码库管理、代码审计、版本审核。
b) 自动化测试:软件自动化测试是在软件发生变更后,可利用自动化测试工具按照事先制定的测试用例对变更后软件进行测试,可以大大提高软件变更上线的效率,减少测试工作量。
c) 自动巡检:自动化运维模块自动收集服务器的监控数据,对异常数据进行告警,并支持以接口形式将告警发送给ITMS进行派单处理,形成巡检异常的闭环操作。
d) 自动化部署:自动化部署用于在操作系统安装完成后的应用软件安装和升级,并根据实际运行状态对IT资源进行缩扩容。
e) 批量自动化配置:将日常运维工作中存在的批量配置工作,根据特定运维场景固化为自动化脚本,由自动化运维模块执行,可以大大降低人为操作失误,降低维护复杂度,进而降低运维成本。
f) 故障预处理:设备发生故障或告警时,需要能够根据预定义的故障处理规则自动连接故障设备进行预处理,预处理内容包括查询操作和恢复操作。
g) 自动作业计划:将具有自动化执行条件的作业计划按照指定规则自动执行,再把执行结果上报给作业计划管理模块进行填报,进而最大程度地提高工作效率,提高运维工作水平。
2.3.4 运维智能化
充分利用大数据和AI技术,构建智能化运维管控模型,自动识别业务问题,简化运维操作复杂度,持续改善IT系统健康状况。
主要技术手段包括:
a) 基于知识图谱技术建立运维知识库,建立以事件为核心的全闭环运维问题处理模型和评价体系,通过问题事件的关联推荐,把解决方法与经验推送给运维人员,实现快速解决故障的知识支撑。
b) 通过根因分析、关联分析、智能分析,实现对海量监控数据与历史数据的关联分析,利用决策推导和权重分析方法快速定位问题原因。
c) 通过异常检测、动态基线、故障预测、指标预测,自动发现时间序列数据中的异常波动,提高复杂IT环境下的检测能力,有效发现故障,实现风险预测。
d) 通过告警抑制,统一告警管理,实现告警风暴的有效抑制和告警消息的统一管控,减少大量告警对运维人员的干扰,提高运维工作的效率。
2.4 技术架构
平台技术架构如图2所示。
图2 IT运营平台技术架构
IT运营平台采用开放式微服务架构,支持无状态事务化处理,能够独立运行且灵活横向扩展,支持当下新技术的应用,具有持续迭代发展的能力,能够不断满足未来发展的需要。
接口服务层:通过丰富的接口支撑实现IT资源的资源数据采集、资源部署、资源开通交付、资源运行保障等完善的生命周期管理。
数据层:支持多元化数据结构,满足海量数据实时消费的场景。
消息传输层:通过Kafka实现各功能模块之间的消息交互、调用与服务能力的整合。
功能层:采用集群式框架,实现单元模块的负载均衡,平台能力可横向扩展支持微服务化。
展现层:前台技术基于轻量级、跨平台、多元化、组件化的设计理念,实现互联网化的站点模式。
2.5 系统框架
中国联通总部IT运营平台为总部一级系统,对总部与省分IT资源进行统一管理,对总部智能监控、沃网络、电子运维、资源管理、客服支撑、统一采集与指令适配等OSS2.0系统及省分系统提供管理手段和运营支撑工具。
IT运营平台集成框架支持各系统间的低耦合部署,配置管理通过对外接口实现IaaS、PaaS、SaaS层配置数据的采集;监控系统和运维自动化根据配置管理的资源数据,实现对设备应用、网络、硬件、日志、动环设备的数据采集、监控、告警、故障处理经验,并具备了日常运维自动化的功能;同时把故障处理经验存储到知识库中进行管理,为运营分析提供应用性能、设备性能、告警数据和业务数据等分析数据。
根据IT运营支撑管理要求和应用性能、设备性能等分析数据为管理部门提供了综合展示的工具,为运维人员提供了统一的门户操作界面。流程管理贯穿IT运营支撑的各个环节,为IT运营工作提供了流程化的管理;安全管理实现了系统的分权分域和用户管理的功能。
运营平台的能力包括:配置信息管理能力、全栈监控能力、标准化轻量级运维流程能力、应用发布管理能力、运维自动化能力、安全管控能力、知识分享与学习能力。
建议建设的模块功能如下。
a) 配置管理。配置管理即管理全量资源的可配置项。向整个系统内提供统一的资源数据消费服务,在消费过程中持续改善数据质量。通过完善配置模型形成立体化资源配置管理,实现全面准确的资源信息管理覆盖,支持多种资源数据获取和维护手段,建立资源全生命周期管控流程保证数据的完整性与一致性。
b) 监控管理。对网络设备、主机、数据库、中间件、存储、应用、业务、虚拟化等资源信息、告警信息、性能及运行状态的统一监控和管理。
c) 流程管理。建设一套完整的运维支撑体系流程,对人员、技术、流程进行高效管理。具备快速适应总部IT运营业务支撑需求的能力,能够从人员、技术和流程3个方面提高IT运营能力,确保高质量地完成IT运营工作。
d) 自动化运维。构建一个模块化、可全部覆盖各资源类型 、支持以可视化方式管理和定义其操作脚本、操作步骤和逻辑,能自动发现故障自动解决的闭环运维自动管理运维平台。具备作业计划、巡检、测试、部署等日常重复性运维工作自动化的能力。
e) 安全管理。实现统一的用户管理、认证、授权,日志管理及应用系统接入,提供全流程、全时段、全场景的全生命周期的安全运维支撑。具备统一的安全管理窗口,实现人员和资源的统一管理,访问权限和运维操作安全的权限及认证管理,运维操作的安全审计和可追溯性。
f) 知识库管理。专题知识库将传统人工整理总结知识和互联网手段结合,进一步扩充知识库的内涵与外延,提高用户的问题自解决率,降低工单量,减少后台支撑压力,节省平台运维成本。
g) 运营分析。引入大数据技术,如IT运维过程中生产的业务数据、日志数据、用户访问与偏好数据,来对IT运营进行全生命周期、多维度的分析,并将分析结果用于应用开发与优化、隐患的整改等方面。IT运维数据集中化,支撑运营分析管理的场景,提供端到端分析的能力。
h) 统一门户。统一门户是进入IT运营支撑系统的统一通道,基于界面集成技术,面向不同的角色可自定义定制分析场景,为领导决策、监控运维、运营分析提供不同的工作台视角。
i) 综合展示。提供移动展示、大屏展示、Web展示。
3
结论
伴随建立互联网化网络运营支撑体系的发展规划,中国联通适配网络IT化演进,构建开放网络服务体系IT运营平台,整合集中、持续优化,建成行业领先的IT技术支撑体系,支撑运行维护信息共享、高效运营,实现信息化与运营模式的有机融合等行为,有利于支撑企业战略实现。
-
互联网
+关注
关注
54文章
11065浏览量
102532 -
IT
+关注
关注
2文章
843浏览量
63432 -
中国联通
+关注
关注
12文章
3643浏览量
61109
原文标题:中国联通IT运营平台建设思路探讨
文章出处:【微信号:C114-weixin,微信公众号:C114通信网】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论