0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

干货:设计DevOps运维服务体系的详细思路和设计步骤

如意 来源:高效运维 作者:矢量比特 2020-10-20 14:30 次阅读

前记

体系就像是一顶帽子,是对 DevOps 运维的一个深度总结,写一下工作中的感悟,希望对你有所启迪。

DevOps 体系是从原始运维一步步走过来的,原始运维好比是本,有了本进而想继续提升效率、减少出错、优化流程,就发展到了 DevOps,AIOps……

首先,运维的业务职能规范后形成章程、纲领,在互联网快速发展的特点下,形成了一套应对”快”和”变”的体系,并不停的迭代升级,工作这些年,体会到千象背后是有恒道的,运维工作一直围绕高 SLA 和低成本的业务目标运转着,只是工具在围绕着体系变来变去。从开发的角度理解,运维体系就像是算法,实现算法的语言就像是工具,DevOps 就是工具的升级。

工具的本质其实是一个基础支撑,有了这个支撑,一系列目标的实现才更科学、高效,简单示意如下。

干货:设计DevOps运维服务体系的详细思路和设计步骤

原始阶段,运维工程师与各部门无数的磨合、探索下,慢慢形成了最初的体系,其无形的规范着运维的工作和注意事项,工程师通过这个纲领开展日常工作并保障业务的健康发展,这个阶段可以说是制度为王、制度规范,没有系统的运维平台,有的只是零散的一些大小工具,各种事物基本靠人工、靠制度、靠约束,虽是原始阶段,但也是运维最真实的样子,忙碌而又忙碌,效率总跟不上需求,制度总跟不上执行,与开发的协作总难同一频道,需要大量的运维人力。

再向后发展,为了提高效率的同时解决与开发间的沟通协作问题,提出了 DevOps,大家开始做自动化、做 DevOps 文化,这个自动化其本质是把运维体系落在一个到多个系统上,通过自动化系统来提高工作效率,同时用系统来实现制度,开发和运维都在一个系统上协作,遵守同样的规则,协作上也高效多了,这个阶段到了技术为王、平台规范,市场上出现了运维开发,出现了 SRE,各种问题得到了有效的解决,当然解决的程度取决 DevOps 系统做的优劣,这个就参差不齐了,但出现了这个发展方向。

再向后发展,行业领头羊提出要进一步减少人工参与,用机器自动化替换人工自动化,进而出现了 AIOps。

细心观察,从原始运维向 DevOps 的演进过程,就是越来越注重技术解决问题的过程,人员需要越来越少,能用技术替代的岗位慢慢被替代,随着自动化平台的成熟稳定,理论上理想的终极状态可能只留”运维平台+业务运维“,其他运维转岗业务运维,业务运维转岗技术运营。

那么我们如何思考设计一套 DevOps 运维服务体系呢?总结下来,一个最小的模型为定业务规范、建工作制度、搭 DevOps 系统,以此为最小单元循环往复、迭代升级。

一、定业务规范

先讲个美国人与中国人种地的事儿,美国人建立农场,把种地标准化流程化后,引入工具,几个人种几百亩地收成高、成本低反而不累,中国人每个人几亩地各自作业,收成低、成本高反而都很累。

做运维我感觉也是这个道理,想要批量化、高效率的作业就要规范化,制定各种标准形成规范,如果每个服务各自为战,就会出现乌泱泱一群人确实忙的脚不离地儿,但就是不出活儿。

那么我们通过 DevOps 要批量管理哪些东西呢,集中一下大概就是资源、服务、规范三类,资源包括像服务器、网络设备、负载均衡、证书、域名、代码、容器等,服务包括像围绕运维提供的服务监控告警、CI/CD、日志分析、服务预案、配置管理等,规范包括像流程、资源、服务的各种标准化等,简单示意如下。

干货:设计DevOps运维服务体系的详细思路和设计步骤

所以规范是整个 DevOps 体系建设里非常重要的一环,每个规范也对应了一些最佳实践原则,整理了一些运维中的规范如下:

1、变更规范

上线变更:代码上线、回滚、扩缩容;

配置变更:系统配置、应用配置;

网络变更:网络割接、设备更换;

其它变更:流量调度、服务切换、服务下线…

原则:

制定变更审核流程;

制定变更相关方通知(群、邮件);

制定变更回滚策略;

遵循测试、灰度、全量上线的规则;

下线变更要将服务器依赖处理干净,比如说挂着vip、有域名解析。

2、容灾规范

服务灾备:多机器、多机房;

数据灾备:多备份、异地备份;

网络灾备:多线路、多设备;

原则:

自动切换 好于 手动切换;

无状态 好于 有状态;

热备 好于 冷备;

多机房 好于 单机房。

3、容量规范

系统容量:木桶原理计算系统的全链路容量、用量、余量;

模块容量:模块的容量、用量、余量;

机房容量:分机房的容量、用量、余量;

单机容量:用于反向计算机房、模块容量;

原则:

制定模块单机容量指标(比如QPS、连接数、在线用户数等);

容量要考虑下行(读)、上行(写),考虑存储增量;

计算当前模块总容量,收集当前的用量,并对比容量计算余量;

系统总容量可以根据木桶原理,找到短板模块后,反向计算出来。

4、巡检规范

用户核心指标;

服务核心指标;

基础资源指标:服务器;

依赖资源指标:依赖db、依赖接口

自动化巡检报告;

值班oncall安排;

原则:

DashBoard核心在于收敛、舍得;

自动化巡检的必要性在于异常侦测,预防故障。

5、告警规范

基础监控:CPU、内存、网络、IO;

应用监控:进程、端口

业务监控:日志、业务埋点;

依赖监控:数据库、依赖接口……

原则:

核心监控收敛成告警,并对告警进行分级,备注告警影响;

核心监控形成可排查问题的DashBoard;

告警的价值在于实时发现故障。

6、预案规范

线路切换:移动、电信、联通线路切换;

机房切换:不同机房切换;

机器切换:机器故障时进行摘除;

服务降级:无法切换时,降低标准继续服务;

数据库切换:主从切换、读写切换;

网络切换:主备线路切换、链路切换;

原则:

域名切换 好于 更换IP;

自动摘除 好于 手动操作;

自动切换 好于 手动切换;

考虑好雪崩事宜。

7、故障管理规范

服务分级:确定各服务用户角度的影响;

故障定级:制定故障定级标准;

制定故障通知、处理规范;

制定故障复盘,改进措施按时保量完成的规范;

原则:

拥抱故障,同类故障不能重复发生。

8、权限安全规范

开发、运维、临时权限;

安全上符合安全审计标准。

9、文档、工具规范

统一共享知识文档;

统一共享各种脚本工具;

原则:

理想的情况是“一站式运维平台”,一个平台涵盖所有工具操作。

10、标准化规范:

主机名标准化;

日志存储标准化;

日志格式标准化;

域名使用标准化;

软件安装目录结构标准化;

原则:

主机名尽量能看出更多信息,比如服务、模块、机房等;

日志是排查问题的重要信息,一定要标准化,方便手工排查,更是为了以后用工具处理打下基础。

11、资源管理规范

服务器

vip

域名

证书

代码

原则:

资源之间是有关系的,要建立有关系的资源管理。

这里只列了一些常见的业务规范,还有很多规范是要在业务实际问题中去制定的,规范代表了运维的最佳实践,在DevOps建设中非常重要。

二、建工作制度

制度对应着工作的做事流程方法,会影响到文化,制度的建设情况,也反映了解决问题的层次,好的制度是应该能够系统化、工具化、可执行、可量化的,这样在后期才好用DevOps实现,把制度友好的落到运维平台上。

制度的产生不应该是解决一个case,而是科学的解决一类问题,制度的执行如果仅靠人的自觉自律,是靠不住的,一定要尽可能落到技术上。

上线审批制度

合规部署制度

日志清理制度

容量管理制度

oncall管理制度

服务巡检制度

故障管理制度

安全管理制度

……

工作中最不缺的是各种制度,如何建是有技巧的,也体现了一个运维的能力,这种能力坚持下去就会变为一种文化,例如考虑问题看到本质,解决问题解决根本。

另外,制度的建立要一定要本着长远的眼光,科学的态度,DevOps的思想(工具思维)。

三、搭 DevOps 系统

搭系统就是把前面的内容用技术的手段信息化,用科学的工具实现零散的资源管理、规范制度、手工操作,最理想的目标是“一站式运维”,工程师不需要切换系统,一个平台解决所有事情。

但要管的东西实在太多了,为了专业,市面上首先出现了解决单个点的优秀方案,比如说zabbix、Jenkins…。.但从用户的角度看就像“五行有了缺一个串”,解决一个业务问题,需要打开N多个系统,来回跳转,这种方式令人崩溃。好一点的大厂做个单点登陆,解决了账号混乱的问题,不过依旧是一堆系统,用户体验差、操作效率低。

实际上,这些单点的解决方案非常重要,我们在思考设计DevOps的时候,想要做到高质量、低成本,必须用好这些方案像拼积木一样做资源整合,把他们当作底层的轮子,站在巨人的肩膀上做系统,力争在应用层做到“一站式”,工作细分到这个程度,指望一个系统解决所有底层问题是不现实的,用图示意如下。

干货:设计DevOps运维服务体系的详细思路和设计步骤

可以看到,整个工具体系分为了两层,一层是底层的轮子层,这一层面向的是单个主题的解决,讲究深度和系统的解决一类问题,上层是面向SRE的应用层,也可以说是业务层,业务层通过底层轮子封装后管理了资源、规范制度、运维服务(运维提供的服务)这三类内容,所有的轮子通过一套账号和权限体系打通。

我们要用好开源社区优秀的轮子,特别是小厂,没有必要重复建设,要通过轮子的api接口做好应用层的流程封装,通过应用层的集成,做到一站式操作,应用层作为和SRE的用户接口,体现了一个 DevOps 的用户体验,轮子可以复杂,“一站式运维平台”要做到尽可能简单、优雅。

写到这里,希望对从业的你有所启迪。
责编AJX

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 运维
    +关注

    关注

    1

    文章

    251

    浏览量

    7539
  • 开源工具
    +关注

    关注

    0

    文章

    27

    浏览量

    4444
  • devops
    +关注

    关注

    0

    文章

    110

    浏览量

    11993
收藏 人收藏

    评论

    相关推荐

    实战:阿里巴巴 DevOps 转型后的平台建设

    摘要:阿里巴巴DevOps转型之后,平台是如何建设的?阿里巴巴高级技术专家陈喻结合自身的理解,业务场景的分析和业界方法论的一些思考,
    发表于 04-12 13:23

    一种智能云安全服务体系结构研究与设计_黄成荣

    一种智能云安全服务体系结构研究与设计_黄成荣
    发表于 03-19 11:45 0次下载

    华为OWS云服务提升网络安全能力

    华为自主研发的OWS是基于微服务架构的云化平台,以开源、可编程的模式来实现覆盖ICT网络的实时、按需的管理。OWS主要包括ICT网络
    的头像 发表于 12-08 11:36 2.3w次阅读

    利用6 个 Linux 典型问题来分析处理问题的思路

    结合上面介绍的 Linux 问题的解决思路后,下面我们挑选了6个比较典型的 Linux 问题,来看看是如何分析和解决的。
    的头像 发表于 01-13 10:37 2922次阅读

    DevOps Foundation® 是什么?DevOps塑造着软件世界的未来

    DevOps Foundation® 课程旨在培养个人对 DevOps Foundation® 概念的理解以及 DevOps 如何用于提升软件开发人员和 IT
    的头像 发表于 04-16 12:46 5523次阅读

    Ansible企业级自动化探索的详细资料说明

    本文档的主要内容详细介绍的是Ansible企业级自动化探索的详细资料说明主要内容包括了:场景一:自动化
    发表于 06-03 08:00 2次下载
    Ansible企业级自动化<b class='flag-5'>运</b><b class='flag-5'>维</b>探索的<b class='flag-5'>详细</b>资料说明

    ITS服务工程的实施方案详细说明

    本文档的主要内容详细介绍的是ITS服务工程的实施方案详细说明。
    发表于 12-26 14:32 11次下载
    ITS<b class='flag-5'>运</b><b class='flag-5'>维</b><b class='flag-5'>服务</b>工程的实施方案<b class='flag-5'>详细</b>说明

    干货:VMware虚拟机和 keepalived的手册

    干货:VMware虚拟机和 keepalived的手册
    的头像 发表于 06-28 10:00 2658次阅读
    <b class='flag-5'>干货</b>:VMware虚拟机和 keepalived的<b class='flag-5'>运</b><b class='flag-5'>维</b>手册

    干货:node服务实现负载均衡的步骤

    干货:node服务实现负载均衡的步骤
    的头像 发表于 07-07 10:20 3588次阅读

    云计算管理的优化与改进

    来源:CIO之家 本文经授权转载 为促进当前云计算管理的优化与改进,应从打造一体化的的管理模式开始,并将业务导向放在首位,从而有效实现完善、成熟的IT
    的头像 发表于 11-03 14:41 2994次阅读
    云计算<b class='flag-5'>运</b><b class='flag-5'>维</b>管理的优化与改进

    电力服务方案(配电室无人值守系统解决方案)

    通过配电室物联采集装置及各类传感器,将数据传送到电易云平台,监控中心对配电室进行远程、集中、实时监控,同时为用户提供巡检、试验、抢修等线下服务,构建“线上监管+远程值守+线下服务
    的头像 发表于 08-23 16:55 1817次阅读
    电力<b class='flag-5'>运</b><b class='flag-5'>维</b><b class='flag-5'>服务</b>方案(配电室无人值守系统解决方案)

    打造智能化极致体验 软通动力AIOps体系亮相GOPS全球运大会

    最佳实践及解决方案专场”,发表《数智化时代软通动力AIOps体系最佳实践与探索》主题演讲。 随着信息技术、数字技术的快速发展,以及企业IT系统和服务的复杂性不断提高,传统的IT已经
    的头像 发表于 10-28 16:10 448次阅读

    凯米斯科技提供高效优质的服务

    水质监测管养服务是目前社会发展中不可或缺的一项重要服务,它对于保障人民生活用水的安全性、促进环境可持续发展具有重要意义。凯米斯拥有完善的服务体系
    的头像 发表于 12-27 08:12 409次阅读
    凯米斯科技提供高效优质的<b class='flag-5'>运</b><b class='flag-5'>维</b><b class='flag-5'>服务</b>

    海辰储能荣获NECAS、CTEAS售后服务体系双项权威认证

    近日,凭借完善、专业的售后服务体系,经过严格审核,海辰储能顺利通过NECAS、CTEAS双体系权威认证,荣获“NECAS全国商品售后服务达标认证五星级”和“CTEAS售后服务体系完善程
    的头像 发表于 02-29 11:10 2129次阅读
    海辰储能荣获NECAS、CTEAS售后<b class='flag-5'>服务体系</b>双项权威认证

    施耐德电气全配电服务体系全新升级

    施耐德电气希望通过以创新为驱动,以服务为支撑,帮助企业进行科学高效的设备管理,实现能源与运营效率的持续优化,从而助力企业迈向高效与可持续,让存量激发更多能量。未来,施耐德电气将继续秉承‘创新、卓越、绿色、可持续’的理念,为构
    的头像 发表于 09-25 17:22 458次阅读