0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

云计算工程方面,现在最难的是运维了

454398 来源:ST社区 作者:ST社区 2023-02-02 17:04 次阅读

来源:ST社区

到今天,云计算工业实现已经不太难了。现在有开源软件KVM和Xen,这两个东西基本把虚拟化搞定;而OpenStack则把管理、控制系统搞定,也很成熟。PaaS也有相应的开源,比如OpenShift,而Java里也有N多的中间件框架和技术。另外分布式文件系统GFS/TFS,分布式计算系统Hadoop/Hbase等等,分布式的东西都不神秘了。技术的实现在以前可能是问题,现在不是了。

对于云计算工程方面,现在最难的是运维。管100台、1万台还是100万台机器,那是完全不同的。机器少你可以用人管理,机器多是不可能靠人的。运维系统不属于功能性的东西,用户看不见,所以这是被大家严重低估的东西。只要你做大了,就必然要在运维系统上做文章。数据中心/云计算拼的就是运维能力。

为什么说运维比较复杂,原因有这么几个。

一方面,云计算要用廉价设备取代那些昂贵的解决方案。互联网就是要用便宜的东西搭建出高质量的东西,硬件和资源一定不会走高端路线——比如EMC、IBM小型机、SGI超级计算机等等,你如果用它去搭建云计算,成本太贵。用廉价的解决方案代替昂贵的解决方案是整个计算机发展史中到今天唯一不变的事情。所以如果你要让夏利车跑出奔驰车的感觉,你需要自己动手做很多事,搭建一个智能的系统。用廉价的东西做出高质量的东西,运维好廉价的设备其实是云计算工程里最大的挑战。

另一方面,因为机器多了,加上用的又不是昂贵的硬件,所以故障就变成了常态,硬盘、主板、网络天天坏。所以,没什么好想的,运维就必须要跟上。云计算的目标是在故障成为常态的情况下保证高可用——也就是我们所说服务的可用性,是3个9、4个9还是5个9。

最后,这一大堆机器和设备都放在一起,安全问题就是一个挑战,一方面是Security,另一方面是Safety,保证数十台数百台的设备的安全还好说,但是对于数万数十万台的设计,就没有那么简单了。

面对这样的难题,人是无法搞得定的,只能依靠技术来管理和运维整个平台。比如必须有监控系统。这跟操作系统一样,对资源的管理,对网络流量、CPU利用率、进程、内存等等的状态肯定要全部收集的。收集整个集群各种节点的状态,是必然每个云计算都有的,都是大同小异的。

然后,还要找到可用性更好的节点,这需要有一些故障自检的功能。比如阿里云就遇到过磁盘用到一定时候就会莫名其妙的不稳定,有些磁盘的I/O会变慢。变慢的原因有可是硬盘不行了,于是硬盘控制器可能因为CRC校验出错需要要多读几次,这就好比TCP的包传过来,数据出错了,需要重新传。在这种硬盘处理半死不活的状态时,你肯定是需要一个自动检测或自动发现的程序去监控这种事情,当这个磁盘可能不行了,标记成坏磁盘,别用它,到别的磁盘上读复本去。我们要有故障自动检测、预测的措施,才能驱动故障,而不是被动响应故障,用户体验才会好。换句话说,我们需要自动化的、主动的运维。

为了数据的高可用性,你只能使用数据冗余,写多份到不同的节点——工业界标准写三份是安全。然而,你做了冗余,又有数据一致性问题。为了解决冗余带来的一致性问题,才有了paxos的投票玩法,大家投票这个能不能改,于是你就需要一个强大的控制系统来控制这些东西。

另外,公有云人来人往,里面的资源和服务今天用明天不用,有分配有释放,有冻结,你还要搞一个资源管理系统来管理这些资源的生命状态。还有权限管理,就像AWS的IAM一样,如果没有像AWS的IAM权限管理系统,AWS可能会不会像今天这样有很多大的公司来用。企业级的云平台,你需要有企业级的运维和管理能力。

为啥云计算有这么多开源的东西,却不是人人都能做?

一方面,这就跟盖楼一样。盖楼的技术没什么难的(当然,盖高楼是很难的),但是你没地你怎么盖?云计算也一样,带宽的价格贵得就像土地的价格。其实云计算跟房地产一样,要占地、占机房、占带宽。如果能把中国所有的机房、机柜、带宽资源都买了,你就不用做云计算了,卖土地就够了——因为这些是有限的。最简单的例子,IP地址是有限的。你有带宽、有机房,但是如果你没有IP,这就不好玩了。尤其是你要提供CDN服务,这个就更明显,因为有多少物理节点直接决定你的CDN服务质量。

另一方面,正如前面所说的,运维是件很难的事,运维这个事并不是一般人能搞的事。没有足够的场景、经验和时间,这种能力很难出现。从用户的角度来说呢,云计算是一种服务,你需要对用户企业内的解决方案要有很好的了解,这样才能提高很好的服务。能提供“好服务”的通常都是把自己真正当成用户公司。

卖汽车也是卖服务。造出汽车来,并不代表你搞定这个事了。如果没有公路、没有加油站、没有4s店、没有交通管理、规则等等,你要么用不了,要么就是乱七八糟。不能只让用户在那看着你的汽车好牛啊,但是用户不知道怎么用。所以说,云计算最终旁边必须要有一套服务设施,而这套服务设施也是今天被人低估的。

云计算有两个东西个人觉得是被人低估的,一个是运维,一个是服务。做服务的需要有生态环境,有人帮你做。所以做云计算要落地并不简单。还是那句话,云就是服务,只要提供了好的服务,无论公有还是私有都是会有价值的。

审核编辑黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 云计算
    +关注

    关注

    39

    文章

    7732

    浏览量

    137184
  • 汽车
    +关注

    关注

    13

    文章

    3416

    浏览量

    37159
收藏 人收藏

    评论

    相关推荐

    企业上后还需要数据库吗?真实答案看过来!

    企业上后还需要数据库吗?企业上后,数据库仍然是必不可少的。尽管
    的头像 发表于 11-08 10:02 100次阅读

    光伏电站管理系统智能化的新时代

    的智能化与管理注入了新的活力。 光伏电站管理系统是基于计算技术的电站
    的头像 发表于 11-01 17:03 142次阅读
    光伏电站<b class='flag-5'>运</b><b class='flag-5'>维</b>管理系统智能化<b class='flag-5'>运</b><b class='flag-5'>维</b>的新时代

    设备数据接入管理平台实现什么功能

    随着信息技术的飞速发展和工业4.0时代的到来,企业对于设备管理的需求日益增长,传统的模式已难以满足当前高效、智能、远程监控的需求。因此,设备数据接入
    的头像 发表于 09-24 14:14 162次阅读

    如何理解计算

    、大模型等算力形态。 计算一个明显的优势是弹性,能让您按需使用各类服务,灵活扩缩容,从容应对业务流量的不确定性。 为什么需要计算
    发表于 08-16 17:02

    光伏电站管理系统实现电站智能与管理

    的运营效率和发电量,陕西公众智能监测自主研发了光伏电站管理系统,帮助光伏电站实现智能化与管理,提高光伏电站运营效率和发电量。 光伏电站
    的头像 发表于 08-16 16:48 473次阅读
    光伏电站<b class='flag-5'>运</b><b class='flag-5'>维</b>管理系统实现电站智能<b class='flag-5'>运</b><b class='flag-5'>维</b>与管理

    华为应用管理和平台ServiceStage全新上线

    2024年5月22日,华为应用管理和平台ServiceStage全新上线,提供基于模板的自动化部署、环境配置管理、全链路灰度发布、同城双活高可用架构部署、单元化架构管理等新特性,满足客户针对各类应用的全托管需求,受益客户用
    的头像 发表于 05-24 15:24 748次阅读
    华为<b class='flag-5'>云</b>应用管理和<b class='flag-5'>运</b><b class='flag-5'>维</b>平台ServiceStage全新上线

    工程机械远程平台是什么

    工程机械远程平台是一种基于互联网技术的监控和管理系统,用于对分布广泛的工程机械设备进行远程监控、故障诊断、数据采集和分析,以及设备维护和管理。这种平台能够帮助设备制造商、运营商和维
    的头像 发表于 05-20 09:26 564次阅读

    管理平台:从基础到智能的飞跃

    管理平台为企业提供从基础到智能
    的头像 发表于 04-16 16:26 394次阅读

    智能化维新标杆:讯管理平台深度解读

    的功能和性能,为企业提供全新的解决方案,成为了行业的新标杆。 一、强大的智能功能 讯
    的头像 发表于 04-16 16:24 463次阅读

    分布式管理平台在计算环境中的实施案例分析

    一、案例背景 随着计算技术的快速发展,越来越多的企业开始将业务迁移到上,以实现资源的灵活调配和成本的降低。然而,计算环境的复杂性和动态
    的头像 发表于 03-26 16:16 518次阅读

    基于分布式管理平台的智慧城市运实践

    。这包括但不限于交通、能源、环境、医疗、教育等各个领域。分布式管理平台作为一种先进的技术工具,通过集成大数据、计算、物联网等技术,为智慧城市运
    的头像 发表于 03-26 16:12 477次阅读

    现在常说的边缘计算计算有什么不同?

    现在常说的边缘计算计算有什么不同? 边缘计算计算
    的头像 发表于 02-06 14:38 636次阅读

    AcrelCloud-1200分布式光伏平台

    AcrelCloud-1200分布式光伏平台
    的头像 发表于 01-26 08:07 488次阅读
    AcrelCloud-1200分布式光伏<b class='flag-5'>运</b><b class='flag-5'>维</b><b class='flag-5'>云</b>平台

    工业设备智能监控管理平台

    随着科技的飞速发展,工业设备智慧平台以计算、大数据、物联网等先进技术为支撑,使设备
    的头像 发表于 01-25 15:39 675次阅读

    天拓四方工业智能网关为工程机械远程赋能

    当前,工程机械远程维面临着诸多挑战,如设备类型繁多、通信协议不统一、数据传输不及时、故障诊断不准确等。这些问题导致效率低下、
    的头像 发表于 12-05 13:14 783次阅读