0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

网络隔离Raft是怎么解决CPU飙高问题的呢?

jf_ro2CN3Fa 来源:稀土掘金 2023-02-06 14:05 次阅读

今天下午突然 出现 测试环境 cpu飙高,干到了 60%,其他项目 响应时间明显变长。。。有点吓人,不想背锅

项目背景

出问题的项目是 需要连接各个不同nacos 和不同的 namespace 进行对应操作的 一个项目,对nacos的操作都是httpClient 调用的api接口「httpClient方法 没有问题,不用质疑这个」

定位问题

首先 这 cpu高了,直接top -Hp 看看

定位到 进程id,然后 执行 jstack 进程id -> 1.txt

看到堆栈信息 ,下面提示信息有很多

"com.alibaba.nacos.client.config.security.updater"#2269daemonprio=5os_prio=0tid=0x00007fa3ec401800nid=0x8d85waitingoncondition[0x00007fa314396000]
java.lang.Thread.State:TIMED_WAITING(parking)
atsun.misc.Unsafe.park(NativeMethod)
-parkingtowaitfor<0x00000000f7f3eae0>(ajava.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject)
atjava.util.concurrent.locks.LockSupport.parkNanos(LockSupport.java:215)
atjava.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject.awaitNanos(AbstractQueuedSynchronizer.java:2078)
atjava.util.concurrent.ScheduledThreadPoolExecutor$DelayedWorkQueue.take(ScheduledThreadPoolExecutor.java:1093)
atjava.util.concurrent.ScheduledThreadPoolExecutor$DelayedWorkQueue.take(ScheduledThreadPoolExecutor.java:809)
atjava.util.concurrent.ThreadPoolExecutor.getTask(ThreadPoolExecutor.java:1074)
atjava.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1134)
atjava.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
atjava.lang.Thread.run(Thread.java:748)

但是上面这个提示信息 显示 是 线程内部的,而且是nacos client 内部的

你这么搞,让我很难受啊,我都是http 调用的,当时就是为了 防止开启无用的线程,这。。。。。「怎么」

那我去 根据你的关键字找找 是哪里打印的,「关键字 com.alibaba.nacos.client.config.security.updater」

ServerHttpAgent 类的方法

//initexecutorService
this.executorService=newScheduledThreadPoolExecutor(1,newThreadFactory(){
@Override
publicThreadnewThread(Runnabler){
Threadt=newThread(r);
t.setName("com.alibaba.nacos.client.config.security.updater");
t.setDaemon(true);
returnt;
}
});

这是构造方法啊,应该只初始化一次的啊,往上debug,我靠,NacosConfigService 类中调用了,「debug 看什么时候调用了 不就行了嘛」

项目初始化的时候 调用了一次,业务系统依赖nacos嘛,ok 可以理解

再就是漫长的等待,30s后 发现又是一次调用,我去,怎么可能。。。

往回debug,代码如下

scheduler.schedule("定时校对灰度nacos配置",()->loadGrayConfig(grayFileName),
1800,1800,TimeUnit.SECONDS);
/**
*灰度配置更新解决网络隔离的问题
*
*@paramgrayFileName灰度文件的名称
*/
privatevoidloadGrayConfig(StringgrayFileName){
synchronized(this){
System.err.println("loadGrayConfigdatetime:"+DateUtils.formatDate(newDate()));
//刷一次缓存重新获取nacos内容赋值
grayConfigManager.loadNoCache(grayFileName);
}
}
74649f22-a3be-11ed-bfe3-dac502259ad0.png

等会,难道 小丑是我。。。。

这当时是为了灰度功能,定时数据校验用的 用了一个线程池,当时以为用了线程池 妥妥的。。。还特意调用的 Nocache 方法,让他创建新的nacos Config对象,做数据校对

「但是每调用一次 NacosFactory.createConfigService(properties) ,nacos config 构造器就会开一个线程,就导致了这个问题」

这里可能你要问了 你说 为了防止网络隔离 才加的这个调度任务,什么是网络隔离啊?

7494062c-a3be-11ed-bfe3-dac502259ad0.jpg

我刚开始听说这个概念是 当时学习 Raft

假设一个Raft集群拥有三个节点,其中节点3的「网络被隔离」 ,那么按照「BasicRaft」 的实现,集群会有以下动作:

节点3由于网络被隔离,收不到来自Leader的Heartbeat和AppendEntries,所以节点3会进入选举过程,当然选举过程也是收不到投票的,所以节点3会反复超时选举;节点3的Term就会一直增大

节点1与节点2会正常工作,并停留在当时的Term

网络恢复之后,Leader给节点3发送RPC的时候,节点3会拒绝这些RPC理由是发送方任期太小。

Leader收到节点3发送的拒绝后,会增大自己的Term,然后变成Follower。

随后,集群开始新的选举,大概率原本的Leader会成为新一轮的Leader。

那么网络隔离 Raft是怎么解决的呢?

多轮投票的安全问题是棘手的,必须避免同一高度不同轮数分别提交两个不同区块的情形。在Tendermint中,这个问题可以通过锁机制(locking mechanism)得到解决。

锁定规则:「预投票锁(Prevote-the-Lock)」

验证者只能「预投票(pre-vote)」 他们被锁定的区块。这样就阻止验证者在上一轮中预提交(pre-commit)一个区块,之后又预投票了下一轮的另一个区块。

· 波尔卡解锁(Unlock-on-Polka ):验证者只有在看到更高一轮(相对于其当前被锁定区块的轮数)的波尔卡之后才能释放该锁。这样就允许验证者解锁,如果他们预提交了某个区块,但是这个区块网络的剩余节点不想提交,这样就保护了整个网络的运转,并且这样做并没有损害网络安全性。

「解决方案是把term替换成(term, nodeid),并且按照字典序比较大小(a > b === a.term > b.term || a.term == b.term && a.nodeid > b. node_id). 这是paxos里的做法, 保证不会出现raft里的冲突.」

原理是, raft对voting的阶段有2个值来描述: term和当前投了哪个node_id, 即[term, nodeid], 由于raft不允许一个term vote2个不同的不同的node, 也就是说, vote_req.term > local.term && vote_req.nodeid == local.nodeid 才会grant这个vote请求.

把term替换成(term,nodeid)后, vote阶段的大小比较变成了: vote_req.term > local.term || vote_req.term == local.term && vote_req.nodeid >= local.nodeid, 条件边宽松了. 同一个term内, 较大nodeid的可以抢走较小nodeid 已经建立的leader.

而日志中原本记录的term也需要将其替换成(term, node_id), 因为这两项加起来才能唯一确定一个leader. 之前raft里只需一个term就可以唯一确定一个leader.

vote中比较最大log id相应的,从比较tuple (term, index) 改成比较tuple (term, node_id, index).

就这么点修改.

「总结下来就是 按照字典排序 和 预投票锁 保证 当多个 term 相同的 candidate 相遇后,肯定会有一个 获得多数派投票」

想法

我们如果出现 异常的网络隔离情况再回来,可能导致 数据的不一致,但是上面的 解决办法 因为 比较重,不适合我们,我们就单纯 引入 「定时校对的调度任务 进行比较(和 对账一样)」

修复

我对nacos config 连接进行 遍历查找 是否存活,不存活 我就shutdown,然后生成一个新的,而不是这种全部生成一边,毕竟人家 构造器开了线程。。。。

说回来还是因为 我当时自信了,没往这个调用下面看,在子类中 写的开线程 哈哈,行吧,改改 ,跑到测试环境 看看效果(CPU)

74a4b346-a3be-11ed-bfe3-dac502259ad0.png





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    10816

    浏览量

    210974
  • RPC
    RPC
    +关注

    关注

    0

    文章

    111

    浏览量

    11502
  • cache技术
    +关注

    关注

    0

    文章

    41

    浏览量

    1044

原文标题:记一次 Nacos 导致的 CPU 飙高问题 !

文章出处:【微信号:芋道源码,微信公众号:芋道源码】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    第3集|医院网络(三)网络隔离设计#网络工程师#网络隔离 #硬声创作季

    网络技术隔离
    Hello,World!
    发布于 :2022年10月23日 12:36:16

    如何实现网络隔离

    如何实现网络隔离
    发表于 10-31 08:10

    什么是网络隔离技术

    什么是网络隔离技术网络隔离,是指两个或两个以上的计算机或网络,不相连、不相通、相互断开。不需要信息交换同的
    发表于 08-19 09:11 5838次阅读

    高性能CPU时钟网络设计

    讨论了物理设计中时钟网络的设计技术,并以现有的CPU时钟网络的为例,介绍了高性能CPU的时钟网络设计技术。
    发表于 12-27 15:28 46次下载
    高性能<b class='flag-5'>CPU</b>时钟<b class='flag-5'>网络</b>设计

    高性能CPU的时钟网络设计

    高性能CPU的时钟网络设计
    发表于 10-30 15:28 23次下载
    高性能<b class='flag-5'>CPU</b>的时钟<b class='flag-5'>网络</b>设计

    物理隔离与逻辑隔离网络光端机和光纤收发器到底有什么区别

    物理隔离网络的需求近期,电力、银行、公安、部队、铁路、大型企事业单位专网有广泛物理隔离的以太网接入需求,但究竟什么是物理隔离以太网?很多厂
    发表于 04-02 08:00 0次下载
    物理<b class='flag-5'>隔离</b>与逻辑<b class='flag-5'>隔离</b><b class='flag-5'>网络</b>光端机和光纤收发器到底有什么区别

    CPU为什么不做成圆形

    当然也有长方形的版本。上表面平整光滑,下表面则有着金属触点或针脚。虽然我们默认CPU的形状为矩形,但是不知道有没有小伙伴想过CPU为什么不做成圆形
    的头像 发表于 11-10 17:30 1884次阅读

    JVM CPU使用率问题的排查分析过程

    问题现象 排查过程 问题现象 首先,我们一起看看通过 VisualVM 监控到的机器 CPU 使用率图: 如上图所示,在 下午3:45 分之前,CPU 的使用率明显,最高
    的头像 发表于 10-10 16:31 2265次阅读

    网络隔离变压器的选型

    Hqst华强盛导读:网络隔离变压器的选型需要考虑以下几个因素: 输入和输出电压:网络隔离变压器的输入和输出电压应与应用场景的要求相匹配。 额定电流:
    发表于 05-04 08:41 1217次阅读

    持续在榜的RAFT-Stereo,你确定不来了解吗?

    给定一对矫正后的图像(IL, IR),目标是估计一个视差场d,使每个IL中的像素都有水平的位移。与RAFT类似,RAFT-Stereo的方法由三个主要组件组成:特征提取器、相关金字塔和基于GRU的更新运算符,如图1所示。更新运算符迭代地从相关金字塔中检索特征并对视差场进行
    的头像 发表于 05-19 09:24 777次阅读
    持续在榜的<b class='flag-5'>RAFT</b>-Stereo,你确定不来了解吗?

    将Paxos和Raft统一为一个协议:Abstract-paxos

    之前写了一篇 Paxos 的直观解释,用简单的语言描述了 paxos 的工作原理,看过的朋友说是看过的最易懂的 paxos 介绍,同时也问我是否也写一篇 raft 的。但 raft 介绍文章已经很多很优质了,感觉没什么可写的,就一直拖着。
    的头像 发表于 06-08 14:36 440次阅读
    将Paxos和<b class='flag-5'>Raft</b>统一为一个协议:Abstract-paxos

    使用 RAPIDS RAFT 进行机器学习和数据分析的可重用计算模式

    使用 RAPIDS RAFT 进行机器学习和数据分析的可重用计算模式
    的头像 发表于 07-05 16:30 554次阅读
    使用 RAPIDS <b class='flag-5'>RAFT</b> 进行机器学习和数据分析的可重用计算模式

    功率电源应用中需要怎样的隔离驱动?为什么需要隔离驱动?

    功率电源应用中需要怎样的隔离驱动?为什么需要隔离驱动?为什么有的电机不需要隔离驱动? 在功率电源应用中,
    的头像 发表于 10-23 09:30 1061次阅读

    cpu温度太高怎么解决?cpu温度的原因?

    cpu温度太高怎么解决?cpu温度的原因? CPU (中央处理器) 温度过高可能会导致系统崩溃、性能下降甚至损坏硬件,因此是一个需要严肃对待的问题。在本文中,我们将探讨
    的头像 发表于 12-09 16:15 3011次阅读

    请问一下docker是怎么实现cpu隔离的?

    Docker 使用 cgroups(控制组)来实现 CPU 隔离
    的头像 发表于 01-15 10:06 475次阅读