0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

什么是OOM机制?怎么防止进程因为OOM机制而被杀掉?

Linux阅码场 来源:Linux内核那些事 2023-06-21 08:59 次阅读

有时候我们会发现系统中某个进程会突然挂掉,通过查看系统日志发现是由于OOM机制导致进程被杀掉。

今天我们就来介绍一下什么是OOM机制以及怎么防止进程因为OOM机制而被杀掉。

什么是OOM机制

OOM是 Out Of Memory 的缩写,中文意思是内存不足。而OOM机制是指当系统内存不足时,系统触发的应急机制。

Linux 内核发现系统中的物理内存不足时,首先会对系统中的可回收内存进行回收,能够被回收的内存有如下:

读写文件时的页缓存。

为了性能而延迟释放的空闲 slab 内存页。

当系统内存不足时,内核会优先释放这些内存页。因为使用这些内存页只是为了提升系统的性能,释放这些内存页也不会影响系统的正常运行。

如果释放上述的内存后,还不能解决内存不足的情况,那么内核会如何处理呢?答案就是:触发OOM killer杀掉系统中占用内存最大的进程。如下图所示:

84e31e08-0fc7-11ee-962d-dac502259ad0.png

可以看出,OOM killer 是防止系统崩溃的最后一个手段,不到迫不得已的情况是不会触发的。

OOM killer 实现

接下来,我们分析一下内核是如何实现 OOM killer 的。

由于在 Linux 系统中,进程申请的都是虚拟内存地址。所以当程序调用malloc()申请内存时,如果虚拟内存空间足够的话,是不会触发 OOM 机制的。

当进程访问虚拟内存地址时,如果此虚拟内存地址还没有映射到物理内存地址的话,那么将会触发缺页异常。

在缺页异常处理例程中,将会申请新的物理内存页,并且将进程的虚拟内存地址映射到刚申请的物理内存。

如果在申请物理内存时,系统中的物理内存不足,那么内核将会回收一些能够被回收的文件页缓存。如果回收完后,物理内存还是不足的话,那么将会触发swapping机制(如果开启了的话)。

swapping机制会将某些进程不常用的内存页写入到交换区(硬盘分区或文件)中,然后释放掉这些内存页,从而达到缓解内存不足的情况。

如果通过上面的手段还不能解决内存不足的情况,那么内核将会调用pagefault_out_of_memory()函数来杀掉系统中占用物理内存最多的进程。

我们来看看pagefault_out_of_memory()函数的实现:

voidpagefault_out_of_memory(void)
{
...
out_of_memory(NULL,0,0,NULL,false);
...
}

可以看出,pagefault_out_of_memory()函数最终会调用out_of_memory()来杀死系统中占用内存最多的进程。

我们继续来看看out_of_memory()函数的实现:

voidout_of_memory(structzonelist*zonelist,gfp_tgfp_mask,intorder,
nodemask_t*nodemask,boolforce_kill)
{
...

//1.从系统中选择一个最坏(占用内存最多)的进程
p=select_bad_process(&points,totalpages,mpol_mask,force_kill);
...

//2.如果找到最坏的进程,那么调用oom_kill_process函数杀掉进程
if(p!=(void*)-1UL){
oom_kill_process(p,gfp_mask,order,points,totalpages,NULL,
nodemask,"Outofmemory");
killed=1;
}
...
}

out_of_memory()函数的逻辑比较简单,主要完成两个事情:

调用select_bad_process()函数从系统中选择一个最坏(占用物理内存最多)的进程。

如果找到最坏的进程,那么调用oom_kill_process()函数将此进程杀掉。

从上面的分析可知,找到最坏的进程是 OOM killer 最为重要的事情。

那么我们来看看select_bad_process()函数是怎样选择最坏的进程的:

staticstructtask_struct*
select_bad_process(unsignedint*ppoints,unsignedlongtotalpages,
constnodemask_t*nodemask,boolforce_kill)
{
structtask_struct*g,*p;
structtask_struct*chosen=NULL;
unsignedlongchosen_points=0;
...

//1.遍历系统中所有的进程和线程
for_each_process_thread(g,p){
unsignedintpoints;
...

//2.计算进程最坏分数值,选择分数最大的进程作为杀掉的目标进程
points=oom_badness(p,NULL,nodemask,totalpages);
if(!points||points< chosen_points)
            continue;
        ...
        chosen = p;
        chosen_points = points;
    }
    ...

    return chosen;
}

select_bad_process()函数的主要工作如下:

遍历系统中所有的进程和线程,并且调用oom_badness()函数计算进程的最坏分数值。

选择最坏分数值最大的进程作为被杀掉的目标进程。

所以,计算进程的最坏分数值就是 OOM killer 的核心工作。我们接着来看看oom_badness()函数是怎么计算进程的最坏分数值的:

unsignedlong
oom_badness(structtask_struct*p,structmem_cgroup*memcg,
constnodemask_t*nodemask,unsignedlongtotalpages)
{
longpoints;
longadj;

//1.如果进程不能被杀掉(init进程和内核进程是不能被杀的)
if(oom_unkillable_task(p,memcg,nodemask))
return0;
...

//2.我们可以通过/proc/{pid}/oom_score_adj文件来设置进程的被杀建议值,
//这个值越小,进程被杀的机会越低。如果设置为-1000时,进程将被禁止杀掉。
adj=(long)p->signal->oom_score_adj;
if(adj==OOM_SCORE_ADJ_MIN){
...
return0;
}

//3.统计进程使用的物理内存数
points=get_mm_rss(p->mm)
+atomic_long_read(&p->mm->nr_ptes)
+get_mm_counter(p->mm,MM_SWAPENTS);
...

//4.加上进程被杀建议值,得出最终的分数值
adj*=totalpages/1000;
points+=adj;

returnpoints>0?points:1;
}

oom_badness()函数主要按照以下步骤来计算进程的最坏分数值:

如果进程不能被杀掉(init进程和内核进程是不能被杀的),那么返回分数值为 0。

可以通过/proc/{pid}/oom_score_adj文件来设置进程的 OOM 建议值(取值范围为 -1000 ~ 1000)。建议值越小,进程被杀的机会越低。如果将其设置为 -1000 时,进程将被禁止杀掉。

统计进程使用的物理内存数,包括实际使用的物理内存、页表占用的物理内存和 swap 机制占用的物理内存。

最后加上进程的 OOM 建议值,得出最终的分数值。

通过oom_badness()函数计算出进程的最坏分数值后,系统就能从中选择一个分数值最大的进程杀死,从而解决内存不足的情况。

禁止进程被 OOM 杀掉

有时候,我们不希望某些进程被 OOM killer 杀掉。例如 MySQL 进程如果被 OOM killer 杀掉的话,那么可能导致数据丢失的情况。

那么如何防止进程被 OOM killer 杀掉呢?从上面的分析可知,在内核计算进程最坏分数值时,会加上进程的oom_score_adj(OOM建议值)值。如果将此值设置为-1000时,那么系统将会禁止 OOM killer 杀死此进程。

例如使用如下命令,将会禁止杀死 PID 为 2000 的进程:

$echo-1000>/proc/2000/oom_score_adj

这样,我们就能防止一些重要的进程被 OOM killer 杀死。





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Linux系统
    +关注

    关注

    4

    文章

    590

    浏览量

    27344
  • PID控制
    +关注

    关注

    10

    文章

    460

    浏览量

    40033
  • MYSQL数据库
    +关注

    关注

    0

    文章

    95

    浏览量

    9380

原文标题:细说|Linux Out Of Memory机制

文章出处:【微信号:LinuxDev,微信公众号:Linux阅码场】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    容器JVM内存配置最佳实践

    Killer)机制,此时系统会终止内存占用较多的进程以保证系统的正常运行。特别是在容器环境下,不合理的JVM堆参数设置会导致各种异常现象产生,例如应用堆大小还未到达JVM设置的堆阈值或应用的规格限制,就因为
    发表于 06-20 09:45 857次阅读
    容器JVM内存配置最佳实践

    怎么才能避免SD卡频繁读写防止死机机制

    怎么才能避免SD卡频繁读写防止死机机制
    发表于 10-23 08:14

    linux内核oom机制分析

    Linux 内核有个机制OOM killer(Out-Of-Memory killer),该机制会监控那些占用内存过大,尤其是瞬间很快消耗大量内存的进程,为了
    发表于 11-13 17:01 1283次阅读
    linux内核<b class='flag-5'>oom</b><b class='flag-5'>机制</b>分析

    一个线上服务OOM的问题分享

    大家都知道,如果出现了线上OOM问题,为了不影响用户的正常使用,最快的解决办法就是重启服务。
    的头像 发表于 10-24 10:47 889次阅读

    OOM Killer机制学习

    当系统内存不足以分配时,Linux内核会使用一种OOM Killer(Out-Of-Memory Killer)机制释放内存,该机制通过一系列比较选择出最适合的进程并将其kill掉,从
    的头像 发表于 12-19 16:17 1119次阅读

    什么是OOM机制?怎么防止进程因为OOM机制被杀掉

    有时候我们会发现系统中某个进程会突然挂掉,通过查看系统日志发现是由于 OOM机制 导致进程被杀掉
    的头像 发表于 02-06 11:45 2771次阅读

    细说Linux Out Of Memory机制

    有时候我们会发现系统中某个进程会突然挂掉,通过查看系统日志发现是由于 OOM机制 导致进程被杀掉
    的头像 发表于 02-12 09:57 895次阅读

    一图解析K8S OOM和CPU节流

    使用 Kubernetes 时,内存不足 (OOM) 错误和 CPU 节流是云应用程序中资源处理的主要难题。
    的头像 发表于 02-15 17:17 1274次阅读

    SpringBoot实现MySQL百万级数据量导出并避免OOM的解决方案

    全量加载不可行,那我们的目标就是如何实现数据的分批加载了。实事上,Mysql本身支持Stream查询,我们可以通过Stream流获取数据,然后将数据逐条刷入到文件中,每次刷入文件后再从内存中移除这条数据,从而避免OOM
    的头像 发表于 03-16 13:50 2443次阅读

    进程间通信的机制有哪些

    通信比较难,Linux内核提供了多种进程间通信的机制。 同一个进程的不同模块(譬如不同的函数)之间进行通信都是很简单的,譬如使用全局变量等。 通常情况下,大部分的程序是不要考虑进程间通
    的头像 发表于 07-21 11:23 898次阅读
    <b class='flag-5'>进程</b>间通信的<b class='flag-5'>机制</b>有哪些

    OOM会导致JVM虚拟机退出吗

    熟悉Java开发的人,应该会经常遇到的异常:OOM,那么这个异常会导致 JVM 虚拟机退出吗? 1、结论 Java虚拟机(JVM)在运行Java应用时,可能会遇到内存不足的情况,从而抛出
    的头像 发表于 09-30 10:14 756次阅读

    jvm哪些区域会发生oom

    of Memory,OOM),本文将详细介绍 JVM 内容可能发生 OOM 的区域。OOM 是指应用程序在申请分配内存时,没有足够的内存供其使用,导致程序无法正常执行。 堆(Heap)区域: 堆是 JVM 中最大的一块内存区域
    的头像 发表于 12-05 11:51 1347次阅读

    Java oom异常的原因分析

    据,栈内存用于存储方法调用和局部变量。 当程序需要使用更多内存时,会向操作系统请求更多的内存空间。如果操作系统无法分配足够的内存空间,就会导致OOM异常的发生。 导致OOM异常的原因有多种,下面将详细介绍一些常见的原因。 内存
    的头像 发表于 12-05 13:43 743次阅读

    oom异常的原因和解决方法

    一、OOM异常的原因 OOM异常的出现通常是由于以下几个原因造成的: 1.1 内存泄漏 内存泄漏是指资源在使用完毕后没有被正确释放或回收,从而导致内存不断占用的现象。常见的内存泄漏问题包括对象未被
    的头像 发表于 12-05 13:45 6355次阅读

    Java怎么排查oom异常

    Java中的OOM(Out of Memory)异常是指当Java虚拟机的堆内存不足以容纳新的对象时抛出的异常。OOM异常是一种常见的运行时异常,经常出现在长时间运行的Java应用程序或处理大数
    的头像 发表于 12-05 13:47 1208次阅读