内存管理概述中,主要是以Linux v2.6.11为例进行分析的,但是计算技术在不断发展,新的存储架构、新的指令集架构、新的SoC架构等都对物理内存模型的抽象提出了更高要求。为此,必须抽象一种完全独立于硬件架构的物理内存模型。
1 NUMA和UMA
第一个要解决的问题就是非一致性内存访问(NUMA)。对于多核和多内存卡插槽的机器,内存位于不同的分组中,那么与处理器的距离不同,就会产生访问时间的差异。比如,可以将一组内存更靠近CPU,另一组内存更靠近外设,作为访问外设的DMA内存。
这样的每个分组称为一个节点(node)。不管是NUMA架构,还是UMA架构,Linux提供了一个统一的数据结构struct pglist_data表示节点信息。该列表中是类型为pg_data_t的数据结构,描述一个具体的节点,该数据结构可以通过NODE_DATA(nid)引用,这儿nid表示节点的ID。
对于NUMA架构,node数据结构是由特定于架构的代码在boot阶段分配的。通常,这些数据结构分配的就是本地的内存组(也就是离它们近的内存)。对于UMA体系结构,只使用一个名为cong_page_data的静态pg_data_t结构。节点将在下一节讨论。
2 内存分区(memory zone)
节点内的物理内存被划分为一个或多个区,这样的区称为Zone。这些内存分区的划分通常由硬件架构访问物理内存的限制决定。ZONE在内核中的数据类型是zone_t,结构是zone。zone的分类类型如下所示:
ZONE_DMA和ZONE_DMA32
当外设无法DMA访问所有可寻址内存(ZONE_NORMAL)时,使用ZONE_DMA和ZONE_DMA32。ZONE_DMA32用于覆盖整个32位地址空间的架构上。ZONE_DMA留给具有较小DMA寻址限制的区域。这种区别很重要,因为定义ZONE_DMA32时假定使用32位DMA掩码。某些64位平台可能需要2个区域,因为它们支持具有不同DMA寻址限制的外设。虽然近些年提供了更好、更强大的接口分配DMA内存(使用通用设备的动态DMA映射),但ZONE_DMA和ZONE_DMA32仍然表示对其访问方式受限制的内存。根据架构不同,可以使用CONFIG_ZONE_DMA和CONFIG_ZONE_DMA32配置选项,在构建内核时,禁用这些内存区域。
ZONE_NORMAL
普通内存,内核一直可以访问的内存区。如果DMA设备支持向所有可寻址内存的传输,则可以对这些内存页执行DMA操作。ZONE_NORMAL总是使能。
ZONE_HIGHMEM
是内核页表中永久映射未覆盖的物理内存部分。这个区域中的内存只能由内核使用临时映射访问。该区域仅在某些32位体系结构上可用,并通过CONFIG_HIGHMEM启用。
ZONE_MOVABLE
与ZONE_NORMAL类似。不同之处是ZONE_MOVABLE区的内存页是可移动的。也就是说,在这些内存页的虚拟地址不改变的情况下,他们的内容可以在不同的物理内存页之间搬运。ZONE_MOVABLE通常在内存热插拔期间进行填充,但也可以在boot阶段,使用kernelcore、movablecore和movable_node命令行参数之一进行填充。具体可以参考内存页迁移和热插拔
ZONE_DEVICE
表示驻留在PMEM和GPU等设备上的内存。它和内存ZONE类型有着不同,它的存在是为了设备驱动程序的物理内存范围提供page和内存映射服务。ZONE_DEVICE可以通过配置选项CONFIG_ZONE_DEVICE使能。设备内存热插拔支持在mem_map中建立PMEM或其它设备驱动程序发现的内存区域。这允许pfn_to_page()查找“设备物理”地址,这是在O_DIRECT操作中使用DAX映射所需要的。
需要注意的是,许多内核操作只能使用ZONE_NORMAL进行,因此它是性能最关键的ZONE区。
节点和ZONE之间的关系由固件报告的物理内存映射、内存寻址的体系结构约束和内核命令行中的某些参数决定。
例如,对于具有2GB内存的x86 UMA架构内核,整个内存将位于节点0上,分为3个区域:“ZONE_DMA”、“ZONE_NORMAL”和“ZONE_HIGHMEM”:
02G +-------------------------------------------------------------+ |node0| +-------------------------------------------------------------+ 016M896M2G +----------+-----------------------+--------------------------+ |ZONE_DMA|ZONE_NORMAL|ZONE_HIGHMEM| +----------+-----------------------+--------------------------+
在ARM64机器上禁用ZONE_DMA并启用ZONE_DMA32的同时,使用movablecore = 80%参数启动内核时,在两个节点之间平均分配16G内存,则节点0上将有ZONE_DMA32,ZONE_NORMAL和ZONE_MOVABLE,节点1上将有ZONE_NORMAL和ZONE_MOVABLE:
1G9G17G +--------------------------------++--------------------------+ |node0||node1| +--------------------------------++--------------------------+ 1G4G4200M9G9320M17G +---------+----------+-----------++------------+-------------+ |DMA32|NORMAL|MOVABLE||NORMAL|MOVABLE| +---------+----------+-----------++------------+-------------+
内存组也可以交替分配给节点。在下面的示例中,x86机器具有16G的内存,分为4组,偶数组属于节点0,奇数组属于节点1:
04G8G12G16G +-------------++-------------++-------------++-------------+ |node0||node1||node0||node1| +-------------++-------------++-------------++-------------+ 016M4G +-----+-------++-------------++-------------++-------------+ |DMA|DMA32||NORMAL||NORMAL||NORMAL| +-----+-------++-------------++-------------++-------------+
在这种情况下,节点0将横跨0→12G,节点1将横跨4→16G。
3 节点
正如我们所提到的,内存中的每个节点都由pg_data_t描述,pg_data_t是结构体pglist_data的类型定义。在分配页面时,默认情况下Linux使用节点本地分配策略,从离运行CPU最近的节点分配内存。由于进程倾向于在同一个CPU上运行,因此很可能会使用当前节点的内存。分配策略可以由用户控制,详见NUMA内存策略。
大多数NUMA体系结构维护一个指向node结构的指针数组。实际的结构是在boot过程的早期分配的,当特定于体系结构的代码解析固件报告的物理内存映射时。节点初始化的大部分在boot过程中稍晚的时候通过free_area_init()函数进行,稍后将在初始化一节中描述。
除了node结构,内核还维护一个名为node_states的nodemask_t位掩码数组。这个数组中的每个位掩码代表一组具有特定属性的节点,这些属性由enum node_states定义:
N_POSSIBLE
节点可能在某个时间点在线。
N_ONLINE
节点在线。
N_NORMAL_MEMORY
节点具有常规内存。
N_HIGH_MEMORY
节点具有常规内存或高端内存。当CONFIG_HIGHMEM被禁用时,别名为N_NORMAL_MEMORY。
N_MEMORY
节点具有内存(常规、高、可移动).
N_CPU
节点内CPU数量。
对于具有上述属性的每个节点,将设置与node_states[
例如,节点2,具有常规内存和CPU,位2将在下面设置:
node_states[N_POSSIBLE] node_states[N_ONLINE] node_states[N_NORMAL_MEMORY] node_states[N_HIGH_MEMORY] node_states[N_MEMORY] node_states[N_CPU]
关于nodemask的各种操作,请参考include/linux/nodemask.h。
有了节点之后,LRU列表、页回收机制、交换区(kswapd)等等都需要在NONE分区之上添加处理。细节在此不再详述。
审核编辑:汤梓红
-
soc
+关注
关注
38文章
4199浏览量
218871 -
Linux
+关注
关注
87文章
11342浏览量
210214 -
内存
+关注
关注
8文章
3052浏览量
74244 -
模型
+关注
关注
1文章
3298浏览量
49104
原文标题:Linux内核8.9-内存管理进阶之物理内存模型的演变
文章出处:【微信号:嵌入式ARM和Linux,微信公众号:嵌入式ARM和Linux】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论