细说vDSO机制原理-电子发烧友网

1. 什么是 vDSO

众所周知，操作系统为我们管理硬件资源，并以系统调用的方式对用户进程提供 API，但是syscall很慢，涉及陷入内核以及上下文切换。对于少量频繁调用的系统调用（比如获取当期系统时间）来说，是否可以某种安全的方式开放到用户空间，让用户直接访问而不需要经过syscall呢？

vDSO就是用来解决这个问题的。

vDSO全称为virtual dynamic shared object，dynamic shared object 这个名词大家应该有所耳闻，就是 Linux 下的动态库的全称，而 virtual 表明，这个动态库是通过某种手段虚拟出来的，并不真正存在于 Linux 文件系统中。

要验证这点也很简单，只需要通过 ldd 命令，查看一些可执行文件所依赖的动态库即可，

$ldd/bin/ls
linux-vdso.so.1(0x00007ffe4e4ce000)
libcap.so.2=>/usr/lib/libcap.so.2(0x00007f7bf818e000)
libc.so.6=>/usr/lib/libc.so.6(0x00007f7bf7fc2000)
/lib64/ld-linux-x86-64.so.2=>/usr/lib64/ld-linux-x86-64.so.2(0x00007f7bf81e8000)

可以明显看出，在ls 这个可执行文件依赖的动态库列表中，除了 linux-vdso.so.1 都有明确的路径，同时还可以通过 proc 文件系统中进程的内存映射（memory map）情况来映射这一点：

$cat/proc/1/maps
....
7fd37e90f000-7fd37e911000rw-p0002f000103:0213244335/usr/lib/ld-2.33.so
7ffc2f7ce000-7ffc2f7ef000rw-p0000000000:000[stack]
7ffc2f7f7000-7ffc2f7fb000r--p0000000000:000[vvar]
7ffc2f7fb000-7ffc2f7fd000r-xp0000000000:000[vdso]
ffffffffff600000-ffffffffff601000--xp0000000000:000[vsyscall]

可以看出，vDSO 确实是以共享库的形式存在于每一个进程当中的。

通过 vDSO，进程访问一些系统提供的 API，就可以直接在自己的地址空间访问，而不需要进行用户-内核态的状态切换了

2. vDSO 实现原理

linux-vdso.so.1既然不是一个实实在在的文件，那其中的内容就应该直接保存在内存中，Linux 使用vdso_image来表示

2.1 vDSO image

在arch/x86/entyr/vdso/vdso-image-64.c文件中，定义了下面的vdso_image：

staticunsignedcharraw_data[8192]__ro_after_init__aligned(PAGE_SIZE)={
0x7F,0x45,0x4C,0x46,0x02,0x01,0x01,0x00,0x00,0x00,
0x00,0x00,0x00,0x00,0x00,0x00,0x03,0x00,0x3E,0x00,
...
};

conststructvdso_imagevdso_image_64={
.data=raw_data,
.size=8192,
.alt=3013,
.alt_len=91,
.sym_vvar_start=-16384,
.sym_vvar_page=-16384,
.sym_pvclock_page=-12288,
.sym_hvclock_page=-8192,
.sym_timens_page=-4096,
};

vdso_image.raw_data对应的就是 vDSO 提供的所有系统调用的二进制指令，一共有 8192 字节，相当于下面的结构:

staticstructpage*pages[2];

vdso_iamge_64自然需要保存到全局变量中才能发挥作用，这就涉及接下来要提到的 vDSO 初始化。

2.2 vDSO 初始化

vDSO 通过init_vdso()函数来初始化，通过条件编译对 32/64 bit 的 image 进行选择。同时也需要通过subsys_initcall(init_vdso)将init_vdso()放到initcall列表中。

init_vdso_image()这里不过多介绍，主要是用来优化指令，毕竟 vdso_image 中提供的二进制指令是手动放在一个数组中的，还有相当大的优化空间

staticint__initinit_vdso(void)
{
BUILD_BUG_ON(VDSO_CLOCKMODE_MAX>=32);

init_vdso_image(&vdso_image_64);

#ifdefCONFIG_X86_X32_ABI
init_vdso_image(&vdso_image_x32);
#endif

return0;
}
subsys_initcall(init_vdso);

2.3 vDSO 和可执行程序

如果你对 Linux 可执行程序的加载-执行机制有所研究，就知道对于 elf 格式的可执行程序而言，最终调用了load_elf_binary()这个回调函数，在这个函数中，会根据 elf 文件头中的描述，设置好新进程的各个段，并将 elf 文件中的内容拷贝到相应位置。

为什么好端端的，要提到可执行程序加载呢？这是因为，在系统初始化完成之后，vdso_image已经设置完毕，只需要在每次加载二进制可执行程序的时候，分配一块内存空间，将vdso_image加载到该位置即可。

这就是arch_setup_additional_pages()函数所要完成的任务了：

intarch_setup_additional_pages(structlinux_binprm*bprm,intuses_interp)
{
if(!vdso64_enabled)
return0;
returnmap_vdso_randomized(&vdso_image_64);
}

map_vdso_randomized()会通过stack protect机制，选择一个随机的加载地址，并调用map_vdso完成 mapping 工作，该函数内容较多，这里不赘述。

最终，vDSO 会向用户提供四个系统调用：

__vdso_clock_gettime()
__vdso_getcpu()
__vdso_gettimeofday()
__vdso_time()

你还别不信，可以自行验证一下：

使用命令cat /proc/1/maps找到[vdso]对应的内存位置。

通过 dd 命令将内存的影像 dump 到文件中，如：dd if=/proc/1/mem of=/tmp/linux-vdso.so skip=140728627781632 ibs=1 count=4096，其中 skip 的值为 vdso 的内存起始地址，count 为这块内存的大小。

使用objdump命令查看linux-vdso.so中所有符号objdump -T /tmp/linux-vdso.so，最终结果如下。

linux-vdso.so:fileformatelf64-x86-64

DYNAMICSYMBOLTABLE:
0000000000000740wDF.text000000000000015dLINUX_2.6clock_gettime
0000000000000600gDF.text0000000000000127LINUX_2.6__vdso_gettimeofday
00000000000008a0wDF.text0000000000000044LINUX_2.6clock_getres
00000000000008a0gDF.text0000000000000044LINUX_2.6__vdso_clock_getres
0000000000000600wDF.text0000000000000127LINUX_2.6gettimeofday
0000000000000730gDF.text0000000000000010LINUX_2.6__vdso_time
0000000000000730wDF.text0000000000000010LINUX_2.6time
0000000000000740gDF.text000000000000015dLINUX_2.6__vdso_clock_gettime
0000000000000000gDO*ABS*0000000000000000LINUX_2.6LINUX_2.6
00000000000008f0gDF.text0000000000000025LINUX_2.6__vdso_getcpu
00000000000008f0wDF.text0000000000000025LINUX_2.6getcpu

审核编辑：汤梓红

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉