0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

计算机系统中哈希表的优化

算法与数据结构 来源:百度架构师 作者:百度架构师 2021-03-02 14:10 次阅读

导读:本文从哈希表传统设计与解决思路入手,深入浅出地引出新的设计思路:从尽量规避哈希冲突,转向了利⽤合适的哈希冲突概率来优化计算和存储效率。新的哈希表设计表明 SIMD 指令的并⾏化处理能⼒的有效应⽤能⼤幅度提升哈希表对哈希冲突的容忍能⼒,进⽽提升查询的速度,并且能帮助哈希表进⾏极致的存储空间压缩。

1 背景

哈希表是⼀种查找性能⾮常优异的数据结构,它在计算机系统中存在着⼴泛的应⽤。尽管哈希表理论上 的查找时间复杂度是 O(1),但不同的哈希表在实现上仍然存在巨⼤的性能差异,因⽽⼯程师们对更优秀 哈希数据结构的探索也从未停⽌。

1.1 哈希表设计的核⼼

从计算机理论上来说,哈希表就是⼀个可以通过哈希函数将 Key 映射到 Value 存储位置的数据结构。那么哈希表设计的核⼼就是两点:

1. 怎样提升将Key映射到Value存储位置的效率?

2. 怎样降低存储数据结构的空间开销?

由于存储空间开销也是设计时的⼀个核⼼控制点,在受限于有限的空间情况下,哈希函数的映射算法就存在着⾮常⾼的概率将不同的 Key 映射到同⼀个存储位置,也就是哈希冲突。⼤部分哈希表设计的区别,就在于它如何处理哈希冲突。

当遇到哈希冲突时,有⼏种常⻅的解决⽅案:开放寻址法、拉链法、⼆次哈希法。但是下⾯我们介绍两种有趣的、不常⻅的解决思路,并且引出⼀个我们新的实现⽅案——B16 哈希表。

2 规避哈希冲突

传统哈希表对哈希冲突的处理会增加额外的分⽀跳转和内存访问,这会让流⽔线式的CPU指令处理效率变差。那么肯定就有⼈考虑,怎么能完全规避哈希冲突?所以就有了这样⼀种函数,那就是完美哈希函数(perfect hash function)。

完美哈希函数可以将⼀个 Key 集合⽆冲突地映射到⼀个整数集合中。如果这个⽬标整数集合的⼤⼩与输⼊集合相同,那么它可以被称为最⼩完美哈希函数。

完美哈希函数的设计往往⾮常精巧。例如CMPH(http://cmph.sourceforge.net/)函数库提供的 CDZ 完美哈希函数,利⽤了数学上的⽆环随机 3-部超图概念。CDZ通过 3 个不同的 Hash 函数将每个 Key 随机映射到3-部超图的⼀个超边,如果该超图通过⽆环检测,再将每个 Key 映射到超图的⼀个顶点上,然后通过⼀个精⼼设计的与超图顶点数相同的辅助数组取得 Key 最终对应的存储下标。

完美哈希函数听起来很优雅,但事实上也有着实⽤性上的⼀些缺陷:

完美哈希函数往往仅能作⽤在限定集合上,即所有可能的 Key 都属于⼀个超集,它⽆法处理没⻅过的 Key;

完美哈希函数的构造有⼀定的复杂度,⽽且存在失败的概率;

完美哈希函数与密码学上的哈希函数不同,它往往不是⼀个简单的数学函数,⽽是数据结构+算法组成的⼀个功能函数,它也有存储空间开销、访问开销和额外的分⽀跳转开销;

但是在指定的场景下,例如只读的场景、集合确定的场景(例如:汉字集合),完美哈希函数可能会取得⾮常好的表现。

3 利⽤哈希冲突

即便不使⽤完美哈希函数,很多哈希表也会刻意控制哈希冲突的概率。最简单的办法是通过控制 Load Factor 控制哈希表的空间开销,使哈希表的桶数组保留⾜够的空洞以容纳新增的 Key。Load Factor 像是控制哈希表效率的⼀个超参数,⼀般来说,Load Factor 越⼩,空间浪费越⼤,哈希表性能也越好。

但近年来⼀些新技术的出现让我们看到了解决哈希冲突的另⼀种可能,那就是充分利⽤哈希冲突。

3.1 SIMD 指令

SIMD 是单指令多数据流(Single Instruction Multiple Data)的缩写。这类指令可以使⽤⼀条指令操作多个数据,例如这些年⾮常⽕的 GPU,就是通过超⼤规模的 SIMD 计算引擎实现对神经⽹络计算的加速。

⽬前的主流 CPU 处理器已经有了丰富的 SIMD 指令集⽀持。例如⼤家可接触到的 X86 CPU ⼤部分都已经⽀持了 SSE4.2 和 AVX 指令集,ARM CPU 也有 Neon 指令集。但科学计算以外的⼤部分应⽤程序,对 SIMD指令的应⽤还都不太充分。

3.2 F14 哈希表

Facebook 在 Folly 库中开源的 F14 哈希表有个⾮常精巧的设计,那就是将 Key 映射到块,然后在块⾥使⽤ SIMD 指令进⾏⾼效过滤。因为分块的数量⽐传统的分桶要更⼩,这相当于⼈为增加了哈希冲突,然后在块中⽤ SIMD 指令再解决冲突。

具体的做法是这样的:

通过哈希函数对 Key 计算出两个哈希码:H1 和 H2 , 其中 H1 ⽤来确定 Key 映射到的块,H2 只有 8 bits,⽤来在块内进⾏过滤;

每个块⾥最多存放 14 个元素,块头有 16 个字节。块头的前 14 个字节,存放的是 14 个元素对应的 H2 ,第 15 字节是控制字节,主要记录该块⾥有多少个元素是从上⼀个块溢出的,第 16 字节是越界计数器,主要记录如果该块空间⾜够⼤,应该会被放置多少个元素。

在插⼊时,当 Key 映射到的块中 14 个位置还有空时,就直接插⼊;当块已经满时,就增加越界计数器,尝试插⼊下⼀个块中;

在查询时,通过待查找 Key 计算得到 H1 和 H2 。通过 H1 对块数取模确定其所属的块后,⾸先读取块头,通过 SIMD 指令并⾏⽐较 H2 与 14 个元素的 H2s 是否相同。如果有相同的 H2 ,那么再⽐对 Key 是否相同以确定最终结果;否则根据块头的第 16 字节判断是否还需要⽐对下⼀个块。

F14 为了充分利⽤ SIMD 指令的并⾏度,在块内使⽤了 H2 这种 8 bits 的哈希值。因为⼀个 128 bits 宽度的 SIMD 指令可以进⾏最多 16 个 8 bits 整数的并⾏⽐较。虽然 8 bits 哈希值的理论冲突概率 1/256 并不低,但也相当于有 255/256 的可能性省去了逐个 Key 对⽐的开销,使哈希表能够容忍更⾼的冲突概率。

4 B16 哈希表

不考虑分块内部的设计,F14 本质上是⼀个开放寻址的哈希表。每个块头的第 15、16 字节被⽤于开放寻址的控制策略,只剩 14 个字节留给哈希码,也因⽽被命名为 F14。

那么我们考虑能不能从另⼀个⻆度出发,使⽤拉链法来组织分块。由于省去了控制信息,每个分块中可以放置 16 个元素,我们把它命名为 B16。

4.1 B16 哈希数据结构

△B16 哈希表数据结构(3元素示例)

上图所示就是⽤每个分块 3 个元素展示的 B16 哈希表的数据结构。中间绿⾊的是常⻅的 BUCKET 数组,存放的是每个分桶中 CHUNK 拉链的头指针。右侧的每个 CHUNK 与 F14 相⽐,少了控制字节,多了指向下⼀个 CHUNK 的 next 指针。

B16 也是通过哈希函数对 Key 计算出两个哈希码:H1 和 H2 。例如 “Lemon” 的两个哈希码是 0x24EB 和0x24,使⽤ H1 的⾼位作为 H2 ⼀般来说⾜够了。

在插⼊时,通过 H1 对桶⼤⼩取模计算 Key 所在的分桶,例如 “Lemon” 所在的分桶是 0x24EB mod 3 =1。然后在 1 号分桶的分块拉链中找到第⼀个空位,将 Key 对应的 H2 和元素写⼊该分块。当分块拉链不存在,或者已经装满时,为拉链创建⼀个新的分块⽤于装载插⼊的元素。

在查找时,先通过 H1 找到对应的分桶拉链,然后对每个块进⾏基于 SIMD 指令的 H2 对⽐。将每个块的块头 16 字节加载到 128 bits 寄存器中,⾥⾯包含了 16 个 H2‘ ,把 H2 也重复展开到 128 bits 寄存器中,通过 SIMD 指令进⾏ 16 路同时⽐对。如果都不同,那就对⽐下⼀个块;如果存在相同的 H2 ,就继续对⽐对应元素的 Key 是否与查找的 Key 相同。直到遍历完整条拉链,或者找到对应的元素。

在删除时,⾸先查找到对应的元素,然后⽤块拉链最尾部的元素覆盖掉对应的元素即可。

当然,B16 哈希表每个块的元素个数可以根据 SIMD 指令的宽度进⾏灵活调整,例如使⽤ 256 bits 宽度指令可以选择 32 元素的块⼤⼩。但影响哈希表性能的不仅仅是查找算法,内存访问的速度和连续性也⾮常重要。控制块⼤⼩在 16 以内在⼤多数情况下能充分利⽤ x86 CPU 的 cache line,是⼀个较优的选择。

普通的拉链式哈希表,拉链的每个节点都只有⼀个元素。B16 这种分块式拉链法,每个节点包含 16 个元素,这会造成很多空洞。为了使空洞尽可能的少,我们就必须增加哈希冲突的概率,也就是尽量地缩⼩BUCKET 数组的⼤⼩。我们经过试验发现,当 Load Factor 在 11-13 之间时,B16 的整体性能表现最好。其实这也相当于把原来存在于 BUCKET 数组中的空洞,转移到了 CHUNK 拉链中,还省去了普通拉链式每个节点的 next 指针开销。

4.2 B16Compact 哈希数据结构

为了进⼀步压榨哈希表的存储空间,我们还设计了 B16 的只读紧凑数据结构,如下图所示:

△B16Compact 哈希表数据结构(3元素示例)

B16Compact 对哈希表结构做了极致的压缩。

⾸先它省去了 CHUNK 中的 next 指针,把所有的 CHUNK 合并到了⼀个数组中,并且补上了所有的CHUNK 空洞。例如【图1】中 BUCKET[1] 的拉链中本来有 4 个元素,包含 Banana 和 Lemon,其中头两个元素被补到了【图2】的 CHUNK[0] 中。以此类推,除 CHUNK 数组中最后⼀个 CHUNK 外,所有的CHUNK 均是满的。

然后它省去了 BUCKET 中指向 CHUNK 拉链的指针,只保留了⼀个指向原拉链中第⼀个元素所在 CHUNK 的数组下标。例如【图1】中 BUCKET[1] 的拉链第⼀个元素被补到了【图2】的 BUCKET[0] 中,那么新的 BUCKET[1] 中仅存储了 0 这个下标。

最后增加了⼀个 tail BUCKET,记录 CHUNK 数组中最后⼀个 CHUNK 的下标。

经过这样的处理以后,原来每个 BUCKET 拉链中的元素在新的数据结构中依然是连续的,每个 BUCKET依然指向第⼀个包含其元素的 CHUNK 块,通过下⼀个 BUCKET 中的下标依然可以知道最后⼀个包含其元素的 CHUNK 块。不同的是,每个 CHUNK 块中可能会包含多个 BUCKET 拉链的元素。虽然可能要查找的 CHUNK 变多了,但由于每个 CHUNK 都可以通过 SIMD 指令进⾏快速筛选,对整体查找性能的影响相对较⼩。

这个只读哈希表只⽀持查找,查找的过程跟原来差异不⼤。以 Lemon 为例,⾸先通过 H1=24EB 找到对应的分桶1,获得分桶对应拉链的起始 CHUNK 下标为0,结束 CHUNK 下标为1。使⽤与 B16 同样的算法在 CHUNK[0] 中查找,未找到 Lemon,然后继续查找 CHUNK[1],找到对应的元素。

B16 Compact 的理论额外存储开销可以通过下式算得:

其中,n 是只读哈希表的元素个数。

当 n 取100万,Load Factor 取13时,B16Compact 哈希表的理论额外存储开销是9.23 bits/key,即存储每个 key 所⽀出的额外开销只有1个字节多⼀点。这⼏乎可以媲美⼀些最⼩完美哈希函数了,⽽且不会出现构建失败的情况。

B16Compact 数据结构仅包含两个数组,BUCKET 数组和 CHUNK 数组,也就意味着它的序列化和反序列化可以做到极简。由于 BUCKET 中存储的是数组下标,⽤户甚⾄不需要将哈希表整个加载到内存中,使⽤⽂件偏移即可进⾏基于外存的哈希查找,对于巨⼤的哈希表来说可以有效节省内存。

5 实验数据

5.1 实验设定

实验使⽤的哈希表的 Key 和 Value 类型均取 uint64_t,Key、Value 对的输⼊数组由随机数⽣成器预先⽣成。哈希表均使⽤元素个数进⾏初始化,即插⼊过程中不需要再 rehash。

插⼊性能:通过 N 个元素的逐⼀插⼊总耗时除以 N 获得,单位是 ns/key;

查询性能:通过对随机的 Key 查询20万次(全命中) + 对随机的 Value 查询20万次(有可能不命中)获得总耗时除以40万获得,单位是 ns/key;

存储空间:通过总分配空间除以哈希表⼤⼩获得,单位是 bytes/key。对于总分配空间来说,F14和B16均有对应的接⼝函数可直接获取,unordered_map 通过以下公式获取:

// 拉链节点总⼤⼩umap.size() * (sizeof(uint64_t) + sizeof(std::pair《uint64_t, uint64_t》) + sizeof(void*))// bucket 总⼤⼩+ umap.bucket_count() * sizeof (void *)// 控制元素⼤⼩+ 3 * sizeof(void*) + sizeof(size_t);

Folly 库使⽤ - mavx - O2 编译,Load Factor 使⽤默认参数;B16 使⽤ - mavx - O2 编译,Load Factor 设定为13;unordered_map 使⽤ Ubuntu 系统⾃带版本,Load Factor 使⽤默认参数。

测试服务器是⼀台4核 8G 的 CentOS 7u5 虚拟机,CPU 是 Intel(R) Xeon(R) Gold 6148 @ 2.40GHz,程序在Ubuntu 20.04.1 LTS Docker 中编译执⾏。

5.2 实验数据

△插⼊性能对⽐

上图中折线所示为 unordered_map、F14ValueMap 和 B16ValueMap 的插⼊性能对⽐,不同的柱⼦显示了不同哈希表的存储开销。

可以看到 B16 哈希表在存储开销明显⼩于 unordered_map 的情况下,仍然提供了显著优于unordered_map 的插⼊性能。

由于 F14 哈希表对 Load Factor 的⾃动寻优策略不同,在不同哈希表⼤⼩下 F14 的存储空间开销存在⼀定波动,但 B16 的存储开销整体仍优于 F14。B16 的插⼊性能在 100 万 Key 以下时优于 F14,但是在 1000万 Key 时劣于 F14,可能是因为当数据量较⼤时 B16 拉链式内存访问的局部性⽐ F14 差⼀些。

△查找性能对⽐

上图中折线所示为 unordered_map、F14ValueMap、B16ValueMap 和 B16Compact 的查找性能对⽐,不同的柱⼦显示了不同哈希表的存储开销。

可以看到 B16、B16Compact 哈希表在存储开销明显⼩于 unordered_map 的情况下,仍然提供了显著优于 unordered_map 的查找性能。

B16 与 F14 哈希表的查找性能对⽐与插⼊性能类似,在 100 万 Key 以下时明显优于 F14,但在 1000 万时略劣于 F14。

值得注意的是 B16Compact 哈希表的表现。由于实验哈希表的 Key 和 Value 类型均取 uint64_t,存储 Key,Value 对本身就需要消耗 16 字节的空间,⽽ B16Compact 哈希表对不同⼤⼩的哈希表以稳定的约 17.31bytes/key 进⾏存储,这意味着哈希结构⾥为每个 Key 仅额外花费了 1.31 个字节。之所以没有达到 9.23bits/key 的理论开销,是因为我们的 BUCKET 数组没有使⽤ bitpack ⽅式进⾏极致压缩(这可能会影响性能),⽽是使⽤了 uint32_t。

6 总结

本⽂中我们从哈希表设计的核⼼出发,介绍了两种有趣的、不算“常⻅”的哈希冲突解决⽅法:完美哈希函数和基于 SIMD 指令的 F14 哈希表。

在 F14 的启发下,我们设计了 B16 哈希表,使⽤了更容易理解的数据结构,使得增、删、查的实现逻辑更为简单。实验表明在⼀些场景下 B16 的存储开销和性能⽐ F14 还要好。

为追求极致的存储空间优化,我们对 B16 哈希表进⾏紧致压缩,设计了⼏乎可以媲美最⼩完美哈希函数的 B16Compact 哈希表。B16Compact 哈希表的存储开销显著低于 F14 哈希表(介于40%-60%之间),但却提供了颇有竞争⼒的查询性能。这在内存紧张的场合,例如嵌⼊式设备或者⼿机上,可以发挥很⼤的作⽤。

新的哈希表设计表明 SIMD 指令的并⾏化处理能⼒的有效应⽤能⼤幅度提升哈希表对哈希冲突的容忍能⼒,进⽽提升查询的速度,并且能帮助哈希表进⾏极致的存储空间压缩。这让哈希表的设计思路从尽量规避哈希冲突,转向了利⽤合适的哈希冲突概率来优化计算和存储效率。

原文标题:趣谈哈希表优化:从规避 Hash 冲突到利⽤ Hash 冲突

文章出处:【微信公众号:算法与数据结构】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 存储
    +关注

    关注

    13

    文章

    4318

    浏览量

    85894
  • 计算机
    +关注

    关注

    19

    文章

    7504

    浏览量

    88060
收藏 人收藏

    评论

    相关推荐

    信号继电器在计算机系统的应用

    信号继电器在计算机系统的应用是一个重要且复杂的领域,它作为电气控制的关键元件,在计算机系统中发挥着信号转换、隔离、放大以及控制等多种作用。以下将从信号继电器的基本概念、工作原理、特性、在计算
    的头像 发表于 09-27 16:29 405次阅读

    计算机存储系统的工作原理和功能

    计算机存储系统作为计算机系统至关重要的组成部分,其原理和功能对于理解计算机的运行机制具有关键意义。以下将详细阐述
    的头像 发表于 09-26 16:42 999次阅读

    使用逻辑和转换优化单板计算机(SBC)系统

    电子发烧友网站提供《使用逻辑和转换优化单板计算机(SBC)系统.pdf》资料免费下载
    发表于 09-21 11:28 0次下载
    使用逻辑和转换<b class='flag-5'>优化</b>单板<b class='flag-5'>计算机</b>(SBC)<b class='flag-5'>系统</b>

    计算机系统的硬件组成和主要部件

    计算机系统的硬件组成是计算机运行的基础,它包含了多个关键部件,这些部件相互协作,共同实现计算机的各种功能。
    的头像 发表于 09-10 11:41 2592次阅读

    简述计算机总线的分类

    计算机总线作为计算机系统连接各个功能部件的公共通信干线,其结构和分类对于理解计算机硬件系统的工作原理至关重要。以下是对
    的头像 发表于 08-26 16:23 1842次阅读

    存储器在微型计算机系统的作用

    存储器在微型计算机系统扮演着至关重要的角色,它是计算机存储和处理数据的核心部件。以下将详细介绍存储器在微型计算机系统的作用,包括其分类、
    的头像 发表于 08-22 14:25 2369次阅读

    微处理器如何控制计算机系统

    微处理器,作为计算机系统的核心部件,承担着控制整个计算机系统运行的重要任务。它不仅是计算机的运算中心,还是控制中心,负责执行程序指令、处理数据以及协调计算机各部件之间的工作。以下将详细
    的头像 发表于 08-22 14:21 509次阅读

    简述微型计算机系统的组成

    微型计算机系统,简称微机系统,是一个集硬件和软件于一体的复杂系统,旨在高效处理信息、存储数据和执行用户指令。下面将从硬件和软件两大方面对微型计算机系统的组成进行详细阐述。
    的头像 发表于 08-22 12:37 4351次阅读

    计算机系统的组成和功能

    计算机系统是一个复杂而庞大的概念,它涵盖了计算机硬件、软件以及它们之间相互作用的所有元素。为了全面而深入地探讨计算机系统,本文将从定义、组成、功能、发展历程以及未来趋势等方面进行详细阐述。
    的头像 发表于 07-24 17:41 1023次阅读

    DRAM在计算机中的应用

    DRAM(Dynamic Random Access Memory,动态随机存取存储器)在计算机系统扮演着至关重要的角色。它是一种半导体存储器,用于存储和快速访问数据,是计算机主内存的主要组成部分。以下是对DRAM在
    的头像 发表于 07-24 17:04 1232次阅读

    计算机系统软件的主要分类及其功能

    计算机系统软件是计算机运行的基础和关键,它们为计算机提供了各种基础服务和管理功能,使得计算机能够高效地工作。
    的头像 发表于 07-15 18:26 2938次阅读

    计算机系统的关键组件有哪些

    计算机系统,关键组件的协同工作构成了其强大的数据处理和运算能力。这些组件不仅决定了计算机的性能,还影响着用户的使用体验。以下是对计算机系统
    的头像 发表于 07-15 18:18 1635次阅读

    自然语言处理技术在计算机系统的应用

    已经在许多领域展现出广泛的应用价值,从机器翻译、语音识别到情感分析、智能客服等,无一不体现着NLP技术的强大能力。本文将深入探讨NLP技术在计算机系统的应用,并展望其未来的发展趋势。
    的头像 发表于 07-04 14:35 532次阅读

    计算机系统由什么两部分组成 计算机系统的层次结构

    计算机系统是由硬件和软件两部分组成的。 硬件部分包括计算机的实体组件,如中央处理器(CPU)、内存、存储设备、输入输出设备、显示器等。CPU是计算机系统的核心部件,负责执行指令、运算和控制计算
    的头像 发表于 02-01 14:13 3714次阅读

    计算机系统如何应对大模型时代的挑战与机遇

    “操作系统管理着计算机的资源和进程,以及所有的硬件和软件。计算机的操作系统让用户在不需要了解计算机语言的情况下与
    发表于 01-23 11:06 560次阅读
    <b class='flag-5'>计算机系统</b>如何应对大模型时代的挑战与机遇