0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

MySQL为什么选择B+树作为索引结构?

jf_ro2CN3Fa 来源:编程迷思 2023-07-20 11:28 次阅读

前言

在MySQL中,无论是Innodb还是MyIsam,都使用了B+树作索引结构(这里不考虑hash等其他索引)。本文将从最普通的二叉查找树开始,逐步说明各种树解决的问题以及面临的新问题,从而说明MySQL为什么选择B+树作为索引结构。

一、二叉查找树(BST):不平衡

二叉查找树(BST,Binary Search Tree),也叫二叉排序树,在二叉树的基础上需要满足:任意节点的左子树上所有节点值不大于根节点的值,任意节点的右子树上所有节点值不小于根节点的值。如下是一颗BST(图片来源)。

80c3f282-269e-11ee-962d-dac502259ad0.jpg

当需要快速查找时,将数据存储在BST是一种常见的选择,因为此时查询时间取决于树高,平均时间复杂度是O(lgn)。然而BST 可能长歪而变得不平衡,如下图所示(图片来源),此时BST退化为链表,时间复杂度退化为O(n)。

为了解决这个问题,引入了平衡二叉树。

80e0be30-269e-11ee-962d-dac502259ad0.jpg

二、平衡二叉树(AVL):旋转耗时

AVL树是严格的平衡二叉树,所有节点的左右子树高度差不能超过1;AVL树查找、插入和删除在平均和最坏情况下都是O(lgn)。

AVL实现平衡的关键在于旋转操作:插入和删除可能破坏二叉树的平衡,此时需要通过一次或多次树旋转来重新平衡这个树。当插入数据时,最多只需要1次旋转(单旋转或双旋转);但是当删除数据时,会导致树失衡,AVL需要维护从被删除节点到根节点这条路径上所有节点的平衡,旋转的量级为O(lgn)。

由于旋转的耗时,AVL树在删除数据时效率很低 ;在删除操作较多时,维护平衡所需的代价可能高于其带来的好处,因此AVL实际使用并不广泛。

三、红黑树:树太高

与AVL树相比,红黑树并不追求严格的平衡,而是大致的平衡:只是确保从根到叶子的最长的可能路径不多于最短的可能路径的两倍长。从实现来看,红黑树最大的特点是每个节点都属于两种颜色(红色或黑色)之一,且节点颜色的划分需要满足特定的规则(具体规则略)。红黑树示例如下(图片来源):

80f4d7e4-269e-11ee-962d-dac502259ad0.jpg

与AVL树相比,红黑树的查询效率会有所下降,这是因为树的平衡性变差,高度更高。但红黑树的删除效率大大提高了,因为红黑树同时引入了颜色,当插入或删除数据时,只需要进行O(1)次数的旋转以及变色就能保证基本的平衡,不需要像AVL树进行O(lgn)次数的旋转。总的来说,红黑树的统计性能高于AVL。

因此,在实际应用中,AVL树的使用相对较少,而红黑树的使用非常广泛。例如,Java中的TreeMap使用红黑树存储排序键值对;Java8中的HashMap使用链表+红黑树解决哈希冲突问题(当冲突节点较少时,使用链表,当冲突节点较多时,使用红黑树)。

对于数据在内存中的情况(如上述的TreeMap和HashMap),红黑树的表现是非常优异的。但是对于数据在磁盘等辅助存储设备中的情况(如** **MySQL****等数据库),红黑树并不擅长,因为红黑树长得还是太高了 。当数据在磁盘中时,磁盘IO会成为最大的性能瓶颈,设计的目标应该是尽量减少IO次数;而树的高度越高,增删改查所需要的IO次数也越多,会严重影响性能。

四、B树:为磁盘而生

B树也称B-树(其中-不是减号),是为磁盘等辅存设备设计的多路平衡查找树,与二叉树相比,B树的每个非叶节点可以有多个子树。 因此,当总节点数量相同时,B树的高度远远小于AVL树和红黑树(B树是一颗“矮胖子”),磁盘IO次数大大减少。

定义B树最重要的概念是阶数(Order),对于一颗m阶B树,需要满足以下条件:

每个节点最多包含 m 个子节点。

如果根节点包含子节点,则至少包含 2 个子节点;除根节点外,每个非叶节点至少包含 m/2 个子节点。

拥有 k 个子节点的非叶节点将包含 k - 1 条记录。

所有叶节点都在同一层中。

可以看出,B树的定义,主要是对非叶结点的子节点数量和记录数量的限制。

下图是一个3阶B树的例子(图片来源):

81089932-269e-11ee-962d-dac502259ad0.jpg

B树的优势除了树高小,还有对访问局部性原理的利用。所谓局部性原理,是指当一个数据被使用时,其附近的数据有较大概率在短时间内被使用。B树将键相近的数据存储在同一个节点,当访问其中某个数据时,数据库会将该整个节点读到缓存中;当它临近的数据紧接着被访问时,可以直接在缓存中读取,无需进行磁盘IO;换句话说,B树的缓存命中率更高。

B树在数据库中有一些应用,如mongodb的索引使用了B树结构。但是在很多数据库应用中,使用了是B树的变种B+树。

五、B+树

B+树也是多路平衡查找树,其与B树的区别主要在于:

B树中每个节点(包括叶节点和非叶节点)都存储真实的数据,B+树中只有叶子节点存储真实的数据,非叶节点只存储键。在MySQL中,这里所说的真实数据,可能是行的全部数据(如Innodb的聚簇索引),也可能只是行的主键(如Innodb的辅助索引),或者是行所在的地址(如MyIsam的非聚簇索引)。

B树中一条记录只会出现一次,不会重复出现,而B+树的键则可能重复重现——一定会在叶节点出现,也可能在非叶节点重复出现。

B+树的叶节点之间通过双向链表链接。

B树中的非叶节点,记录数比子节点个数少1;而B+树中记录数与子节点个数相同。

由此,B+树与B树相比,有以下优势:

更少的IO次数:B+树的非叶节点只包含键,而不包含真实数据,因此每个节点存储的记录个数比B数多很多(即阶m更大),因此B+树的高度更低,访问时所需要的IO次数更少。此外,由于每个节点存储的记录数更多,所以对访问局部性原理的利用更好,缓存命中率更高。

更适于范围查询:在B树中进行范围查询时,首先找到要查找的下限,然后对B树进行中序遍历,直到找到查找的上限;而B+树的范围查询,只需要对链表进行遍历即可。

更稳定的查询效率:B树的查询时间复杂度在1到树高之间(分别对应记录在根节点和叶节点),而B+树的查询复杂度则稳定为树高,因为所有数据都在叶节点。

B+树也存在劣势:由于键会重复出现,因此会占用更多的空间。但是与带来的性能优势相比,空间劣势往往可以接受,因此B+树的在数据库中的使用比B树更加广泛。

六、感受B+树的威力

前面说到,B树/B+树与红黑树等二叉树相比,最大的优势在于树高更小。实际上,对于Innodb的B+索引来说,树的高度一般在2-4层。下面来进行一些具体的估算。

树的高度是由阶数决定的,阶数越大树越矮;而阶数的大小又取决于每个节点可以存储多少条记录。Innodb中每个节点使用一个页(page),页的大小为16KB,其中元数据只占大约128字节左右(包括文件管理头信息、页面头信息等等),大多数空间都用来存储数据。

对于非叶节点,记录只包含索引的键和指向下一层节点的指针。假设每个非叶节点页面存储1000条记录,则每条记录大约占用16字节;当索引是整型或较短的字符串时,这个假设是合理的。延伸一下,我们经常听到建议说索引列长度不应过大,原因就在这里:索引列太长,每个节点包含的记录数太少,会导致树太高,索引的效果会大打折扣,而且索引还会浪费更多的空间。

对于叶节点,记录包含了索引的键和值(值可能是行的主键、一行完整数据等,具体见前文),数据量更大。这里假设每个叶节点页面存储100条记录(实际上,当索引为聚簇索引时,这个数字可能不足100;当索引为辅助索引时,这个数字可能远大于100;可以根据实际情况进行估算)。

对于一颗3层B+树,第一层(根节点)有1个页面,可以存储1000条记录;第二层有1000个页面,可以存储10001000条记录;第三层(叶节点)有10001000个页面,每个页面可以存储100条记录,因此可以存储10001000100条记录,即1亿条。而对于二叉树,存储1亿条记录则需要26层左右。

七、总结

最后,总结一下各种树解决的问题以及面临的新问题:

二叉查找树(BST):解决了排序的基本问题,但是由于无法保证平衡,可能退化为链表;

平衡二叉树(AVL):通过旋转解决了平衡的问题,但是旋转操作效率太低;

红黑树:通过舍弃严格的平衡和引入红黑节点,解决了AVL旋转效率过低的问题,但是在磁盘等场景下,树仍然太高,IO次数太多;

B树:通过将二叉树改为多路平衡查找树,解决了树过高的问题;

B+树:在B树的基础上,将非叶节点改造为不存储数据的纯索引节点,进一步降低了树的高度;此外将叶节点使用指针连接成链表,范围查询更加高效。





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AVL
    AVL
    +关注

    关注

    0

    文章

    14

    浏览量

    10039
  • MySQL
    +关注

    关注

    1

    文章

    804

    浏览量

    26528
  • 二叉树
    +关注

    关注

    0

    文章

    74

    浏览量

    12324
  • MYSQL数据库
    +关注

    关注

    0

    文章

    96

    浏览量

    9389
  • BST
    BST
    +关注

    关注

    0

    文章

    12

    浏览量

    5897

原文标题:图文详解红黑树,还有谁不会??

文章出处:【微信号:芋道源码,微信公众号:芋道源码】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    Mysql优化选择最佳索引规则

    索引的目的在于提高查询效率,其功能可类比字典,通过该索引可以查询到我们想要查询的信息,因此,选择建立好的索引十分重要,以下是为Mysql优化
    发表于 07-06 15:13

    MySQL数据库索引的底层是怎么实现的

    二叉BB+这4种数据结构,以及为啥选用B+
    发表于 07-28 15:30

    基于B+的动态数据持有性证明方案

    针对云存储环境下的数据持有性证明( PDP)方案效率较低、不能很好支持全动态更新的问题,设计了一种基于B+的动态数据持有性证明方案。该方案引入双线性对技术和数据版本表,支持用户进行数据块级的细粒度
    发表于 11-30 17:14 0次下载
    基于<b class='flag-5'>B+</b><b class='flag-5'>树</b>的动态数据持有性证明方案

    基于KD和R的多维索引结构

    针对云存储系统大多基于键值对 key,value模型存储数据,多维查询需要对整个数据集进行完全扫描,查询效率较低的问题,提出了一种基于KD和R的多维索引结构(简称KD-R
    发表于 01-25 15:13 0次下载
    基于KD<b class='flag-5'>树</b>和R<b class='flag-5'>树</b>的多维<b class='flag-5'>索引</b><b class='flag-5'>结构</b>

    MySQL索引使用原则

    一般来说, MySQL 中的 B-Tree 索引的物理文件大多都是以 Balance Tree 的结构来存储的,也就是所有实际需要的数据都存放于 Tree 的 Leaf Node(叶子
    的头像 发表于 02-11 15:17 2715次阅读
    <b class='flag-5'>MySQL</b><b class='flag-5'>索引</b>使用原则

    MySQL索引的使用问题

    MySQL 在LIKE进行模糊匹配的时候又是如何利用索引的呢?3、MySQL 到底在怎么样的情况下能够利用索引进行排序?今天,我将会用一个模型,把这些问题都一一解答,让你对
    的头像 发表于 01-06 16:13 1602次阅读

    关于MySQL ORDER BY的详解

    回答一些常见的问题(下文仅讨论InnoDB存储引擎)。 2 索引扫描排序和文件排序(filesort)简介 我们知道InnoDB存储引擎以B+作为
    的头像 发表于 02-08 11:20 2462次阅读
    关于<b class='flag-5'>MySQL</b> ORDER BY的详解

    掌握这几种方法 你的接口查询速度将飞速提升

    很大时,大多慢查询可以用索引解决,大多慢查询也因为索引不合理而产生。 MySQL 索引基于 B+
    的头像 发表于 07-06 14:38 1813次阅读

    B+ 索引MySQL 中的认识

    概述 本质:数据库维护某种数据结构以某种方式引用(指向)数据 索引取舍原则:索引结构组织要尽量减少查找过程中磁盘I/O的存取次数 B
    的头像 发表于 11-08 11:11 1264次阅读
    对 <b class='flag-5'>B+</b> <b class='flag-5'>树</b>与<b class='flag-5'>索引</b>在 <b class='flag-5'>MySQL</b> 中的认识

    Mysql索引为什么使用B+

    比方说我们想要查找行数据5。会先从顶层页的record们入手。record里包含了主键id和页号(页地址)。关注黄色的箭头,向左最小id是1,向右最小id是7。那id=5的数据如果存在,那必定在左边箭头。于是顺着的record的页地址就到了6号数据页里,再判断id=5>4,所以肯定在右边的数据页里,于是加载105号数据页。
    的头像 发表于 06-08 16:34 694次阅读
    <b class='flag-5'>Mysql</b><b class='flag-5'>索引</b>为什么使用<b class='flag-5'>B+</b><b class='flag-5'>树</b>?

    MySQL高级进阶:索引优化

    MySQL官方对于索引的定义:索引是帮助MySQL高效获取数据的数据结构
    的头像 发表于 06-11 11:13 568次阅读
    <b class='flag-5'>MySQL</b>高级进阶:<b class='flag-5'>索引</b>优化

    id的机制不同在mysql索引结构以及优缺点

    1.4.效率测试结果 二、使用uuid和自增id的索引结构对比 2.1.使用自增id的内部结构 2.2.使用uuid的索引内部结构 2.3
    的头像 发表于 06-30 10:19 802次阅读
    id的机制不同在<b class='flag-5'>mysql</b>的<b class='flag-5'>索引</b><b class='flag-5'>结构</b>以及优缺点

    MySQL索引的常用知识点

    索引结构B+ 索引其实是一种数据结构 注意B+
    的头像 发表于 09-30 16:43 455次阅读

    索引是什么意思 优缺点有哪些

    的数据结构,以协助快速查询、更新数据库表中数据。索引的实现通常使用B及其变种B+。更通俗的说
    的头像 发表于 10-09 10:19 2917次阅读

    一文了解MySQL索引机制

    的呢?一起静下心来,耐心看完这篇文章吧,干货不啰嗦,相信你一定会有所收获。 一、索引模型 模型也就是数据结构,常见的三种模型分别是哈希表、有序数组和搜索。 了解MySQL的朋友已经知
    的头像 发表于 07-25 14:05 283次阅读
    一文了解<b class='flag-5'>MySQL</b><b class='flag-5'>索引</b>机制