0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

MySQL单表数据量限制:为何2000万行成为瓶颈?

马哥Linux运维 来源:cnblogs 2024-02-27 10:38 次阅读

最近看到一篇《我说MySQL每张表最好不要超过2000万数据,面试官让我回去等通知》的文章,非常有趣。

文中提到,他朋友在面试的过程中说,自己的工作就是把用户操作信息存到MySQL里,因为数据量超大(5000万条左右),需要每天定时生成3张表,然后将数据取模分别存到这三张表里。

下面是两人的对话:

面试后续暂且不论,不过,互联网江湖上的确流传着一个说法:单表数据量超过500万行时就要进行分表分库,已经超过2000万行时MySQL的性能就会急剧下降。

那么,MySQL一张表最多能存多少数据?

今天我们就从技术层面剖析一下,MySQL单表数据不能过大的根本原因是什么?

猜想一:是索引深度吗?

很多人认为:数据量超过500万行或2000万行时,引起B+tree的高度增加,延长了索引的搜索路径,进而导致了性能下降。事实果真如此吗?

我们先理一下关系,MySQL采用了索引组织表的形式组织数据,叶子节点存储数据,非叶子节点存储主键与页面号的映射关系。若用户的主键长度是8字节时,MySQL中页面偏移占4个字节,在非叶子节点的时候实际上是8+4=12个字节,12个字节表示一个页面的映射关系。

MySQL默认是16K的页面,抛开它的配置header,大概就是15K,因此,非叶子节点的索引页面可放15*1024/12=1280条数据,按照每行1K计算,每个叶子节点可以存15条数据。同理,三层就是15*1280*1280=24576000条数据。只有数据量达到24576000条时,深度才会增加为4,所以,索引深度没有那么容易增加,详细数据可参考下表:

a548a84e-d488-11ee-a297-92fbcf53809c.jpg

搜索路径延长导致性能下降的说法,与当时的机械硬盘和内存条件不无关系。

之前机械硬盘的IOPS在100左右,而现在普遍使用的SSD的IOPS已经过万,之前的内存最大几十G,现在服务器内存最大可达到TB级。

因此,即使深度增加,以目前的硬件资源,IO也不会成为限制MySQL单表数据量的根本性因素。

那么,限制MySQL单表不能过大的根本性因素是什么?

猜想二:是SMO无法并发吗?

我们可以尝试从MySQL所采用的存储引擎InnoDB本身来探究一下。

大家知道InnoDB引擎使用的是索引组织表,它是通过索引来组织数据的,而它采用B+tree作为索引的数据结构。

B+Tree操作非原子,所以当一个线程做结构调整(SMO,Struction-Modification-Operation)时一般会涉及多个节点的改动。

SMO动作过程中,此时若有另一个线程进来可能会访问到错误的B+Tree结构,InnoDB为了解决这个问题采用了乐观锁和悲观锁的并发控制协议。

InnoDB对于叶子节点的修改操作如下:

方式一,先采用乐观锁的方式尝试进行修改

对根节点加S锁(shared lock,叫共享锁,也称读锁),依次对非叶子节点加S锁。

如果叶子节点的修改不会引起B+Tree结构变动,如分裂、合并等操作,那么只需要对叶子节点进行加X锁(exclusive lock,叫排他锁,也称为写锁)即可完成修改。如下图中所示 :

a56208de-d488-11ee-a297-92fbcf53809c.png

方式二,采用悲观锁的方式

如果对叶子结点的修改会触发SMO,那么会采用悲观锁的方式。

采用悲观锁,需要重新遍历B+Tree,对根节点加全局SX锁(SX锁是行锁),然后从根节点到叶子节点可能修改的节点加X锁。

在整个SMO过程中,根节点始终持有SX锁(SX锁表示有意向修改这个保护的范围,SX锁与SX锁、X锁冲突,与S锁不冲突),此时其他的SMO则需要等待。

a5770ab8-d488-11ee-a297-92fbcf53809c.png

因此,InnoDB对于简单的主键查询比较快,因为数据都存储在叶子节点中,但对于数据量大且改操作比较多的TP型业务,并发会有很严重的瓶颈问题。

在对叶子节点的修改操作中,InnoDB可以实现较好的1与1、1与2的并发,但是无法解决2的并发。因为在方式2中,根节点始终持有SX锁,必须串行执行,等待上一个SMO操作完成。这样在具有大量的SMO操作时,InnoDB的B+Tree实现就会出现很严重的性能瓶颈。

解决方案

目前业界有一个更好的方案B-Link Tree,与B+Tree相比,B-Link Tree优化了B+Tree结构调整时的锁粒度,只需要逐层加锁,无需对root节点加全局锁。因此,可以做到在SMO过程中写操作的并发执行,保持高并发下性能的稳定。

B-Link Tree主要改进点有2个:

1.中间节点增加link指针,指向右兄弟节点;

2.每个节点内增加字段high key,存储该节点中最大的key值。

新增的link指针是为了解决SMO过程中并发写的问题,在SMO过程中,B-Link Tree对修改节点逐层加锁,修改完一层即可放锁,然后去加上一层节点的锁继续修改。这样在InnoDB引擎中被SMO阻塞的写操作可以有机会在SMO操作过程中并发进行。

如下图所示,在节点2分裂为节点2和4的过程中,只需要在最后一步将父节点1指向新节点4时,对父节点1加锁,其他操作均无需对父节点加锁,更无需对root节点加锁,因此,大大提升了SMO过程中写操作的并发度。

a58a7ee0-d488-11ee-a297-92fbcf53809c.png

由此可见,与B+Tree全局加锁对比,B-Link Tree在高并发操作下的性能是显著优于B+Tree的。GaussDB当前采用的就是B-Link Tree索引数据结构。

InnoDB的索引组织表更容易触发SMO

索引组织表的叶子节点,存储主键以及应对行的数据,InnoDB默认页面为16K,若每行数据的大小为1000字节,每个叶子节点仅能存储16行数据。

在索引组织表中,当叶子节点的扇出值过低时,SMO的触发将更加频繁,进而放大了SMO无法并发写的缺陷。

目前业界有一个堆组织表的数据组织方案,也是华为云数据库GaussDB采用的方案。它的叶子节点存储索引键以及对应的行指针(所在的页面编号及页内偏移),堆组织表叶子节点可以存更多的数据,分析可得在同样的数据量与业务并发量下,堆组织表会比索引组织表发生SMO概率低许多。

性能对比

在8U32G的两台服务器分别搭建了MySQL(B+Tree和索引组织表)与GaussDB(B-Link Tree和堆组织表)的环境,进行了如下性能验证:

实验场景:在基础表的场景上,测试增量随机插入性能。

1.基础表总大小10G,包含主键随机分布的1000w行数据,每行数据1k;

2.插入主键随机分布的1000w行数据,每行数据大小1k,测试并发插入性能。

结论:随着并发数的上升,GaussDB能稳步提升系统的TPS,而MySQL并发数的提高并不能带来TPS的显著提升。

a59785ea-d488-11ee-a297-92fbcf53809c.jpg

综上所述,MySQL无法支持大数据量下并发修改的根本原因,是由于其索引并发控制协议的缺陷造成的,而MySQL选择索引组织表,又放大了这一缺陷。所以,开源MySQL数据库更适用于主键查询为主的简单业务场景,如互联网类应用,对于复杂的商业场景限制比较明显。

相比之下 ,采用B-Link Tree和堆组织表的GaussDB数据库在性能和场景应用方面更胜一筹。

审核编辑:黄飞

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 服务器
    +关注

    关注

    12

    文章

    9010

    浏览量

    85160
  • 数据库
    +关注

    关注

    7

    文章

    3759

    浏览量

    64265
  • 指针
    +关注

    关注

    1

    文章

    479

    浏览量

    70506
  • MySQL
    +关注

    关注

    1

    文章

    801

    浏览量

    26433

原文标题:为什么MySQL单表不能超过2000万行?

文章出处:【微信号:magedu-Linux,微信公众号:马哥Linux运维】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    谁说MySQL行数不要超过2000W?

    网上看了一篇文章《为什么说MySQL行数不要超过2000w》,亲自实践了一下,跟原作者有不同的结论。原文的结论是2000W左右性能会成指
    的头像 发表于 12-15 10:02 990次阅读
    谁说<b class='flag-5'>MySQL</b><b class='flag-5'>单</b><b class='flag-5'>表</b>行数不要超过<b class='flag-5'>2000</b>W?

    MySQL分区类型及介绍

    分区是将一个数据按照一定规则水平划分成不同的逻辑块,并分别进行物理存储,这个规则就叫做分区函数,可以有不同的分区规则。通过show plugins语句查看当前MySQL是否支持
    发表于 06-29 16:31

    谈分布式数据库中间件之分库分   

    读写分离策略,也可以很好的解决性能问题。    数据量在1000以上的,建议分片。将数据
    发表于 08-02 20:19

    800万行代码的鸿蒙系统,在世界上处于什么水平?

    “800万行的代码量,让鸿蒙一跃成为人类有史以来第4大代码量的移动操作系统。要知道当前2.0版本仅包含大屏、手表和车机系统,等到今年12 月手机系统发布后,鸿蒙系统的代码量估计可超过1000万行。而这么庞大的工作量,华为仅用2年
    发表于 09-29 16:04

    【HarmonyOS】800万行代码的鸿蒙系统,在世界上处于什么水平?

    互联网服务加起来,更是达到了惊人的200亿!注:以上数据,应该是没有将我国的软件/系统统计入内。800万行的代码量,让鸿蒙系统2.0版本一跃成为人类有史以来第4大代码量的移动操作系统
    发表于 10-27 10:25

    RoHS金属物质含量限制参考

    RoHS金属物质含量限制参考:RoHS 六大類有害物質含量標準物質名稱 用途與適用條件 零件允許 PPM 值 零件禁 止含有 期限試用法規 測試方法包裝材料(紙箱,緩衝材,PE 袋,膠
    发表于 08-12 10:05 56次下载

    量限制

    量限制器 IC1连接成倒相
    发表于 09-08 16:51 853次阅读
    音<b class='flag-5'>量限制</b>器

    基于Power图求解容量限制P种植问题建模

    针对稠密需求下连续域上的容量P一中值问题,提出基于质心的容量限制Power图(CCCPD)理论,对连续P一中值问题进行近似建模,并加快计算过程。扩展Balzer试位法构造Power图,施加质心限制
    发表于 01-09 19:22 0次下载

    阿里巴巴推出每秒撰写2万行广告文案的AI新工具

    北京时间7月5日下午消息,中国电子商务巨头阿里巴巴发布一项人工智能工具,可以每秒写入2万行广告文案。
    的头像 发表于 07-07 10:48 3026次阅读

    B+树索引如何对Mysql数据量造成影响

    我们说 Mysql 适合存储的最大数据量,自然不是说能够存储的最大数据量,如果是说能够存储的最大量,那么,如果你使用自增 ID,最大就可
    的头像 发表于 04-16 08:08 1581次阅读
    B+树索引如何对<b class='flag-5'>Mysql</b><b class='flag-5'>单</b><b class='flag-5'>表</b><b class='flag-5'>数据量</b>造成影响

    涛思数据开源TDengine,10多万行C代码,登顶GitHub!

    7月12日,涛思数据宣布将TDengine开源,10多万行C代码,包括最核心的存储引擎和计算引擎都上传到了GitHub上。
    的头像 发表于 07-31 16:07 1.3w次阅读

    MySQL数据最大不要超过多少

      1、背景 2、实验 3、量限制 4、空间 5、页的数据结构 6、索引的数据结构 7、
    的头像 发表于 06-02 15:30 591次阅读
    <b class='flag-5'>MySQL</b><b class='flag-5'>单</b><b class='flag-5'>表</b><b class='flag-5'>数据</b>最大不要超过多少<b class='flag-5'>行</b>

    为什么 MySQL 不能超过 2000 万行

    ,因为数据量超大(5000 条左右),需要每天定时生成 3 张,然后将数据取模分别存到这三张表里。 接下来是两人的对话: 面试后续暂且不论,不过,互联网江湖上的确流传着一个说法:
    的头像 发表于 06-29 16:48 670次阅读
    为什么 <b class='flag-5'>MySQL</b> <b class='flag-5'>单</b><b class='flag-5'>表</b>不能超过 <b class='flag-5'>2000</b> <b class='flag-5'>万行</b>?

    mysql一个能存多少数据

    数据备份和还原、处理海量数据等功能,因此成为广泛应用的数据库管理系统。 当我们使用MySQL进行数据
    的头像 发表于 08-28 17:15 960次阅读

    如何提高Mysql数据库的访问瓶颈

    为了提高Mysql数据库的访问瓶颈,常用的方法有如下两个: 在服务器端增加缓存服务器缓存常用的数据(例如redis) 增加连接池,来提高MYsql
    的头像 发表于 11-08 16:22 1000次阅读
    如何提高<b class='flag-5'>Mysql</b><b class='flag-5'>数据</b>库的访问<b class='flag-5'>瓶颈</b>