MySQL单表数据最大不要超过多少行？为什么？-电子发烧友网

故事从好多年前说起。

想必大家也听说过数据库单表建议最大2kw 条数据这个说法。如果超过了，性能就会下降得比较厉害。

巧了。

我也听说过。

但我不接受它的建议，硬是单表装了1亿条数据。

这时候，我们组里新来的实习生看到了之后，天真无邪的问我："单表不是建议最大两千万吗？为什么这个表都放了1个亿还不分库分表 "？

我能说我是因为懒 吗？我当初设计时哪里想到这表竟然能涨这么快。。。

我不能。

说了等于承认自己是开发组里的毒瘤 ，虽然我确实是，但我不能承认 。

我如坐针毡，如芒刺背，如鲠在喉。

开始了一波骚操作。

"我这么做是有道理的"

"虽然这个表很大，但你有没有发现它查询其实还是很快"

"这个2kw是个建议值，我们要来看下这个2kw是怎么来的"

数据库单表行数最大多大？

我们先看下单表行数理论最大值是多少。

建表的SQL是这么写的，

CREATETABLE`user`(
`id`int(10)unsignedNOTNULLAUTO_INCREMENTCOMMENT'主键',
`name`varchar(100)NOTNULLDEFAULT''COMMENT'名字',
`age`int(11)NOTNULLDEFAULT'0'COMMENT'年龄',
PRIMARYKEY(`id`),
KEY`idx_age`(`age`)
)ENGINE=InnoDBAUTO_INCREMENT=100037DEFAULTCHARSET=utf8;

其中id就是主键。主键本身唯一，也就是说主键的大小可以限制表的上限。

如果主键声明为int大小，也就是32位，那么能支持2^32-1，也就是21个亿 左右。

如果是bigint，那就是2^64-1，但这个数字太大 ，一般还没到这个限制之前，磁盘先受不了 。

搞离谱点。

如果我把主键声明为 tinyint，一个字节，8位，最大2^8-1，也就是255。

CREATETABLE`user`(
`id`tinyint(2)unsignedNOTNULLAUTO_INCREMENTCOMMENT'主键',
`name`varchar(100)NOTNULLDEFAULT''COMMENT'名字',
`age`int(11)NOTNULLDEFAULT'0'COMMENT'年龄',
PRIMARYKEY(`id`),
KEY`idx_age`(`age`)
)ENGINE=InnoDBAUTO_INCREMENT=0DEFAULTCHARSET=utf8;

如果我想插入一个id=256的数据，那就会报错 。

mysql>INSERTINTO`tmp`(`id`,`name`,`age`)VALUES(256,'',60);
ERROR1264(22003):Outofrangevalueforcolumn'id'atrow1

也就是说，tinyint主键限制表内最多255条数据。

那除了主键，还有哪些因素会影响行数？

索引的结构

索引内部是用的B+树，这个也是八股文老股了，大家估计也背得很熟了。

为了不让大家有过于强烈的审丑疲劳，今天我尝试从另外一个角度给大家讲讲这玩意。

页的结构

假设我们有这么一张user数据表。

user表

其中id是唯一主键 。

这看起来的一行行数据，为了方便，我们后面就叫它们record 吧。

这张表看起来就跟个excel表格一样。excel的数据在硬盘上是一个xx.excel的文件。

而上面user表数据，在硬盘上其实也是类似，放在了user.ibd 文件下。含义是user表的innodb data文件，专业点，又叫表空间 。

虽然在数据表里，它们看起来是挨在一起的。但实际上在user.ibd里他们被分成很多小份的数据页 ，每份大小16k。

类似于下面这样。

ibd文件内部有大量的页

我们把视角聚焦一下，放到页上面。

整个页16k，不大，但record这么多，一页肯定放不下，所以会分开放到很多页里。并且这16k，也不可能全用来放record对吧。

因为record们被分成好多份，放到好多页里了，为了唯一标识具体是哪一页，那就需要引入页号（其实是一个表空间的地址偏移量）。同时为了把这些数据页给关联起来，于是引入了前后指针 ，用于指向前后的页。这些都被加到了页头里。

页是需要读写的，16k说小也不小，写一半电源线被拔了也是有可能发生的，所以为了保证数据页的正确性，还引入了校验码。这个被加到了页尾。

那剩下的空间，才是用来放我们的record的。而record如果行数特别多的话，进入到页内时挨个遍历，效率也不太行，所以为这些数据生成了一个页目录 ，具体实现细节不重要。只需要知道，它可以通过二分查找 的方式将查找效率从O(n) 变成O(lgn) 。

页结构

从页到索引

如果想查一条record，我们可以把表空间里每一页都捞出来，再把里面的record捞出来挨个判断是不是我们要找的。

行数量小的时候，这么操作也没啥问题。

行数量大了，性能就慢了 ，于是为了加速搜索，我们可以在每个数据页里选出主键id最小 的record，而且只需要它们的主键id和所在页的页号 。组成新的record ，放入到一个新生成的一个数据页中，这个新数据页跟之前的页结构没啥区别，而且大小还是16k。

但为了跟之前的数据页进行区分。数据页里加入了*页层级（page level）** 的信息，从0开始往上算。于是页与页之间就有了*上下层级的概念，就像下面这样。

两层B+树结构

突然页跟页之间看起来就像是一棵倒过来的树了。也就是我们常说的B+树 索引。

最下面那一层，page level 为0 ，也就是所谓的叶子结点 ，其余都叫非叶子结点 。

上面展示的是两层的树，如果数据变多了，我们还可以再通过类似的方法，再往上构建一层。就成了三层的树。

三层B+树结构

那现在我们就可以通过这样一棵B+树加速查询。举个例子。

比方说我们想要查找行数据5。会先从顶层页的record们入手。record里包含了主键id和页号（页地址） 。看下图黄色的箭头，向左最小id是1，向右最小id是7。那id=5的数据如果存在，那必定在左边箭头。于是顺着的record的页地址就到了6号数据页里，再判断id=5>4，所以肯定在右边的数据页里，于是加载105号数据页。在数据页里找到id=5的数据行，完成查询。

B+树查询过程

另外需要注意的是，上面的页的页号并不是连续的，它们在磁盘里也不一定是挨在一起的。

这个过程中查询了三个页，如果这三个页都在磁盘中（没有被提前加载到内存中），那么最多需要经历三次磁盘IO查询 ，它们才能被加载到内存中。

B+树承载的记录数量

从上面的结构里可以看出B+树的最末级叶子结点 里放了record数据。而非叶子结点 里则放了用来加速查询的索引数据。

也就是说

同样一个16k的页，非叶子节点里每一条数据都指向一个新的页，而新的页有两种可能。

如果是末级叶子节点的话，那么里面放的就是一行行record数据。

如果是非叶子节点，那么就会循环继续指向新的数据页。

假设

非叶子结点内指向其他内存页的指针数量为x

叶子节点内能容纳的record数量为y

B+树的层数为z

总行数的计算方法

那这棵B+树放的行数据总量 等于 (x ^ (z-1)) * y。

x怎么算

我们回去看数据页的结构。

页结构

非叶子节点里主要放索引查询相关的数据，放的是主键和指向页号。

主键假设是bigint（8Byte），而页号在源码里叫FIL_PAGE_OFFSET（4Byte），那么非叶子节点里的一条数据是12Byte左右。

整个数据页16k，页头页尾那部分数据全加起来大概128Byte，加上页目录毛估占1k吧。那剩下的15k 除以12Byte，等于1280，也就是可以指向x=1280页 。

我们常说的二叉树指的是一个结点可以发散出两个新的结点。m叉树一个节点能指向m个新的结点。这个指向新节点的操作就叫扇出（fanout） 。

而上面的B+树，它能指向1280个新的节点，恐怖如斯，可以说扇出非常高 了。

y的计算

叶子节点和非叶子节点的数据结构是一样的，所以也假设剩下15kb可以发挥。

叶子节点里放的是真正的行数据。假设一条行数据1kb，所以一页里能放y=15行 。

行总数计算

回到 (x ^ (z-1)) * y 这个公式。

已知x=1280，y=15。

假设B+树是两层，那z=2。则是(1280 ^ (2-1)) * 15 ≈ 2w

假设B+树是三层，那z=3。则是(1280 ^ (3-1)) * 15 ≈ 2.5kw

这个2.5kw，就是我们常说的单表建议最大行数2kw的由来。 毕竟再加一层，数据就大得有点离谱了。三层数据页对应最多三次磁盘IO，也比较合理。

行数超一亿就慢了吗？

上面假设单行数据用了1kb，所以一个数据页能放个15行数据。

如果我单行数据用不了这么多，比如只用了250byte。那么单个数据页能放60行数据。

那同样是三层B+树，单表支持的行数就是 (1280 ^ (3-1)) * 60 ≈ 1个亿。

你看我一个亿的数据，其实也就三层B+树，在这个B+树里要查到某行数据，最多也是三次磁盘IO。所以并不慢。

这就很好的解释了文章开头，为什么我单表1个亿，但查询性能没啥大毛病。

B树承载的记录数量

既然都聊到这里了，我们就顺着这个话题多聊一些吧。

我们都知道，现在mysql的索引都是B+树，而有一种树，跟B+树很像，叫B树，也叫B-树 。

它跟B+树最大的区别在于，B+树只在末级叶子结点处放数据表行数据，而B树则会在叶子和非叶子结点上都放。

于是，B树的结构就类似这样

B树结构

B树将行数据都存在非叶子节点上，假设每个数据页还是16kb，掐头去尾每页剩15kb，并且一条数据表行数据还是占1kb，就算不考虑各种页指针的情况下，也只能放个15条数据。数据页扇出明显变少了。

计算可承载的总行数的公式也变成了一个等比数列 。

15+15^2+15^3+...+15^z

其中z还是层数 的意思。

为了能放2kw左右的数据，需要z>=6。也就是树需要有6层，查一次要访问6个页。假设这6个页并不连续，为了查询其中一条数据，最坏情况需要进行6次磁盘IO 。

而B+树同样情况下放2kw数据左右，查一次最多是3次磁盘IO。

磁盘IO越多则越慢，这两者在性能上差距略大。

为此，B+树比B树更适合成为mysql的索引。

总结

B+树叶子和非叶子结点的数据页都是16k，且数据结构一致，区别在于叶子节点放的是真实的行数据，而非叶子结点放的是主键和下一个页的地址。

B+树一般有两到三层，由于其高扇出，三层就能支持2kw以上的数据，且一次查询最多1~3次磁盘IO，性能也还行。

存储同样量级的数据，B树比B+树层级更高，因此磁盘IO也更多，所以B+树更适合成为mysql索引。

索引结构不会影响单表最大行数，2kw也只是推荐值，超过了这个值可能会导致B+树层级更高，影响查询性能。

单表最大值还受主键大小和磁盘大小限制。

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

SQL

SQL

+关注

关注
1

文章
775

浏览量
44301
MySQL

MySQL

+关注

关注
1

文章
831

浏览量
26779

原文标题：阿里：MySQL 单表数据最大不要超过多少行？为什么？

文章出处：【微信号：芋道源码，微信公众号：芋道源码】欢迎添加关注！文章转载请注明出处。

谁说MySQL单表行数不要超过2000W？

网上看了一篇文章《为什么说MySQL单表行数不要超过2000w》，亲自实践了一下，跟原作者有不同的结论。原文的结论是2000W左右性能会成指

发表于 12-15 10:02 •1164次阅读

谁说<b class='flag-5'>MySQL</b><b class='flag-5'>单</b><b class='flag-5'>表</b>行数<b class='flag-5'>不要</b><b class='flag-5'>超过</b>2000W？

TAS5717的MCLK如果是12.288MHZ，这个频率的上下误差最大不能超过多少呢？

TAS5717的MCLK如果是12.288MHZ，这个频率的上下误差最大不能超过多少？

发表于 11-05 08:23

mysql中文参考手册chm

数据库表类型 10 从 MySQL 得到最大的性能 10.1 优化概述 10.2 系统/编译时和启动参数的调节 10.2.1 编译和链接如何影响 M

发表于 12-26 13:32

变压器的大小有效电流最大不会超过1A,这样的话功率不是达不到吗？

输入220v交流经整压滤波稳流后输出为24v5A，现在比较奇怪的是。在变压器部分降压之后的电压最大不会超过40v，看变压器的大小有效电流最大不会超过1A,这样的话功率不是达不到吗？？？

发表于 11-10 20:38

MySQL root密码忘记怎么办？

MySQL单实例1. 跳过授权表登录mysqld_safe --skip-grant-table --user=mysql &2. 更改密码mysq

发表于 06-22 17:54

MySQL表分区类型及介绍

表分区是将一个表的数据按照一定规则水平划分成不同的逻辑块，并分别进行物理存储，这个规则就叫做分区函数，可以有不同的分区规则。通过show plugins语句查看当前MySQL是否支持

发表于 06-29 16:31

请问TAS5717的MCLK是12.288MHZ那频率的上下误差最大不能超过多少？

TAS5717的MCLK如果是12.288MHZ，这个频率的上下误差最大不能超过多少？

发表于 08-06 10:49

如何利用labview获取MySQL数据库表中某一列的最大值

如题，想获取MySQL数据库表中的data7那一列的最大值，下面是程序框图一直报语法错误，但是该语句在mysql command line

发表于 12-06 21:37

mysql行转列如何操作

mysql 行转列操作

发表于 04-28 11:27

mysql数据导出golang实现

mysql数据导出为excel文件，golang实现：首先下载依赖到的三方库：Simple install the package to your $GOPATH

发表于 10-21 15:14

关于MySQL的基础知识简析

随机分配一个root密码，记住密码，安装完毕用root登录，但密码是过期状态，mysql默认情况下密码有效期是360天，需要重新改下，基础的概念数据库(database): 保存有组织的数据库。

发表于 11-03 11:50

B+树索引如何对Mysql单表数据量造成影响

我们说 Mysql 单表适合存储的最大数据量，自然不是说能够存储的最大数据量，如果是说能够存储的最大

发表于 04-16 08:08 •1650次阅读

MySQL单表数据最大不要超过多少行

单表最好不要超过 2000w”,“单表超过 200

发表于 06-02 15:30 •669次阅读

为什么 MySQL 单表不能超过 2000 万行？

，因为数据量超大（5000 万条左右），需要每天定时生成 3 张表，然后将数据取模分别存到这三张表里。接下来是两人的对话：面试后续暂且不论，不过，互联网江湖上的确流传着一个说法：单

发表于 06-29 16:48 •768次阅读

MySQL单表数据量限制：为何2000万行成为瓶颈？

很多人认为：数据量超过500万行或2000万行时，引起B+tree的高度增加，延长了索引的搜索路径，进而导致了性能下降。事实果真如此吗？

发表于 02-27 10:38 •6771次阅读