2024-02-23碼農

事情是這樣的

下面是我朋友的面試記錄：

面試官：講一下你實習做了什麽。

朋友：我在實習期間做了一個儲存使用者操作記錄的功能，主要是從MQ獲取上遊服務發送過來的使用者操作資訊，然後把這些資訊存到MySQL裏面，提供給數倉的同事使用。由於數據量比較大，每天大概有四五千多萬條，所以我還給它做了分表的操作。每天定時生成3張表，然後將數據取模分別存到這三張表裏，防止表內數據過多導致查詢速度降低。

這表述，好像沒什麽問題是吧，別急，接著看：

面試官：那你為什麽要分三張表呢，兩張表不行嗎？四張表不行嗎？

朋友：因為MySQL每張表最好不超過2000萬條數據，否則會導致查詢速度降低，影響效能。我們每天的數據大概是在五千萬條左右，所以分成三張表比較穩妥。

面試官：還有嗎？

朋友：沒有了…… 你幹嘛，哎呦 ~

面試官：那你先回去等通知吧。

🤣🤣🤣講完了，看出什麽了嗎，你們覺得我這位朋友回答的有什麽問題嗎？

前言

很多人說，MySQL每張表最好不要超過2000萬條數據，否則就會導致效能下降。阿裏的Java開發手冊上也提出：單表行數超過 500 萬行或者單表容量超過 2GB， 才推薦 進行分庫分表。

但實際上，這個2000萬或者500萬都只是一個大概的數位，並不適用於所有場景，如果盲目的以為表數據只要不超過2000萬條就沒問題了，很可能會導致系統的效能大幅下降。

實際情況下，每張表由於自身的欄位不同、欄位所占用的空間不同等原因，它們在最佳效能下可以存放的數據量也就不同。

那麽，該如何計算出每張表適合的數據量呢？別急，慢慢往下看。

本文適合的讀者

閱讀本文你需要有一定的MySQL基礎，最好對InnoDB和B+樹都有一定的了解，可能需要有一年以上的MySQL學習經驗（大概一年？），知道「InnoDB中B+樹的高度一般保持在三層以內會比較好」這條理論知識。

本文主要是針對「InnoDB中高度為3的B+樹最多可以存多少數據」這一話題進行講解的 。且本文對數據的計算比較嚴格（至少比網上95%以上的相關博文都要嚴格），如果你比較在意這些細節並且目前不太清楚的話，請繼續往下閱讀。

閱讀本文你大概需要花費10-20分鐘的時間，如果你在閱讀的過程中對數據進行驗算的話，可能要花費30分鐘左右。

本文思維導圖

基礎知識快速回顧

眾所周知，MySQL中InnoDB的儲存結構是B+樹，B+樹大家都熟悉吧？特性大概有以下幾點，一起快速回顧一下吧！

* 註：下面這這些內容都是精華，看不懂或者不理解的同學建議先收藏本文，之後有知識基礎了再回來看。 *🤣🤣

一張數據表一般對應一顆或多顆樹的儲存，樹的數量與建索引的數量有關，每個索引都會有一顆單獨的樹。
聚簇索引和非聚簇索引：
主鍵索引也是聚簇索引，非主鍵索引都是非聚簇索引， 兩種索引的非葉子節點都是只存索引數據的 ，比如索引為id，那非葉子節點就只存id的數據。
葉子節點的區別如下：

聚簇索引的葉子節點存的是這條數據的 所有欄位資訊 。所以我們 select * from table where id = 1 的時候，都是要去葉子節點拿數據的。

非聚簇索引的葉子節點存的是這條數據所對應的 主鍵和索引列 資訊。比如這條非聚簇索引是username，然後表的主鍵是id，那該非聚簇索引的葉子節點存的就是 username 和 id，而不存其他欄位。相當於是先從非聚簇索引查到主鍵的值，再根據主鍵索引去查數據內容，一般情況下要查兩次（除非索引覆蓋），這也稱之為* 回表 *，就有點類似於存了個指標，指向了數據存放的真實地址。

B+樹的查詢是從上往下一層層查詢的，一般情況下我們認為B+樹的高度保持在3層是比較好的，也就是上兩層是索引，最後一層存數據，這樣查表的時候只需要進行3次磁盤IO就可以了(實際上會少一次，因為根節點會常駐記憶體)。如果數據量過大，導致B+數變成4層了，則每次查詢就需要進行4次磁盤IO了，從而使效能下降。 所以我們才會去計算InnoDB的3層B+樹最多可以存多少條數據。

MySQL每個節點大小預設為16KB，也就是每個節點最多存16KB的數據，可以修改，最大64KB，最小4KB。

擴充套件：那如果某一行的數據特別大，超過了節點的大小怎麽辦？

MySQL5.7文件的解釋是：

文件地址：https://dev.mysql.com/doc/refman/5.7/en/innodb-file-space.html ‍

對於 4KB、8KB、16KB 和 32KB設定，最大行長度略小於資料庫頁面的一半，例如：對於預設的 16KB頁大小，最大行長度略小於 8KB 。

而對於 64KB 頁面，最大行則長度略小於 16KB。

如果行超過最大行長度，則將可變長度列用外部頁儲存，直到該行符合最大行長度限制。 就是說把varchar、text這種長度可變的存到外部頁中，來減小這一行的數據長度。

MySQL查詢速度主要取決於磁盤的讀寫速度，因為MySQL查詢的時候每次唯讀取一個節點到記憶體中，透過這個節點的數據找到下一個要讀取的節點位置，再讀取下一個節點的數據，直到查詢到需要的數據或者發現數據不存在。

肯定有人要問了，每個節點內的數據難道不用查詢嗎？這裏的耗時怎麽不計算？

這是因為讀取完整個節點的數據後，會存到記憶體當中，在記憶體中查詢節點數據的耗時其實是很短的，再配合MySQL的查詢方式，時間復雜度差不多為，相比磁盤IO來說，可以忽略不計。

MySQL B+樹每個節點都存裏些什麽？

在Innodb的B+樹中，我們常說的節點被稱之為 **頁(page)**，每個頁當中儲存了使用者數據，所有的頁合在一起組成了一顆B+樹（當然實際會復雜很多，但我們只是要計算可以存多少條數據，所以姑且可以這麽理解😅）。

頁是InnoDB儲存引擎管理資料庫的最小磁盤單位，我們常說每個節點16KB，其實就是指每頁的大小為16KB。

這16KB的空間，裏面需要儲存 頁格式 資訊和 行格式 資訊，其中行格式資訊當中又包含一些後設資料和使用者數據。所以我們在計算的時候，要把這些數據的都計算在內。

頁格式

每一頁的基本格式，也就是每一頁都會包含的一些資訊，總結表格如下：

名稱	空間	含義和作用等
`File Header`	38字節	檔頭，用來記錄頁的一些頭資訊。包括校驗和、頁號、前後節點的兩個指標、頁的型別、表空間等。
`Page Header`	56字節	頁頭，用來記錄頁的狀態資訊。包括頁目錄的槽數、空閑空間的地址、本頁的記錄數、已刪除的記錄所占用的字節數等。
`Infimum & supremum`	26字節	用來限定當前頁記錄的邊界值，包含一個最小值和一個最大值。
`User Records`	不固定	使用者記錄，我們插入的數據就儲存在這裏。
`Free Space`	不固定	空閑空間，使用者記錄增加的時候從這裏取空間。
`Page Directort`	不固定	頁目錄，用來儲存頁當中使用者數據的位置資訊。每個槽會放4-8條使用者數據的位置，一個槽占用1-2個字節，當一個槽位超過8條數據的時候會自動分成兩個槽。
`File Trailer`	8字節	檔結尾資訊，主要是用來校驗頁面完整性的。

示意圖：

頁格式這塊的內容，我在官網翻了好久，硬是沒找到🤧。。。。不知道是沒寫還是我眼瞎，有找到的朋友希望可以在評論區幫我掛出來😋。

所以上面頁格式的表格內容主要是基於一些部落格中學習總結的。

另外，當新記錄插入到 InnoDB 聚集索引中時，InnoDB 會嘗試留出 1/16 的頁面空閑以供將來插入和更新索引記錄。如果按順序（升序或降序）插入索引記錄，則生成的頁大約可用 15/16 的空間。如果以隨機順序插入記錄，則頁大約可用 1/2 到 15/16 的空間。參考文件：https://dev.mysql.com/doc/refman/5.7/en/innodb-physical-structure.html

除了 User Records 和 Free Space 以外所占用的記憶體是字節，每一頁留給使用者數據的空間就還剩字節（保留了1/16）。

當然，這是最小值，因為我們沒有考慮頁目錄。頁目錄留在後面根據再去考慮，這個得根據表欄位來計算。

行格式

首先，我覺得有必要提一嘴，MySQL5.6的預設行格式為COMPACT(緊湊)，5.7及以後的預設行格式為DYNAMIC(動態)，不同的行格式儲存的方式也是有區別的，還有其他的兩種行格式，本文後續的內容主要是基於DYNAMIC(動態)進行講解的。

官方文件連結：https://dev.mysql.com/doc/refman/5.7/en/innodb-row-format.html#innodb-compact-row-format-characteristics（包括下面的行格式內容大都可以在裏面找到）

每行記錄都包含以下這些資訊，其中大都是可以從官方文件當中找到的。我這裏寫的不是特別詳細，僅寫了一些能夠我們計算空間的知識，更詳細內容可以去網上搜尋「MySQL 行格式」。

名稱	空間	含義和作用等
行記錄頭資訊	5字節	行記錄的檔頭資訊包含了一些標誌位、數據型別等資訊如：刪除標誌、最小記錄標誌、排序記錄、數據型別、頁中下一條記錄的位置等
可變長度欄位列表	不固定	來保存那些可變長度的欄位占用的字節數，比如varchar、text、blob等。若變長欄位的長度小於 255字節，就用 `1字節` 表示；若大於 255字節，用 `2字節` 表示。表欄位中有幾個可變長欄位該列表中就有幾個值，如果沒有就不存。
null值列表	不固定	用來儲存可以為null的欄位是否為null。每個可為null的欄位在這裏占用一個bit，就是bitmap的思想。該列表占用的空間是以字節為單位增長的，例如，如果有 9 到 16 個可以為null的列，則使用兩個字節，沒有占用1.5字節這種情況。
事務ID和指標欄位	6+7字節	了解MVCC的朋友應該都知道，數據行中包含了一個6字節的事務ID和一個7字節的回滾指標。如果沒有定義主鍵，則還會多一個6字節的行ID欄位當然我們都有主鍵，所以這個行ID我們不計算。
實際數據	不固定	這部份就是我們真實的數據了。

示意圖：

另外還有幾點需要註意：

溢位頁（外部頁）的儲存

註意：這一點是DYNAMIC的特性。

當使用 DYNAMIC 建立表時，InnoDB 會將較長的可變長度列（比如 VARCHAR、VARBINARY、BLOB 和 TEXT 型別）的值剝離出來，儲存到一個 溢位頁 上，只在該列上保留一個 20 字節的指標指向溢位頁。

而 COMPACT 行格式（MySQL5.6預設格式）則是將前 768 個字節和 20 字節的指標儲存在 B+ 樹節點的記錄中，其余部份儲存在溢位頁上。

列是否儲存在頁外取決於頁大小和行的總大小。當一行太長時，選擇最長的列進行頁外儲存，直到聚集索引記錄適合 B+ 樹頁（文件裏沒說具體是多少😅）。小於或等於 40 字節的 TEXT 和 BLOB 直接儲存在行內，不會分頁。

優點

DYNAMIC 行格式避免了用大量數據填充 B+ 樹節點從而導致長列的問題。

DYNAMIC 行格式的想法是，如果長數據值的一部份儲存在頁外，則通常將整個值儲存在頁外是最有效的。

使用 DYNAMIC 格式，較短的列會盡可能保留在 B+ 樹節點中，從而最大限度地減少給定行所需的溢位頁數。

字元編碼不同情況下的儲存

char 、varchar、text 等需要設定字元編碼的型別，在計算所占用空間時，需要考慮不同編碼所占用的空間。

varchar、text等型別會有長度欄位列表來記錄他們所占用的長度，但char是固定長度的型別，情況比較特殊，假設欄位 name 的型別為 char(10) ，則有以下情況：

對於長度固定的字元編碼（比如ASCII碼），欄位 name 將以固定長度格式儲存，ASCII碼每個字元占一個字節，那 name 就是占用 10 個字節。

對於長度不固定的字元編碼（比如utf8mb4），至少將為 name 保留 10 個字節。如果可以，InnoDB會透過修剪尾部空格空間的方式來將其存到 10 個字節中。

如果空格剪完了還存不下，則將尾隨空格修剪為 列值字節長度的最小值 （一般是 1 字節）。

列的最大長度為：，比如 name 欄位的編碼為 utf8mb4，那就是。

大於或等於 768 字節的 char 列會被看成是可變長度欄位（就像varchar一樣），可以跨頁儲存。例如，utf8mb4 字元集的最大字節長度為 4，則 char(255) 列將可能會超過 768 個字節，進行跨頁儲存。

說實話對char的這個設計我是不太理解的，盡管看了很久，包括官方文件和一些部落格🤧，希望懂的同學可以在評論區解惑：

對於長度不固定的字元編碼這塊，char是不是有點像是一個長度可變的型別了？我們常用的 utf8mb4，占用為 1 ~ 4 字節，那麽 char(10) 所占用的空間就是 10 ~ 40 字節，這個變化還是挺大的啊，但是它並沒有留足夠的空間給它，也沒有使用可變長度欄位列表去記錄char欄位的空間占用情況，就很特殊？

開始計算

好了，我們已經知道每一頁當中具體儲存的東西了，現在我們已經具備計算能力了。

由於頁的剩余空間我已經在上面頁格式的地方計算過了，每頁會剩余 15232 字節可用，下面我們直接計算行。

非葉子節點計算

單個節點計算

索引頁就是存索引的節點，也就是非葉子節點。

每一條索引記錄當中都包含了 當前索引的值 、 一個 6字節的指標資訊 、 一個 5 字節的行檔頭 ，用來指向下一層數據頁的指標。

索引記錄當中的指標占用空間我沒在官方文件裏找到，這個 6 字節是我參考其他博文的，他們說源碼裏寫的是6字節，這點我並未求證。

假設我們的主鍵id為 bigint 型，也就是8個字節，那索引頁中每行數據占用的空間就等於字節。每頁可以存條索引數據。

那算上頁目錄的話，按每個槽平均6條數據計算的話，至少有個槽，需要占用 268 字節的空間。

把存數據的空間分一點給槽的話，我算出來大約可以存 787 條索引數據。

如果是主鍵是 int 型的話，那可以存更多，大約有 993 條索引數據。

前兩層非葉子節點計算

在 B+ 樹當中，當一個節點索引記錄為條時，它就會有個子節點。由於我們 3 層B+樹的前兩層都是索引記錄，第一層根節點有條索引記錄，那第二層就會有個節點，每個節點數據型別與根節點一致，仍然可以再存條記錄，第三層的節點個數就會等於。

則有：

主鍵為 bigint 的表可以存放個葉子節點

主鍵為 int 的表可以存放個葉子節點

OK計算完畢。

數據條數計算

最少存放記錄數

前面我們提到， 最大行長度略小於資料庫頁面的一半 ，之所以是略小於一半，是由於每個頁面還留了點空間給 頁格式 的其他內容，所以我們可以認為每個頁面最少能放兩條數據，每條數據略小於8KB。如果某行的數據長度超過這個值，那InnoDB肯定會分一些數據到 溢位頁 當中去了，所以我們不考慮。

那每條數據8KB的話，每個葉子節點就只能存放 2 條數據，這樣的一張表，在主鍵為 bigint 的情況下，只能存放條數據，也就是一百二十多萬條，這個數據量，沒想到吧🤣🤣。

較多的存放記錄數

假設我們的表是這樣的：

-- 這是一張非常普通的課程安排表，除id外，僅包含了課程id和老師id兩個欄位，且這兩個欄位均為 int 型（當然實際生產中不會這麽設計表，這裏只是舉例）。 CREATETABLE`course_schedule` ( `id`intNOTNULL, `teacher_id`intNOTNULL, `course_id`intNOTNULL, PRIMARY KEY (`id`) USING BTREE ) ENGINE=InnoDBDEFAULTCHARSET=utf8;

先來分析一下這張表的行數據：無null值列表，無可變長欄位列表，需要算上事務ID和指標欄位，需要算上行記錄頭，那麽每行數據所占用的空間就是 $4 + 4 + 4 + 6 + 7 + 5 = 30$ 字節，每個葉子節點可以存放 $15232 \div 30 \approx 507$ 條數據。

算上頁目錄的槽位所占空間，每個葉子節點可以存放 502 條數據，那麽三層B+樹可以存放的最大數據量就是，將近5億條數據！沒想到吧🤡😏。

常規表的存放記錄數

大部份情況下我們的表欄位都不是上面那樣的，所以我選擇了一場比較常規的表來進行分析，看看能存放多少數據。表情況如下：

CREATETABLE`blog` ( `id`bigintunsignedNOTNULL AUTO_INCREMENT COMMENT'部落格id', `author_id`bigintunsignedNOTNULLCOMMENT'作者id', `title`varchar(50) CHARACTERSET utf8mb4 NOTNULLCOMMENT'標題', `description`varchar(250) CHARACTERSET utf8mb4 NOTNULLCOMMENT'描述', `school_code`bigintunsignedDEFAULTNULLCOMMENT'院校程式碼', `cover_image`char(32) DEFAULTNULLCOMMENT'封面圖', `create_time` datetime NOTNULLDEFAULTCURRENT_TIMESTAMPCOMMENT'建立時間', `release_time` datetime DEFAULTNULLCOMMENT'首次發表時間', `modified_time` datetime NOTNULLDEFAULTCURRENT_TIMESTAMPONUPDATECURRENT_TIMESTAMPCOMMENT'修改時間', `status`tinyintunsignedNOTNULLCOMMENT'發表狀態', `is_delete`tinyintunsignedNOTNULLDEFAULT0, PRIMARY KEY (`id`), KEY`author_id` (`author_id`), KEY`school_code` (`school_code`) USING BTREE ) ENGINE=InnoDB AUTO_INCREMENT=1DEFAULTCHARSET=utf8 COLLATE=utf8_general_mysql500_ci ROW_FORMAT=DYNAMIC;

這是我的開源計畫「校園部落格」（GitHub地址：https://github.com/stick-i/scblogs）中的部落格表，用於存放部落格的基本數據。

分析一下這張表的行格式：

行記錄頭資訊：肯定得有，占用5字節。
可變長度欄位列表：表中 title 占用1字節， description 占用2字節，共3字節。
null值列表：表中僅 school_code 、 cover_image 、 release_time 3個欄位可為null，故僅占用1字節。
事務ID和指標欄位：兩個都得有，占用13字節。
欄位內容資訊：

id、author_id、school_code 均為bigint型，各占用8字節，共24字節。
create_time、release_time、modified_time 均為datetime型別，各占8字節，共24字節。
status、is_delete 為tinyint型別，各占用1字節，共2字節。
cover_image 為char(32)，字元編碼為表預設值utf8，由於該欄位實際存的內容僅為英文字母（存url的），結合前面講的 字元編碼不同情況下的儲存 ，故僅占用32字節。
title、description 分別為varchar(50)、varchar(250)，這兩個應該都不會產生溢位頁（不太確定），字元編碼均為utf8mb4，實際生產中70%以上都是存的中文(3字節)，25%為英文(1字節)，還有5%為4字節的表情😁，則存滿的情況下將占用字節。

統計上面的所有分析，共占用 869 字節，則每個葉子節點可以存放條，算上頁目錄，仍然能放 17 條。

則三層B+樹可以存放的最大數據量就是，約一千萬條數據，再次沒想到吧👴。