MySQL普通索引和唯一索引的深入講解

阿新 • • 發佈：2020-01-09

場景

1、維護一個市民系統，有一個欄位為身份證號

2、業務程式碼能保證不會寫入兩個重複的身份證號（如果業務無法保證，可以依賴資料庫的唯一索引來進行約束）

3、常用SQL查詢語句：SELECT name FROM CUser WHERE id_card = 'XXX'

4、建立索引

身份證號比較大，不建議設定為主鍵
從效能角度出發，選擇普通索引還是唯一索引？

假設欄位k上的值都不重複

查詢過程

1、查詢語句：SELECT id FROM T WHERE k=5

2、查詢過程

通過B+樹從樹根開始，按層搜尋到葉子節點，即上圖中右下角的資料頁
在資料頁內部通過二分法來定位具體的記錄

3、針對普通索引

查詢滿足條件的第一個記錄(5,500)，然後查詢下一個記錄，直到找到第一個不滿足k=5的記錄

4、針對唯一索引

由於索引定義了唯一性，查詢到第一個滿足條件的記錄後，就會停止繼續查詢

效能差異

1、效能差異：微乎其微

2、InnoDB的資料是按照資料頁為單位進行讀寫的，預設為16KB

3、當需要讀取一條記錄時，並不是將這個記錄本身從磁碟讀出來，而是以資料頁為單位進行讀取的

4、當找到k=5的記錄時，它所在的資料頁都已經在記憶體裡了

5、對於普通索引而言，只需要多一次指標尋找和多一次計算 – CPU消耗很低

如果k=5這個記錄恰好是所在資料頁的最後一個記錄，那麼如果要取下一個記錄，就需要讀取下一個資料頁

概率很低：對於整型欄位索引，一個數據頁（16KB，compact格式）可以存放大概745個值

change buffer

1、當需要更新一個數據頁時，如果資料頁在記憶體中就直接更新

2、如果這個資料頁不在記憶體中，在不影響資料一致性的前提下

InnoDB會將這些更新操作快取在change buffer
不需要從磁碟讀入這個資料頁（隨機讀）
在下次查詢需要訪問這個資料頁的時候，將資料頁讀入記憶體
然後執行change buffer中與這個資料頁有關的操作（merge）

3、change buffer是可以持久化的資料，在記憶體中有拷貝，也會被寫入到磁碟上

4、將更新操作先記錄在channge buffer，減少隨機讀磁碟，提升語句的執行速度

5、另外資料頁讀入記憶體需要佔用buffer pool，使用channge buffer能避免佔用記憶體，提高記憶體利用率

6、change buffer用到是buffer pool裡的記憶體，不能無限增大，控制引數innodb_change_buffer_max_size

# 預設25，最大50
mysql> SHOW VARIABLES LIKE '%innodb_change_buffer_max_size%';
+-------------------------------+-------+
| Variable_name   | Value |
+-------------------------------+-------+
| innodb_change_buffer_max_size | 25 |
+-------------------------------+-------+

merge

1、merge：將change buffer中的操作應用到原資料頁

2、merge的執行過程

從磁碟讀入資料頁到記憶體（老版本的資料頁）
從change buffer裡找出這個資料頁的change buffer記錄（可能多個）
然後依次執行，得到新版本的資料頁
寫入redolog，包含內容：資料頁的表更+change buffer的變更

3、merge執行完後，記憶體中的資料頁和change buffer所對應的磁碟頁都還沒修改，屬於髒頁

通過其他機制，髒頁會被重新整理到對應的物理磁碟頁

4、觸發時機

訪問這個資料頁
系統後臺執行緒定期merge
資料庫正常關閉

使用條件

1、對於唯一索引來說，所有的更新操作需要先判斷這個操作是否違反唯一性約束

2、唯一索引的更新無法使用change buffer，只有普通索引可以使用change buffer

主鍵也是無法使用change buffer的
例如要插入(4,400)，必須先判斷表中是否存在k=4的記錄，這個判斷的前提是將資料頁讀入記憶體
既然資料頁已經讀入到了記憶體，直接更新記憶體中的資料頁就好，無需再寫change buffer

使用場景

1、一個數據頁在merge之前，change buffer記錄關於這個資料頁的變更越多，收益越大

2、對於寫多讀少的業務，頁面在寫完後馬上被訪問的概率極低，此時change buffer的使用效果最好

例如賬單類、日誌類的系統

3、如果一個業務的更新模式為：寫入之後馬上會做查詢

雖然更新操作被記錄到change buffer，但之後馬上查詢，又會從磁碟讀取資料頁，觸發merge過程
沒有減少隨機讀，反而增加了維護change buffer的代價

更新過程

插入(4,400)

目標頁在記憶體中

對於唯一索引來說，找到3~5之間的位置，判斷沒有衝突，插入這個值
對於普通索引來說，找到3~5之間的位置，插入這個值
效能差異：微乎其微

目標頁不在記憶體中

1、對於唯一索引來說，需要將資料頁讀入記憶體，判斷沒有衝突，插入這個值

磁碟隨機讀，成本很高

對於普通索引來說，將更新操作記錄在change buffer即可

減少了磁碟隨機讀，效能提升明顯

索引選擇

1、普通索引與唯一索引，在查詢效能上並沒有太大差異，主要考慮的是更新效能，推薦選擇普通索引

2、建議關閉change buffer的場景

如果所有的更新後面，都伴隨著對這個記錄的查詢
控制引數innodb_change_buffering

mysql> SHOW VARIABLES LIKE '%innodb_change_buffering%';
+-------------------------+-------+
| Variable_name   | Value |
+-------------------------+-------+
| innodb_change_buffering | all |
+-------------------------+-------+

# Valid Values (>= 5.5.4)
none / inserts / deletes / changes / purges / all

# Valid Values (<= 5.5.3)
none / inserts

# change buffer的前身是insert buffer，只能對insert操作進行優化

change buffer + redolog

更新過程

當前k樹的狀態：找到對應的位置後，k1所在的資料頁Page 1在記憶體中，k2所在的資料頁Page 2不在記憶體中

INSERT INTO t(id,k) VALUES (id1,k1),(id2,k2);

# 記憶體：buffer pool
# redolog：ib_logfileX
# 資料表空間：t.ibd
# 系統表空間：ibdata1

1、Page 1在記憶體中，直接更新記憶體

2、Page 2不在記憶體中，在changer buffer中記錄：add (id2,k2) to Page 2

3、上述兩個動作計入redolog（磁碟順序寫）

4、至此事務完成，執行更新語句的成本很低

寫兩次記憶體+一次磁碟

5、由於在事務提交時，會把change buffer的操作記錄也記錄到redolog

因此可以在崩潰恢復時，恢復change buffer

虛線為後臺操作，不影響更新操作的響應時間

讀過程

假設：讀語句發生在更新語句後不久，記憶體中的資料都還在，與系統表空間（ibdata1）和redolog（ib_logfileX）無關

SELECT * FROM t WHERE k IN (k1,k2);

1、讀Page 1，直接從記憶體返回（此時Page 1有可能還是髒頁，並未真正落盤）

2、讀Page 2，通過磁碟隨機讀將資料頁讀入記憶體，然後應用change buffer裡面的操作日誌（merge）

生成一個正確的版本並返回

提升更新效能

1、redolog：節省隨機寫磁碟的IO消耗（順序寫）

2、change buffer：節省隨機讀磁碟的IO消耗

參考資料

《MySQL實戰45講》

總結

以上就是這篇文章的全部內容了，希望本文的內容對大家的學習或者工作具有一定的參考學習價值，如果有疑問大家可以留言交流，謝謝大家對我們的支援。

MySQL普通索引和唯一索引的深入講解

場景 1、維護一個市民系統，有一個欄位為身份證號 2、業務程式碼能保證不會寫入兩個重複的身份證號（如果業務無法保證，可以依賴資料庫的唯一索引來進行約束）

如何選擇普通索引和唯一索引《死磕MySQL系列五》

系列文章一、原來一條select語句在MySQL是這樣執行的《死磕MySQL系列一》二、一生摯友redo log、binlog《死磕MySQL系列二》

mysql學習實踐(1) 普通索引和唯一索引的選擇

問題 1、在不同的業務場景下，應該選擇普通索引，還是唯一索引？假設你在維護一個市民系統，每個人都有一個唯一的身份證號，而且業務程式碼已經保證了不會寫入兩個重複的身份證號。如果市民系統需要按照身份證號查

MySQL批量插入和唯一索引問題的解決方法

MySQL批量插入問題在開發專案時，因為有一些舊系統的基礎資料需要提前匯入，所以我在匯入時做了批量匯入操作,但是因為MySQL中的一次可接受的SQL語句大小受限制所以我每次批量雖然只有500條，但依然無法插入，這個時

普通索引和唯一索引，應該怎麼選擇？

1）什麼是唯一索引？不允許具有索引值相同的行，比如身份證唯一的案例：假設你在維護一個市民系統，每個人都有一個唯一的身份證號，而且業務程式碼已經保證了不會寫入兩個重複的身份證號。如果市民系統需要按

普通索引和唯一索引

面試的時候被問到這個？當時不會。現在總結一下普通索引和唯一索引選擇普通索引還是唯一索引，需要從查詢和更新兩方面考慮。

普通索引和唯一索引的區別

查詢唯一索引這裡我們以下面的語句為例子進行介紹：這裡的card_id就是唯一索引

MySQL索引的原理，B+樹、聚集索引和二級索引的結構分析

索引是一種用於快速查詢行的資料結構，就像一本書的目錄就是一個索引，如果想在一本書中找到某個主題，一般會先找到對應頁碼。在mysql中，儲存引擎用類似的方法使用索引，先在索引中找到對應值，然後根據匹配的索引記

MySQL使用者賬戶管理和許可權管理深入講解

前言 MySQL 的許可權表在資料庫啟動的時候就載入記憶體，當用戶通過身份認證後，就在記憶體中進行相應許可權的存取，這樣，此使用者就可以在資料庫中做許可權範圍內的各種操作了。

mysql學習之引擎、Explain和許可權的深入講解

引擎簡介 Innodb引擎 Innodb引擎提供了對資料庫ACID事務的支援，並且實現了SQL標準的四種隔離級別。該引擎還提供了行級鎖和外來鍵約束，它的設計目標是處理大容量資料庫系統，它本身其實就是基於MySQL後臺的完整資

sql：主鍵（primary key）和唯一索引（unique index）區別

主鍵一定是唯一性索引，唯一性索引並不一定就是主鍵。所謂主鍵就是能夠唯一標識表中某一行的屬性或屬性組，一個表只能有一個主鍵，但可以有多個候選索引。

mysql索引：密集索引和稀疏索引的區別

mysql索引密集索引稀疏索引密集索引定義：密集索引檔案中的每個搜尋碼值都對應一個索引值。

MySQL 聚集索引和二級索引

Every InnoDB table has a special index called the clustered index where the data for the rows is stored. Typically, the clustered index is synonymous with the primary key. To get the best performance