快閃記憶體資料庫索引優化

阿新 • • 發佈：2018-12-21

快閃記憶體資料庫的索引是資料庫特有的一種加快查詢的方法，這種方法可以有效的提高資料庫查詢的效能，基本上每一種資料庫都會有索引的功能，那麼索引的帶來的額外的元資料開銷也是非常大的。

目前的索引組織的資料結構都是按照磁碟的特性，用來設計對應的資料結構，當底層的儲存介質換成快閃記憶體之後，傳統的索引的資料結構可能就不太實用了，因此需要去設計面對快閃記憶體的資料庫的索引。在這裡插入圖片描述

1、快閃記憶體的儲存特性，在傳統資料庫的索引上會有哪些影響，傳統的資料庫索引的設計會帶來哪些問題

傳統的資料庫的設計大都採用了B樹或者B+樹，這種資料結構由於索引的更新，對於傳統的磁碟可能影響不大，因為是使用本地更新，更新索引之後的地址是不變的，那麼其他索引指向的指標不需要發生改變，但是當儲存介質變成了快閃記憶體之後，快閃記憶體支援異地更新，那麼更新的索引值會有其他的地址，那麼連帶的反應，其他指向的這個節點的索引節點都是變換，產生一個擴散的效應。因此會造成快閃記憶體更多的寫操作，所以，對於針對真誠的特性設計相應的索引結構。在這裡插入圖片描述

2、傳統的資料庫的索引主要有兩種資料結構來組織，一種是B樹，一組是B+樹，這兩種資料結構的區別是什麼呢？

對於B樹來說，每個節點都儲存三個資訊，一個是索引值，另外一個是該索引值對應的資料記錄的地址指標，還要一個位置指標，指向下一個節點。在這裡插入圖片描述

B樹的查詢過程：

首先索引在B樹進行查詢，從根節點開始一層一層的查詢，找到一個對應的節點，然後從這個節點中取出對應索引的資料指標，從這個指標找到對應的資料。

B樹的插入過程：

如果要插入一個記錄，實際就是插入一個索引，這個時候，選擇一個合適的葉子節點進行插入，如果插入葉子節點但是葉子節點超過了一個頁的大小，這個時候將這個葉子節點進行分裂，取一個節點到上層的父子節點，如果父子節點還是滿的時候，繼續分裂，知道根節點，最壞的情況是在產生一個根節點。

B樹的刪除過程：

如果要刪除某個記錄，即要刪除對應的索引，這個時候，如果要刪除的節點不在葉子節點上，這個時候將這個節點和後繼的節點交換位置，然後刪除這個節點。在葉子節點則直接刪除，如果刪除之後，這個節點的索引的個數小於頁的一半，這個時候，可以進行合併操作，將左右的兄弟節點進行一個合併操作。在這裡插入圖片描述

B+樹

對於B+樹來說，B樹顯然只能進行隨機的查詢，對於順序的查詢，還是得從根節點開始繼續查詢一個路徑。B+樹則不同，B+樹能夠進行隨機查詢，同時能夠支援順序查詢。 B+樹是在B樹上進行了改變，首先，B+樹中包含兩類節點，第一類節點是非葉子節點，第二類節點是葉子節點。對於非葉子節點，都可以看成是索引指標，起著指標連線到葉子節點的作用，用來快速定位某個葉子節點。對於葉子節點，包含了記錄的索引值，和指向記錄的指標，和指向下一個葉子節點的指標，葉子節點本身按照鍵的大小自小二大的順序連結。在這裡插入圖片描述

對於順序查詢，直接在葉子節點，按照索引的順序從小到達的遍歷查詢即可

對於隨機查詢，按照主鍵的索引值，從根節點開始查詢，如果沒有則通過非葉子節點的指標指向下一個層，直到查詢到葉子節點，確實是否存在，記住對於B+樹來說，隨機查詢都是從根節點查詢到葉子節點的。

插入操作：插入一個數據時，首先還是需要從根節點查詢到葉子節點，找到插入的葉子節點的位置，然後在在這個葉子節點進行插入索引，如果葉子節點空間不夠，則進行分裂，如果葉子節點空間夠，則直接插入。

刪除操作：刪除一個數據時，同樣首先找到葉子節點，因為所有的資料都存在葉子節點上，所以必須得去找到葉子節點。然後如果葉子節點比較少，這個時候會發生合併操作，然後刪除。在這裡插入圖片描述

3、瞭解了B樹和B+樹的基本知識後，對於傳統的B、B+樹的索引結構，遷移到快閃記憶體上有哪些問題，目前有哪些改進的方法？

B樹存在的缺點：

在這裡插入圖片描述

B+樹存在的缺點：

同樣，B+樹在葉子節點的更新增刪，都會產生擴散的影響，造成多次的快閃記憶體寫操作，代價較大。

4、對於索引的各種改進的方法

對於B樹

一種基於日誌的B樹索引方法的體系架構BFTL 對於B++樹惰性更新B+樹 FlashDB

對於直接更改整個資料結構，重新其他的樹結構

FD樹 LA樹

下面對5種改進方法做一個簡單的總結。

5、一種基於日誌的B樹索引方法的體系架構BFTL

基本思想：

在這裡插入圖片描述簡單來說，他的思想是因為B樹的節點更新帶來大量的擴散性更新，那麼採用日誌的方法，將這些更新通過一個緩衝區，保留這些記錄，讓這些記錄通過緩衝區，減少寫到快閃記憶體的更新寫的次數。

當緩衝區被記錄塞滿的時候，這個時候就需要替換出去，BFTL為每個記錄都設定對應索引值，將索引單元拼湊成為一個頁，那麼對於同一個物理節點的資料，可能更新的記錄存放在不同的物理頁上，通過一個轉換表去記錄存在哪些物理頁上。在執行B數的查詢時，首先查詢轉換表可以直接查詢到每個快閃記憶體物理頁對應的B節點的最新值，這樣不用去遍歷快閃記憶體。