HBase RowKey設計原則（全面）

阿新 • • 發佈：2019-01-16

這段時間實在太忙了，工作和備考幾乎用盡了所有時間，以前的愛好都漸漸遠離了，現在也就更新部落格這個小喜好了，每天看到日益增長的訪問量還是挺開心的，能幫到別人也是一種快樂。這篇HBase的行健設計原則文章主要依據HBase官方文件和一些相關文章總結而來，可以說是比較靠譜和全面的一個rowkey設計總結。 言歸正傳，對於關係型資料庫，資料定位可以理解為“二維座標”；但是hbase中需要四維來定位一個單元格，即[行健、列族、列限定符、時間戳]

HBase中rowkey可以唯一標識一行記錄，在HBase查詢的時候，有以下幾種方式：

通過get方式，指定rowkey獲取唯一一條記錄
通過scan方式，設定startRow和stopRow引數進行範圍匹配
全表掃描，即直接掃描整張表中所有行記錄

什麼是熱點？

HBase中的行是按照rowkey的字典順序排序的，這種設計優化了scan操作，可以將相關的行以及會被一起讀取的行存取在臨近位置，便於scan。然而糟糕的rowkey設計是熱點的源頭。熱點發生在大量的client直接訪問叢集的一個或極少數個節點（訪問可能是讀，寫或者其他操作）。大量訪問會使熱點region所在的單個機器超出自身承受能力，引起效能下降甚至region不可用，這也會影響同一個RegionServer上的其他region，由於主機無法服務其他region的請求。設計良好的資料訪問模式以使叢集被充分，均衡的利用。

RowKey的設計原則

1. RowKey長度原則 RowKey是一個二進位制碼流，可以是任意字串，最大長度 64kb ，實際應用中一般為10-100bytes，以 byte[] 形式儲存，一般設計成定長。建議越短越好，不要超過16個位元組，原因如下：

資料的持久化檔案HFile中是按照KeyValue儲存的，如果rowkey過長，比如超過100位元組，1000w行資料，光rowkey就要佔用100*1000w=10億個位元組，將近1G資料，這樣會極大影響HFile的儲存效率；
MemStore將快取部分資料到記憶體，如果rowkey欄位過長，記憶體的有效利用率就會降低，系統不能快取更多的資料，這樣會降低檢索效率。
目前作業系統都是64位系統，記憶體8位元組對齊，控制在16個位元組，8位元組的整數倍利用了作業系統的最佳特性。
其他的如列族名、列名等屬性名也是越短越好。value永遠和它的key一起傳輸的。當具體的值在系統間傳輸時，它的rowkey，列名，時間戳也會一起傳輸。如果你的rowkey和列名和值相比較很大，那麼你將會遇到一些有趣的問題。Hfile中的索引最終佔據了HBase分配的大量記憶體。

2.rowkey雜湊原則 如果rowkey按照時間戳的方式遞增，不要將時間放在二進位制碼的前面，建議將rowkey的高位作為雜湊欄位，由程式隨機生成，低位放時間欄位，這樣將提高資料均衡分佈在每個RegionServer，以實現負載均衡的機率。如果沒有雜湊欄位，首欄位直接是時間資訊，所有的資料都會集中在一個RegionServer上，這樣在資料檢索的時候負載會集中在個別的RegionServer上，造成熱點問題，會降低查詢效率。具體方式有以下幾種 Salting 散佈在rowkey的前面增加隨機數，具體就是給rowkey分配一個隨機字首以使得它和之前的rowkey的開頭不同。分配的字首種類數量應該和你想使用資料分散到不同的region的數量一致。雜湊之後的rowkey就會根據隨機生成的字首分散到各個region上，以避免熱點。 Hashing 雜湊雜湊會使同一行永遠用一個字首雜湊。雜湊也可以使負載分散到整個叢集，但是讀卻是可以預測的。使用確定的雜湊可以讓客戶端重構完整的rowkey，可以使用get操作準確獲取某一個行資料 RowKey Reverse 行健反轉反轉固定長度或者數字格式的rowkey。這樣可以使得rowkey中經常改變的部分（最沒有意義的部分）放在前面。這樣可以有效的隨機rowkey，但是犧牲了rowkey的有序性。（例如手機號）反轉rowkey的例子以手機號為rowkey，可以將手機號反轉後的字串作為rowkey，這樣的就避免了以手機號那樣比較固定開頭導致熱點問題（舉例：寫資料時行健是1到1萬，這種情況如果不雜湊，就會出現寫熱點，總是往儲存最大行健的Region裡寫入資料，十分影響效能。） 3.時間戳反轉 Reversiong the Key rowkey是按照字典順序排序儲存的，因此，設計rowkey的時候，要充分利用這個排序的特點，將經常讀取的資料儲存到一塊，將最近可能會被訪問的資料放到一塊。一個常見的資料處理問題是快速獲取資料的最近版本，使用反轉的時間戳作為rowkey的一部分對這個問題十分有用，可以用Long.Max_Value-timestamp 追加到key的末尾，例如 [key][reverse_timestamp] , [key] 的最新值可以通過scan [key]獲得[key]的第一條記錄，因為HBase中rowkey是有序的，第一條記錄是最後錄入的資料。 （由於這一項是違背雜湊原則的，有可能引起熱點，所以要根據具體情境來看是否適合使用這種方法。大多數情境還是以行健雜湊為主。）
4. rowkey唯一原則 必須在設計上保證其唯一性。

HBase RowKey設計原則（全面）

HBase RowKey設計原則（全面）

設計模式之設計原則（一）

設計模式之設計原則（二）

第2章面向物件的設計原則（SOLID）：6_開閉原則

第2章面向物件的設計原則（SOLID）：5_迪米特法則

第2章面向物件的設計原則（SOLID）：4_介面隔離原則（ISP）

第2章面向物件的設計原則（SOLID）：3_依賴倒置原則（DIP）

第2章面向物件的設計原則（SOLID）：2_里氏替換原則（LSP）

第2章面向物件的設計原則（SOLID）：1_單一職責原則（SRP）

大話設計模式C++實現-第3.4.5-設計原則（1）

23中設計模式概括及六種設計原則（一）

五大設計原則（SOLID）

Hbase Rowkey設計原則

(轉) 面向物件設計原則（二）：開放-封閉原則（OCP）

以C/C++語法淺談六大設計原則（一）——依賴倒置原則（Dependence Inversion Principle）

商城資料庫設計原則（二）-商品模型的設計

單一職責原則詳解--七大面向物件設計原則（1）

資料庫設計原則（簡明）

hbase rowkey設計原則和為什麼nosql查詢速度快

Hbase rowkey 設計原則

HBase RowKey設計原則（全面）

相關推薦