HBase資料模型解析和基本的表設計分析

阿新 • • 發佈：2019-02-18

最近在學習HBase的使用，並仔細閱讀了一篇官方推薦的部落格，在這裡就以一邊翻譯一邊總結的方式和大家一起梳理一下HBase的資料模型和基本的表設計思路。

官方推薦的部落格原文地址：http://0b4af6cdc2f0c5998459-c0245c5c937c5dedcca3f1764ecc9b2f.r43.cf2.rackcdn.com/9353-login1210_khurana.pdf點選開啟連結

HBase是一個開源可伸縮的針對海量資料儲存的分散式nosql資料庫，它根據Google Bigtable資料模型來建模並構建在hadoop的hdfs儲存系統之上。它和關係型資料庫Mysql, Oracle等有明顯的區別，HBase的資料模型犧牲了關係型資料庫的一些特性但是卻換來了極大的可伸縮性和對錶結構的靈活操作。

在一定程度上，Hbase又可以看成是以行鍵(Row Key),列標識(column qualifier),時間戳(timestamp)標識的有序Map資料結構的資料庫，具有稀疏，分散式，持久化，多維度等特點。

Base的資料模型介紹

HBase的資料模型也是由一張張的表組成，每一張表裡也有資料行和列，但是在HBase資料庫中的行和列又和關係型資料庫的稍有不同。下面統一介紹HBase資料模型中一些名詞的概念:

         表(Table): HBase會將資料組織進一張張的表裡面，但是需要注意的是表名必須是能用在檔案路徑裡的合法名字，因為HBase的表是對映成hdfs上面的檔案。

         行(Row): 在表裡面，每一行代表著一個數據物件，每一行都是以一個行鍵（Row Key）來進行唯一標識的，行鍵並沒有什麼特定的資料型別，以二進位制的位元組來儲存。

         列族(Column Family): 在定義HBase表的時候需要提前設定好列族, 表中所有的列都需要組織在列族裡面，列族一旦確定後，就不能輕易修改，因為它會影響到HBase真實的物理儲存結構，但是列族中的列標識(Column Qualifier)以及其對應的值可以動態增刪。表中的每一行都有相同的列族，但是不需要每一行的列族裡都有一致的列標識(Column Qualifier)和值，所以說是一種稀疏的表結構，這樣可以一定程度上避免資料的冗餘。例如：{row1, userInfo: telephone —> 137XXXXX869 }{row2, userInfo: fax phone —> 0898-66XXXX } 行1和行2都有同一個列族userinfo，但是行1中的列族只有列標識(Column Qualifier):行動電話號碼，而行2中的列族中只有列標識(Column Qualifier):傳真號碼。

         列標識(Column Qualifier): 列族中的資料通過列標識來進行對映，其實這裡大家可以不用拘泥於“列”這個概念，也可以理解為一個鍵值對,Column Qualifier就是Key。列標識也沒有特定的資料型別，以二進位制位元組來儲存。

         單元(Cell): 每一個行鍵，列族和列標識共同組成一個單元，儲存在單元裡的資料稱為單元資料，單元和單元資料也沒有特定的資料型別，以二進位制位元組來儲存。

時間戳(Timestamp): 預設下每一個單元中的資料插入時都會用時間戳來進行版本標識。讀取單元資料時，如果時間戳沒有被指定，則預設返回最新的資料，寫入新的單元資料時，如果沒有設定時間戳，預設使用當前時間。每一個列族的單元資料的版本數量都被HBase單獨維護，預設情況下HBase保留3個版本資料。