關於一致性hash,這可能是全網最形象生動最容易理解的檔案,想做架構師的你來瞭解一下
阿新 • • 發佈:2019-12-31
問題提出
一致性hash是什麼?假設有4臺快取伺服器N0,N1,N2,N3
,現在有資料OBJECT1,OBJECT2,OBJECT3,OBJECT4,OBJECT5,OBJECT7,OBJECT8
,我們需要將這些資料快取到這4臺伺服器上,相應的問題是
如何設計資料存放策略,即ObjectX 應該存放在哪臺伺服器上?
為瞭解決這個問題,我們有如下幾個思路。
1. 餘數hash方案
採用hash(Objectx)%4來確定伺服器節點
假設 `hash(OBJECT1)=2`,由 2%4=2,可知,`Object1`則應該存放到節點`N2`上
假設 `hash(OBJECT2)=3`,由 3%4=3,`Object2`則應該存放到節點`N3`上
假設 `hash (OBJECT3)=1`,由 1%4=1,`Object3`則應該存放到節點`N1`上
假設 `hash(OBJECT4)=0`,`Object4`則應該存放到節點`N0`上
假設 `hash(OBJECT5)=5`,由 5%4=1,`Object5`則應該存放到節點`N1`上
假設 `hash(OBJECT6)=6`,由 6%4=2,`Object6`則應該存放到節點`N2`上
假設 `hash(OBJECT7)=7`,由 7%4=3,`Object7`則應該存放到節點`N3`上
假設 `hash(OBJECT8)=8`,由 8%4=0,`Object8`則應該存放到節點`N0`上
複製程式碼
假設我們需要讀取Object3
hash(object3)=1
可知,我們只需要訪問節點N1
即可。
1.1 現在假設N3
忽然故障下線
我們面臨快取重新構造的問題
採用hash(Objectx)%3來確定伺服器節點
假設 `hash(OBJECT1)=2`,由 2%3=2,由 3%3=0,`Object2`則應該存放到節點`N0`上
假設 `hash(OBJECT3)=1`,由 1%3=1,由 0%3=0,由 5%3=2,`Object5`則應該存放到節點`N2`上
假設 `hash(OBJECT6)=6`,由 6%3=0,`Object6`則應該存放到節點`N0`上
假設 `hash(OBJECT7)=7`,由 7%3=1,`Object7`則應該存放到節點`N1`上
假設 `hash (OBJECT8)=8`,由 8%3=2,`Object8`則應該存放到節點`N2`上
複製程式碼
此時為了保證資料的準確性,我們需要
將資料`Object2`從`N3`遷移到`N0`
將資料`Object5`從`N1`遷移到`N2`
將資料`Object6`從`N2`遷移到`N0`
將資料`Object7`從`N3`遷移到`N1`
將資料`Object8`從`N0`遷移到`N2`
複製程式碼
1.2 現在假設我們新增一臺新的伺服器N4
我們面臨快取重新構造的問題
採用hash(Objectx)%5來確定伺服器節點
假設 `hash(OBJECT1)=2`,由 2%5=2,由 3%5=3,由 1%5=1,由 0%5=0,由 5%5=0,`Object5`則應該存放到節點`N0`上
假設 `hash(OBJECT6)=6`,由 6%5=1,`Object6`則應該存放到節點`N1`上
假設 `hash(OBJECT7)=7`,由 7%5=2,`Object7`則應該存放到節點`N2`上
假設 `hash(OBJECT8)=8`,由 8%5=3,`Object8`則應該存放到節點`N3`上
複製程式碼
此時為了保證資料的準確性,我們需要
將資料`Object2`從`N3`遷移到`N0`
將資料`Object5`從`N1`遷移到`N0`
將資料`Object6`從`N2`遷移到`N1`
將資料`Object7`從`N3`遷移到`N2`
將資料`Object8`從`N0`遷移到`N3`
複製程式碼
從上述倆種情況可以看出,一旦機器數目變化,我們面臨大量的快取變化問題,換言之,快取大部分失效,很可能會導致雪崩。
2.一致性hash方案
現在我們更換如下策略
0<hash(Objectx)%8<=2,則存放在`N0`
2<hash(Objectx)%8<=4,則存放在`N1`
4<hash(Objectx)%8<=6,則存放在`N2`
6<hash(Objectx)%8<=8,則存放在`N3`
複製程式碼
2.1 現在假設N3
忽然故障下線
我們面臨快取重新構造的問題,調整策略如下
0<hash(Objectx)%8<=2,則存放在`N0`
複製程式碼
此時為了保證資料的準確性,我們需要
將資料ObjectX
從N3
遷移到N0
,受影響的資料僅僅N3相關的資料。
2.2 現在假設我們新增一臺新的伺服器N4
我們面臨快取重新構造的問題,則存放在`N1` 4<hash(Objectx)%8<=5,則存放在`N2` 5<hash(Objectx)%8<=6,則存放在`N4` 6<hash(Objectx)%8<=8,則存放在`N3` 複製程式碼
此時為了保證資料的準確性,我們需要
將資料從N2
複製到N4
,受影響的僅僅N2相關的使用者。
比較上述倆種做法,可見方案2更優. 方案2就是一致性hash
2.3 缺點
機器越少,則每臺機器上負載將越不均勻,解決這個問題的方法是新增虛擬節點,調整策略,如下,可以想象,資料越多,分佈越均勻。
0<hash(Objectx)%8<=1,則存放在`N0`
1<hash(Objectx)%8<=2,則存放在`N1`
2<hash(Objectx)%8<=3,則存放在`N2`
3<hash(Objectx)%8<=4,則存放在`N3`
4<hash(Objectx)%8<=5,則存放在`N0`
5<hash(Objectx)%8<=6,則存放在`N1`
6<hash(Objectx)%8<=7,則存放在`N2`
7<hash(Objectx)%8<=8,則存放在`N3`
複製程式碼
3. 一致性Hash原理
原理網路上太多,這裡不做進一步闡述。