《資料結構與演算法之美》專欄閱讀筆記5——散列表和雜湊函式

阿新 • • 發佈：2018-11-15

這應該是看完最呆（沒有想到的那種呆~）的一個小章節了，給作者鼓掌，講的好好。果然抽象能力才是王道

文章目錄

1、散列表

1.1、小概念
1.2、雜湊函式
1.3、雜湊衝突
1.4、裝載因子

2、實際應用中的散列表注意事項

2.1、雜湊函式的設計原則
2.2、裝載因子過大
2.3、如何避免低效地擴容
2.4、解決衝突的方案選擇
2.5、設計一個工業級的雜湊函式

3、雜湊演算法

應用

1、散列表

核心：散列表用的是陣列支援按照下標隨機訪問資料的特性。
這個例子舉的好好~不抄了，粘原文，重點是下面的亮條條（廣告

跟著學了幾個排序演算法後，此時此刻看到散列表想到的是計數排序呢，因為都是想著法兒地給元素和陣列下標搞關係。

1.1、小概念

鍵：也叫關鍵字，就是最終放到資料結構中的元素啦
雜湊函式：也叫雜湊函式。算命先生，告訴鍵應該去陣列的哪個坑裡蹲著
雜湊值：也叫雜湊值。鍵蹲的那個坑

1.2、雜湊函式

如果把元素都對應到了陣列中，查詢的時間複雜度就是O(1)，看著很酷呢~
雜湊函式需要滿足三點基本要求：

雜湊函式計算得到的雜湊值是一個非負整數
如果key1 = key2，那麼hash(key1) = hash(key2)
如果key1 != key2，那麼hash(key1) != hash(key2)
（補充一條：簡單不燒腦更好）

1.3、雜湊衝突

實際中，比較難滿足第三點要求，當存在key1 != key2，hash(key1) != hash(key2)時稱作雜湊衝突。解決雜湊衝突常見的兩種辦法：

開放定址法
思路：出現衝突就重新探測空閒可用的位置來儲存資料。一種簡單的線性探測方法如下。

刪除操作：因為使用開放定址法的時候，key相同的資料儲存在同一個位置（但是我們不曉得是有幾個相同的資料儲存在這一份資料中），所以刪除的時候不能直接刪，而是標記位deleted，避免被定址覆蓋了。（會有很多的空間浪費吧~不環保，差評！）

【效能分析】因為算完還需要找合適的位置，最壞的情況可能需要挨個兒找一遍，O(n)啦

【更好的辦法】
二次探測：探測步長變成n^2。
雙重雜湊：使用一組雜湊函式，挨個算，知道有一個函式算出來沒被佔用的位置為止（這組雜湊函式應該很不容易吧）

連結串列法
思路：將雜湊值相同的元素用連結串列存起來，數組裡儲存的是這個連結串列的頭的資訊。

1.4、裝載因子

裝載因子可以用來表示陣列中空位的多少，裝在因子越大，說明空閒位置越少，衝突越多，散列表效能會下降。

load factor = 填入表中的元素的個數 / 散列表長度

2、實際應用中的散列表注意事項

2.1、雜湊函式的設計原則

不能太複雜，避免消耗太多的計算時間
生成的雜湊值要儘可能隨機並且均勻分佈

2.2、裝載因子過大

動態擴容。

散列表的擴容需要重新計算雜湊位置，搬移資料。裝載因子特別小時，如果對空間消耗敏感，還可以動態縮容。

2.3、如何避免低效地擴容

避免一次性擴容，將新資料插入新的散列表的過程中搬移舊資料到新的散列表

2.4、解決衝突的方案選擇

【開放定址法】

優點
資料儲存在陣列中，可以利用CPU快取加快查詢速度。
序列化相對簡單
缺點
刪除資料比較麻煩，更浪費記憶體空間。
適用場景
資料量比較小，裝載因子小

【連結串列法】

優點
記憶體利用率高
對大裝載因子的容忍度更高
缺點
消耗記憶體
非連續儲存，對CPU快取不友好。可以通過使用其他資料結構來替代連結串列優化效率

適用場景
儲存大物件、大資料量的散列表

2.5、設計一個工業級的雜湊函式

像這種要考慮很多方面的問題，大致都只能給個方針啥的，作者給的，我抄過來啦~遇到的時候還能回來翻翻看：

一個工業級的散列表需要滿足以下要求：

支援快速的查詢、插入、刪除操作
記憶體佔用合理，不能浪費過多的記憶體空間
效能穩定，極端情況下，散列表的效能也不會退化到無法接受的情況

如何實現：

設計一個合適的雜湊函式
定義裝載因子閾值，並且設計動態擴容策略
選擇合適的雜湊衝突解決辦法

舉栗子的時候給了個HashMap的雜湊值計算的方法，看完頭皮發麻。評論區有小牛角給了分析呢，好好看完，就抄過來啦

	static final int hash(Object key) {
        int h;
        return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
    }

找了一下位運算技巧：面試常用位運算技巧

位運算的這些沒有找到可以總結的辦法，所以記不住啦~回頭找機會再瞄一瞄吧。

**TODO：**LRU實現

3、雜湊演算法

原理：將任意長度的二進位制值串對映為固定長度的二進位制值串的規則。
一個優秀的雜湊演算法要滿足的幾點要求：

從雜湊值不能反向推導處原始資料
對輸入資料非常敏感，哪怕原始資料只修改了一個Bit，雜湊值也大不相同
雜湊衝突概率很小
執行效率高

應用

安全加密
唯一標識
資料校驗
雜湊函式
負載均衡
資料分片
分散式儲存
一致性雜湊

《資料結構與演算法之美》專欄閱讀筆記5——散列表和雜湊函式

這應該是看完最呆（沒有想到的那種呆~）的一個小章節了，給作者鼓掌，講的好好。果然抽象能力才是王道文章目錄 1、散列表 1.1、小概念 1.2、雜湊函式 1

資料結構與演算法之美專欄學習筆記-排序(上）

排序方法氣泡排序、插入排序、選擇排序、快速排序、歸併排序、計數排序、基數排序、桶排序。複雜度歸類氣泡排序、插入排序、選擇排序 O(n^2) 快速排序、歸併排序 O(nlogn) 計數排序、基數排序、桶排序 O(n) 演算法的執行效率 1. 最

資料結構與演算法之美專欄學習筆記-排序(下）

分治思想分治思想分治，顧明思意就是分而治之，將一個大問題分解成小的子問題來解決，小的子問題解決了，大問題也就解決了。分治與遞迴的區別分治演算法一般都用遞迴來實現的。分治是一種解決問題的處理思想，遞迴是一種程式設計技巧。歸併排序演算法原理歸併的思想先把陣列從中間分

資料結構與演算法之美專欄學習筆記-線性排序

線性排序線性排序的概念線性排序演算法包括桶排序、計數排序、基數排序。線性排序演算法的時間複雜度為O(n)。線性排序的特點此3種排序演算法都不涉及元素之間的比較操作，是非基於比較的排序演算法。對排序資料的要求很苛刻，重點掌握此3種排序演算法的適用場景。桶排序演算法

資料結構與演算法之美專欄學習筆記-排序優化

選擇合適的排序演算法回顧選擇排序演算法的原則 1）線性排序時間複雜度很低但使用場景特殊，如果要寫一個通用排序函式，不能選擇線性排序。 2）為了兼顧任意規模資料的排序，一般會首選時間複雜度為O(nlogn)的排序演算法來實現排序函式。 3）同為O(nlogn)的快排和歸併排序相比，

資料結構與演算法之美專欄學習筆記-陣列

什麼是陣列陣列（Array）是一種線性表資料結構。它用一組連續的記憶體空間，來儲存一組具有相同型別的資料。線性表線性表就是資料排成像一條線一樣的結構。常見的線性表結構：陣列，連結串列、佇列、棧等。非線性表有：二叉樹、圖、堆等。連續的記憶體空間和相同型別的資料優點：兩限制使得

資料結構與演算法之美專欄學習筆記-複雜度分析

複雜度分析什麼是複雜度分析資料結構和演算法解決是“如何讓計算機更快時間、更省空間的解決問題”。因此需從執行時間和佔用空間兩個維度來評估資料結構和演算法的效能。分別用時間複雜度和空間複雜度兩個概念來描述效能問題，二者統稱為複雜度。複雜度描述的是演算法執行時間（或佔用空間）與資料規模的增長關係

資料結構與演算法之美專欄學習筆記-二分查詢(下)

四種常見的二分查詢變形問題查詢第一個值等於給定值的元素 //查詢第一個等於給定值的元素 public static int BSearch2(int[] a, int n, int value){ //定義陣列頭尾索引 int low = 0, high = n - 1;

資料結構與演算法之美專欄學習筆記-跳錶

跳錶的概念對連結串列建立n級索引，例如每兩個結點提取一個節點到上一層，稱之為索引層。圖中的down表示down指標，指向下一級結點跳錶的時間複雜度跳錶的高度跳錶的高度是log2n。跳錶的時間複雜度跳錶中查詢某個資料的時間複雜度是O(logn)。

資料結構與演算法之美專欄學習筆記-雜湊演算法

雜湊演算法的定義和原理將任意長度的二進位制串對映為固定長度的二進位制串。這個對映的規則就是雜湊演算法，而通過原始資料對映之後得到的二進位制串就是雜湊值。設計一個優秀的雜湊演算法需要滿足：從雜湊值不能反向推匯出原始資料（所以雜湊演算法也叫單向雜湊演算法）；對輸入資料非常敏感，哪怕原始

資料結構與演算法之美專欄學習筆記-二叉樹基礎(上）

樹節點的定義樹中的元素稱之為節點高度的定義節點的高度：節點到葉子節點的最長路徑樹的高度：跟節點的高度深度的定義根節點到這個節點所經歷的邊的個數層的定義節點的深度+1 二叉樹滿二叉樹除了葉子結點外每個節點都有左右兩個子節點完全二叉樹葉子結

資料結構與演算法之美專欄學習筆記-二叉樹基礎(下）

二叉查詢樹 Binary Search Tree 二叉查詢樹的定義二叉查詢樹又稱二叉搜尋樹。其要求在二叉樹中的任意一個節點，其左子樹中的每個節點的值，都要小於這個節點的值，而右子樹的節點的值都大於這個節點的值。二叉查詢樹的查詢操作二叉樹類、節點類以及查詢方法的程式碼實現

《資料結構與演算法之美》專欄閱讀筆記4——二分查詢

找呀找呀找朋友文章目錄 1、二分查詢 2、變形的二分查詢 2.1、查詢第一個、最後一個值等於給定值的元素 2.2、查詢第一個大於等於、最後一個小於等於給定值

《資料結構與演算法之美》專欄閱讀筆記3——排序演算法

上週排計劃，說花個一天的時間看完好了（藐視臉）~然後每天回家看一會，看了一個星期……做人，要多照鏡子好嘛文章目錄 1、簡單排序 1.1 如何分析排序演算法

《資料結構與演算法之美》專欄閱讀筆記2——線性表

換個方式來寫筆記，最近啃完了《Thinking in Java》，想要在看專欄的時候多做點擴充套件性的東西，比如把難撩的泛型加進來做實現，程式碼還是要寫起來才曉得怎麼寫更酷。總之最近看書的過程中、搜尋答案的過程中發出了很多“哇~超厲害！超酷！我也要這樣棒棒噠！”的嘆聲。新的開始，

《資料結構與演算法之美》專欄閱讀筆記1——複雜度分析

蹭可愛的男朋友買的極客時間的專欄【資料結構與演算法之美】，作者讓大家定個學習的flag。o(￣▽￣)o，好吧，最近喜歡做思維導圖（純粹因為好看！），所以flag就是每篇都要寫讀書筆記咯~ 文章目錄 1、如何抓住重點，系統

《資料結構與演算法之美》專欄閱讀筆記2

換個方式來寫筆記，最近啃完了《Thinking in Java》，想要在看專欄的時候多做點擴充套件性的東西，比如把難撩的泛型加進來做實現，程式碼還是要寫起來才曉得怎麼寫更酷。總之最近看書的過程中、搜尋答案的過程中發出了很多“哇~超厲害！超酷！我也要這樣棒棒噠！

資料結構與演算法之美課程筆記二複雜度分析（上）

資料結構和演算法本身解決的是“快”和“省”的問題，即如何讓程式碼執行得更快，如何讓程式碼更省空間。所以，執行效率是演算法一個非常重要的考量指標。衡量演算法的執行效率最常用的就是時間和空間複雜度分析。一、為什麼需要複雜度分析？把程式碼跑一遍，通過統計、監控來得到演算法執行的時間和佔用的記憶

資料結構與演算法之美課程筆記一如何抓住重點，系統高效地學習資料結構與演算法？

什麼是資料結構？什麼是演算法？從廣義上講，資料結構就是指一組資料的儲存結構。演算法就是操作資料的一種方法。從狹義上講，是指某些著名的資料結構和演算法，比如佇列、棧、堆、二分查詢、動態規劃等。那資料結構和演算法有什麼關係呢？資料結構和演算法是相輔相成的。資料結構是為演算法服務的

《資料結構與演算法之美》- 棧

《資料結構與演算法之美》- 棧棧，在這裡說的是一種資料結構。你還可能知道的棧提到“棧”，做Java的同學還會想起Java記憶體模型中的“棧”，與之緊密關聯的還有一個名詞——堆，但是這裡，此棧非彼棧。引用《深入理解Java虛擬機器》中有關棧的介紹經常有人把Java

《資料結構與演算法之美》專欄閱讀筆記5——散列表和雜湊函式

文章目錄

1、散列表

1.1、小概念

1.2、雜湊函式

1.3、雜湊衝突

1.4、裝載因子

2、實際應用中的散列表注意事項

2.1、雜湊函式的設計原則

2.2、裝載因子過大

2.3、如何避免低效地擴容

2.4、解決衝突的方案選擇

2.5、設計一個工業級的雜湊函式

3、雜湊演算法

應用

相關推薦