頻繁項集挖掘演算法——Apriori演算法

阿新 • • 發佈：2019-01-31

前言

關聯規則就是在給定訓練項集上頻繁出現的項集與項集之間的一種緊密的聯絡。其中“頻繁”是由人為設定的一個閾值即支援度（support）來衡量，“緊密”也是由人為設定的一個關聯閾值即置信度（confidence）來衡量的。這兩種度量標準是頻繁項集挖掘中兩個至關重要的因素，也是挖掘演算法的關鍵所在。對項集支援度和規則置信度的計算是影響挖掘演算法效率的決定性因素，也是對頻繁項集挖掘進行改進的入口點和研究熱點。
基於關聯規則的分類主要分為以下以個步驟：
1. 對訓練資料進行預處理（包括離散化、缺失值處理等）
2. 關聯規則挖掘
2.1 頻繁項集挖掘
2.2 關聯規則生成
3. 規則處理

4. 對測試集進行測試

在關聯規則挖掘中，最耗費時間和空間資源的就是頻繁項集挖掘，目前針對頻繁項集挖掘已經有很多比較成熟的演算法，在時間效率或空間效率對頻繁項集的挖掘進行不斷的優化和改進。

接下來的幾篇部落格都是筆者在閱讀論文或者相關文獻資料中學習的幾個頻繁項集挖掘演算法的介紹，在這裡分享一下，與大家一起學習~

Apriori演算法

演算法中最經典的莫過於Apriori演算法，它可以算得上是頻繁項集挖掘演算法的鼻祖，後續很多的改進演算法也是基於Apriori演算法的。但是遺憾的是Apriori演算法的效能一般，但是即使如此，該演算法卻是頻繁項集挖掘必須要掌握的入門演算法。

基本的Apriori演算法

Apriori演算法的基本思路是採用層次搜尋的迭代方法，由候選(k-1)-項集來尋找候選k-項集，並逐一判斷產生的候選k-項集是否是頻繁的。
　　設Ck是長度為k的候選項集的集合，Lk是長度為k的頻繁項集的集合。為了簡單，設最小支援度閾值min_sup為最小元組數，即採用最小支援度計數。

輸入：事務資料庫D，最小支援度閾值min_sup。
輸出：所有的頻繁項集集合L。
方法：其過程描述如下：

通過掃描D得到1-頻繁項集L1;
for (k=2;Lk-1!=Ф;k++)
{      Ck=由Lk-1通過連線運算產生的候選k-項集;
        for (事務資料庫D中的事務t)
        {	求Ck中包含在t中的所有候選k-項集的計數;
	Lk={c | c∈Ck and c.sup_count≥min_sup};
		//求Ck中滿足min_sup的候選k-項集
        }
}
return L=∪kLk;

舉例

對於下表1.1所示的事務資料庫，設min_sup=2，產生所有頻繁項集的過程如右圖所示，最後L4=Ф，演算法結束，產生的所有頻繁項集為L1∪L2∪L3。

頻繁項集挖掘演算法——Apriori演算法

前言

Apriori演算法

相關定義：

基本的Apriori演算法

舉例

頻繁項集挖掘之apriori和fp-growth

海量資料探勘MMDS week2: 頻繁項集挖掘 Apriori演算法的改進：基於hash的方法

海量資料探勘MMDS week2: 頻繁項集挖掘 Apriori演算法的改進：非hash方法

頻繁項集挖掘Apriori演算法及其Python實現

頻繁項集挖掘演算法——Apriori演算法

資料探勘---頻繁項集挖掘Apriori演算法的C++實現

頻繁項集挖掘演算法——Eclat演算法

R語言包arules進行頻繁項集挖掘的最簡單例子

海量資料探勘MMDS week2: Association Rules關聯規則與頻繁項集挖掘

R_Studio(關聯)Apriori演算法尋找頻繁項集的方法

第11章：使用Apriori演算法進行關聯分析（從頻繁項集中挖掘關聯規則）

第11章：使用Apriori演算法進行關聯分析（計算頻繁項集）

Apriori演算法簡介---關聯規則的頻繁項集演算法

閉頻繁項集的挖掘——Closet演算法

關聯規則—頻繁項集Apriori演算法

機器學習實戰（Machine Learning in Action）學習筆記————08.使用FPgrowth演算法來高效發現頻繁項集

python關聯分析 __機器學習之FP-growth頻繁項集演算法

機器學習之FP-growth頻繁項集演算法

講講購物籃演算法中的一個核心函式——頻繁項集的選擇

第12章：使用FP-growth演算法高效發現頻繁項集

頻繁項集挖掘演算法——Apriori演算法

前言

Apriori演算法

相關定義：

基本的Apriori演算法

舉例

相關推薦