頻繁模式挖掘（Frequent Pattern Mining）

阿新 • • 發佈：2019-01-12

頻繁模式挖掘（FrequentPatternMining）是資料探勘中很常用的一個種挖掘，今天給大家介紹的一種名叫Apriori的頻繁模式挖掘演算法。先來看看什麼叫頻繁模式？~就是經常一起出現的模式，這裡的“模式”是一個比較抽象的概念，我們來看一個具體的例子，那就是著名的“啤酒與尿布”的故事~說是在美國有嬰兒的家庭中，一般都是母親在家中照看嬰兒，年輕的父親前去超市購買尿布。父親在購買尿布的同時，往往會順便為自己購買啤酒，這樣就會出現啤酒與尿布這兩件看上去不相干的商品經常會出現在同一個購物籃的現象。如果這個年輕的父親在賣場只能買到這兩件商品之一，則他很有可能會放棄購物而到另外一家商店，直到可以一次同時購買到啤酒和尿布為止。沃爾瑪發現這一獨特的現象，開始在賣場嘗試將啤酒與尿布擺放在相同的區域，讓年輕的父親可以同時找到這兩件商品，並很快地完成購物；而沃爾瑪超市也可以讓這些客戶一次購買到兩件商品，而不是一件，從而獲得了很好的商品銷售收入，這就是“啤酒與尿布”故事的由來。再比如在超市的銷售記錄裡，常常會發現牛奶和麵包是經常被一起購買的，那麼牛奶和麵包這兩個item經常一起現在銷售記錄中，所以在這裡牛奶和麵包是一個可以看成是一個頻繁模式，當然單獨看牛奶，單獨看麵包，也是頻繁模式。

那麼頻繁模式挖掘就是想找出這些頻繁出現的模式，至於這個“頻繁”是怎麼定義的呢？那要看演算法裡的設定。我們來看看Apriori演算法，首先需要先介紹幾個概念，以便於演算法的理解：

1）支援度：表示某個item集合在資料表中出現的比例。

2）K-項候選集：由K-1項頻繁集組合而成，支援度大於等於指定支援度的含有K個項的集合，供計算K項頻繁集使用。

3）K-項頻繁集：支援度大於等於指定支援度的含有k個項的集合，由K項候選集計算而得。

看完這三個定義，是不是很茫然？。。我一慣很喜歡舉例子，因為看例子很容易理解，下面我們就通過例子來看看這個演算法，就會明白上述的術語是怎麼回事了。

假設有上面這樣一張表，我們想找出有哪些item是經常一起出現的，這些item具體是什麼，要看具體的問題，比如可以是賣出的貨物，或者使用者的tag等等。下面我們開始計算。首先從1-項集開始，就是隻考慮一個item在多少條記錄中出現過，然後出現該項集的記錄數所佔的百分比，就是支援度，計算得：

上面這張表中算出的項集，就是K-項候選集，這裡是1-項候選集。在演算法中，我們需要設定一個最小支援度，用來過濾掉一些不頻繁的項集，假設把最小支援度設為0.25，那麼把支援度小於0.25的項集就會被過濾掉，得到下表：

上表所計算得到的項集，就是K-項頻繁集，這裡是1-項頻繁集，就是在我們設定的最小支援度設為0.25的情況下，這些1-項集被認為是頻繁出現的。算出了1-項頻繁集後，再繼續擴充套件，算2-項頻繁集，也就是算什麼樣的兩個item頻繁出現。在算K+1-項頻繁項時，注意有一個這樣的結論：如果K+1個元素構成頻繁項集，那麼它的任意K個元素的子集也是頻繁項集。

就比如，如果牛奶和麵包頻繁一起出現，那麼是不是牛奶也頻繁出現？麵包也頻繁出現？這個結論說的就是這個意思。因此K+1-項頻繁集的任意子集必定也是頻繁的，這有什麼用呢？用處大了，這使得我們可以用K-項頻繁集來生成K+1-項候選集，因為K+1-項頻繁集的任意子集必定是之前算出的頻繁項集，因此可以用之前算出的頻繁項集來組合生成K+1-項候選集，組合方法是：兩兩組合，使得滿足兩兩中前 K-1 個元素相同，最後一個元素要求前一條記錄的商品名稱小於後一條記錄的商品名稱，這樣是為了避免重複組合。因此2-項候選集如下：

從中選出支援度大於等於 0.25 的項集，即是 2-項頻繁集：

再用同樣的方法計算3-項候選集，得到：

選出支援度大於等於 0.25的項集得 3-項頻繁集，得到：

繼續往下算，直到計算出的頻繁集為空集，這個例子的 4-項頻繁集即為空集，因此最大項集是 3-項頻繁集。就 2-項頻繁集來看，它表示這表示I1 和 I3 同時出現，或 I2 和 I3 同時出現，或 I2 和 I4 同時出現，或 I3 和 I4同時出現的概率大於等於設定的最小支援度，即大於等於 0.25。而 3-項頻繁集{ I2,I3,I4}表示{ I2,I3,I4}同時出現的概率也大於等於設定的最小支援度，即大於等於 0.25。

這個演算法還是挺有用的，因為我們常常會關心什麼和什麼經常一起出現，這個演算法給我提供了一個解決方案。

頻繁模式挖掘（Frequent Pattern Mining）

頻繁模式挖掘（Frequent Pattern Mining）

購物籃分析分類演算法——頻繁模式挖掘（聚類演算法）

序列模式挖掘（AprioriAll和AprioriSome演算法）

Spark FPGrowth (Frequent Pattern Mining)

【安全牛學習筆記】?KALI版本更新和手動漏洞挖掘（SQL註入）

設計模式十七狀態模式State（物件行為型）

設計模式 ( 十五 ) 觀察者模式Observer（物件行為型）

吳伯凡-自我迭代與自我迭代的第一步--》模式識別（第一天更新）

常用設計模式總結（面試常問）

設計模式教程（Design Patterns Tutorial）筆記之一建立型模式（Creational Patterns）

設計模式之單例模式二（懶漢式double check）

觀察者模式實現（模仿CSharpMessenger擴充套件）

評價頻繁模式挖掘和關聯分析的指標(模型興趣度度量方法)

設計模式總結（Java語言實現）

基於約束的頻繁模式挖掘

時間序列頻繁模式挖掘：A->(EFG)->C 模式的思考

頻繁模式挖掘 Apriori 演算法簡介

【資料探勘學習筆記】10.頻繁模式挖掘基礎

頻繁模式挖掘 Apriori

poll兩種模式淺析（ET or LT）

頻繁模式挖掘（Frequent Pattern Mining）

相關推薦