R語言實現關聯規則與推薦演算法(學習筆記)

阿新 • • 發佈：2019-01-03

R語言實現關聯規則

筆者前言：以前在網上遇到很多很好的關聯規則的案例，最近看到一個更好的，於是便學習一下，寫個學習筆記。

推薦演算法中

物品-物品用關聯規則；

人物-物品用協同過濾；

人-人用社會網路分析；

特徵-物品用預測建模，分類模型。（本總結來自CDA DSC相關課程）

關聯規則和協同過濾演算法

關聯規則，將所有使用者的高頻產品進行推薦，但是如果要清倉，清除一些低頻的產品，關聯規則不太適用；而協同過濾可以顧及長尾。

————————————————————————————————————————————————————————————

一、關聯規則資料規則

1、資料格式

關聯規則需要把源資料的格式轉換為稀疏矩陣。

把上表轉化為稀疏矩陣，1表示訪問，0表示未訪問。

Session ID	News	Finance	Entertainment	Sports
1	1	1	0	0
2	1	1	0	0
3	1	1	0	1
4	0	0	0	0
5	1	1	0	1
6	1	0	1	0

2、關聯規則專業術語項集 ItemSet

這是一條關聯規則：

括號內的Item集合稱為項集。如上例，{News, Finance}是一個項集，{Sports}也是一個項集。

這個例子就是一條關聯規則：基於歷史記錄，同時看過News和Finance版塊的人很有可能會看Sports版塊。

{News,Finance} 是這條規則的Left-hand-side (LHS or Antecedent)

{Sports}是這條規則的Right-hand-side (RHS or Consequent)

LHS（Left Hand Side)的項集和RHS（Right Hand Side）的項集不能有交集。

二、關聯規則強度指標

1、支援度——商品出現頻次

項集的支援度就是該項集出現的次數除以總的記錄數（交易數）。

Support({News}) = 5/6 = 0.83

Support({News, Finance}) = 4/6 =0.67

Support({Sports}) = 2/6 = 0.33

支援度的意義在於度量項集在整個事務集中出現的頻次。我們在發現規則的時候，希望關注頻次高的項集。

2、置信度——兩商品同時發生概率

關聯規則 X -> Y 的置信度計算公式

規則的置信度的意義在於項集{X，Y}同時出現的次數佔項集{X}出現次數的比例。發生X的條件下，又發生Y的概率。

表示50%的人訪問過{News, Finance}，同時也會訪問{Sports}

3、提升度——兩商品獨立性

當右手邊的項集（consequent）的支援度已經很顯著時，即時規則的Confidence較高，這條規則也是無效的。

舉個例子：

在所分析的10000個事務中,6000個事務包含計算機遊戲,7500個包含遊戲機遊戲,4000個事務同時包含兩者。
關聯規則（計算機遊戲，遊戲機遊戲）支援度為0.4，看似很高，但其實這個關聯規則是一個誤導。
在使用者購買了計算機遊戲後有（4000÷6000）0.667 的概率的去購買遊戲機遊戲，而在沒有任何前提條件時，使用者反而有（7500÷10000）0.75的概率去購買遊戲機遊戲，也就是說設定了購買計算機遊戲這樣的條件反而會降低使用者去購買遊戲機遊戲的概率，所以計算機遊戲和遊戲機遊戲是相斥的。

所以要引進Lift這個概念，Lift(X->Y)=Confidence(X->Y)/Support(Y)

規則的提升度的意義在於度量項集{X}和項集{Y}的獨立性。即，Lift(X->Y)= 1 表面 {X}，{Y}相互獨立。[注：P(XY)=P(X)*P(Y),if X is independent of Y]

如果該值=1,說明兩個條件沒有任何關聯,如果<1,說明A條件(或者說A事件的發生)與B事件是相斥的,一般在資料探勘中當提升度大於3時,我們才承認挖掘出的關聯規則是有價值的。

最後，lift(X->Y) = lift(Y->X)

4、出錯率——規則預測精度

Conviction的意義在於度量規則預測錯誤的概率。

表示X出現而Y不出現的概率。

例子：

表面這條規則的出錯率是32%。

三、關聯規則核心演算法——Apriori演算法

如果項集A是頻繁的，那麼它的子集都是頻繁的。如果項集A是不頻繁的，那麼所有包括它的父集都是不頻繁的。

例子：{X, Y}是頻繁的，那麼{X}，{Y}也是頻繁的。如果{Z}是不頻繁的，那麼{X,Z}, {Y, Z}, {X, Y, Z}都是不頻繁的。

生成頻繁項集

給定最小支援度Sup，計算出所有大於等於Sup的項集。

第一步，計算出單個item的項集，過濾掉那些不滿足最小支援度的項集。

第二步，基於第一步，生成兩個item的項集，過濾掉那些不滿足最小支援度的項集。

第三步，基於第二步，生成三個item的項集，過濾掉那些不滿足最小支援度的項集。

如下例子（頻繁項集）：

One-Item Sets	Support Count	Support
{News}	5	0.83
{Finance}	4	0.67
{Entertainment}	1	0.17
{Sports}	2	0.33
Two-Item Sets	Support Count	Support
{News, Finance}	4	0.67
{News, Sports}	2	0.33
{Finance, Sports}	2	0.33
Three-Item Sets	Support Count	Support
{News, Finance, Sports}	2	0.33

四、R語言實現關聯規則

可參考該部落格：http://blog.csdn.net/gjwang1983/article/details/45015203

貼一些實現的圖：

________________________________________________________________________________________

五、關聯規則的推薦案例解讀

1、支援度、置信度、提升度用法

本總結來自CDA DSC相關課程三個指標，支援度、置信度、提升度的用法。

本圖的解讀，

第一幅上圖，買了基金的人還買了黃金的佔0.35，所有的人中買了黃金的有18%（基準），此時提升度為0.35/0.18=1.94>1，可以作為推薦；

作為客戶要衝銷量，則選擇面向基數大的部分，則選擇支援度、置信度大的，比如第一張圖的第三方存管，第二圖的結構性理財產品。

所以三個指標的基本用法：沖銷量、KPI會重點關注置信度大的；隨機推薦用提升度。

2、網商時代關聯規則背棄長尾效應

在實際案例運用過程中關聯規則與協同過濾的區別在於，

關聯規則推薦的是本來就很熱門的產品，因為代表同時發生頻率越高，關聯性越強。在網商時代會背棄長尾效應，讓差異擴大，2/8定律會一定程度上擴充至1/9，助長馬太效應。

一般要推薦冷門產品會使用協同過濾。下圖就是京東上使用關聯規則的例子。

R語言實現關聯規則與推薦演算法(學習筆記)

R語言實現關聯規則筆者前言：以前在網上遇到很多很好的關聯規則的案例，最近看到一個更好的，於是便學習一下，寫個學習筆記。推薦演算法中物品-物品用關聯規則；人物-物品用協同過濾；人-人用社會網路分析；特徵-

python呼叫R語言，關聯規則視覺化

首先當然要配置r語言環境變數什麼的 D:\R-3.5.1\bin\x64; D:\R-3.5.1\bin\x64\R.dll; D:\R-3.5.1; D:\ProgramData\Anaconda3\Lib\site-packages\rpy2; 本來用pyt

python實現關聯規則分析Apriori演算法

程式碼寫了好久了，今天搬上來。 Apriori演算法介紹： Apriori其實是為了降低搜尋空間以及提高搜尋速度而設計的一種演算法，本文采用python實現，徹底理解“頻繁項集的所有非空子集一定是頻繁的”這句話，並實現連線步、剪枝步、規則生成

基於圖模型的智慧推薦演算法學習筆記（含知識圖譜/圖神經網路，不止於智慧推薦）

【說在前面】本人部落格新手一枚，象牙塔的老白，職業場的小白。以下內容僅為個人見解，歡迎批評指正，不喜勿噴！[握手][握手] 【再囉嗦一下】如果你對智慧推薦感興趣，歡迎先瀏覽我的另一篇隨筆：智慧推薦演算法演變及學習筆記【最後再說一下】本文只對智慧推薦演算法中的基於圖模型的智慧推薦進行具體介紹！一、基於知識圖

機器學習演算法（一）——關聯規則Apriori演算法及R語言實現方法

關聯規則演算法算是一種十分常用的機器學習演算法，無論是面試還是日後工作中都會經常出現，那麼本篇小博就記錄一下自己學習關聯規則經典演算法Apriori的筆記。 1、概述 Apriori演算法是用一種稱為逐層搜尋的迭代方法，從項集長度k=1開始，選出頻繁的k=1項集，根據先驗性

【決策樹】ID3演算法理解與R語言實現

一、演算法理解想來想去，還是決定用各大暢銷書中的相親例子來解釋什麼叫決策樹。簡單來說，決策樹就是根據各種變數，作為輸入條件，最終輸出決策的過程。比如上圖中女方在相親過程中，影響是否見男方的變數有年齡、長相、收入、是否是公務員等。最終在各種變數組合下，最終輸出見或不

離散型與連續型資料決策樹構建及列印實現 R語言，ID3，C4.5演算法

本人的第一篇文章，趁著我們的資料探勘課設的時間，把實現的決策樹程式碼，拿出來分享下。有很多漏洞和缺陷，還有很多駭客思想的成分，但是總之，能實現，看網上的程式碼，能用的其實也沒幾個。廢話不多說，直接看程式碼特別鳴謝博主skyonefly的程式碼附上鍊接：R

關聯規則的R語言實現

############################ 關聯分析案例實踐 ############################ 背景假定: 在電影商店中,一個客戶在一次購物中(也可不同時間段多次購買)購買了很多不同種類,品牌的電影盤。我們要從中找到有用的資訊,提升商店的銷售。問題提出: 1

GIS資訊關聯規則挖掘——Apriori演算法的實現（下）

上篇說明了原理，這篇就直接上核心程式碼了~ 程式碼比較長，所以理解可能有點麻煩，核心思路就是計算選擇的維度後遍歷資料，逐步進行迴圈計算置信度，並淘汰每次迴圈後的最低值。這裡有一點要注意的，我一開始想用arraylist構造一個堆疊結構進行資料遍歷的儲存跟計算，因為這樣效率比較高。

GIS資訊關聯規則挖掘——Apriori演算法的實現（上）

最近閒著無聊沒啥課，幫讀master的朋友做了一個桌面端的GIS系統，主要功能是景區管理。其中有個核心功能挺有意思的，就是統計所有景區受損設施的所有致損型別和每個型別具體包含的致損因子後，計算致損因子之間的關聯規則，然後可以根據使用者選定的致損型別組合計算出其景區設施造成損害的概率。（有點

應用統計學與R語言實現學習筆記（五）——引數估計

Chapter 5 Estimation 本篇是第五章，內容是引數估計。 1.引數估計的一般問題正如前面介紹的，統計學的兩大分支，分別是描述統計和推斷統計。所以今天來談談推斷統計的第一大問題——引數估計。當然一般叫統計推斷的會更多些，二者是一樣

R語言使用Apriori規則完成關聯挖掘

說明關聯挖掘常被用於發現隱藏在事務資料集間的一些有意義的關聯，演算法首先找到所有頻繁項集，然後從這些頻繁項集中生成強規則。Apriori是最為著名的關聯規則挖掘技術。該演算法先找到頻繁個體項集，然後再通過廣度優先搜尋策略生成更大的頻繁項集，直至演算法最後再也

Bagging演算法的R語言實現

原始連結 http://www.tuicool.com/articles/yIjyiu bagging 是bootstrap aggregating的縮寫，是第一批用於多分類整合演算法。 bagging演算法如下：迴圈K次，每次都從樣本集D中有放回地抽取樣本集Di，這樣總共得到k個樣本集，用這K個樣

關聯規則，Apriori演算法及python實現

1 關聯規則關聯分析一個典型的例子是購物籃分析，廣泛應用於零售業，通過檢視那些商品經常在一起購買，可以幫助商店瞭解使用者的購買行為。一個最有名的例子是“尿布與啤酒”，據報道，美國中西部的一家連鎖店發現，男人們會在週四購買尿布和啤酒，這樣商家實際上就可以將尿布

區域性搜尋演算法的R語言實現

禁忌演算法禁忌演算法是啟發式演算法對個體的應用的一種。由於在運用最速下降或者最速上升區域性搜尋最值的時候可能會因為到了區域性最小值後停止搜尋。這裡禁忌演算法是一種可以look back的演算法，但是需要設定一些禁忌目錄來保證搜尋不是無限的。例如：在B

應用統計學與R語言實現學習筆記（二）——資料收集

Chapter 2 Data Collection 本篇是第二章，內容是資料收集。 1.資料來源做科學研究離不開資料，而資料的來源有哪些呢？這裡比較簡單地將資料來源分為兩類：直接（一手）資料和間接（二手）資料。直接資料的資料獲取來源包括

基於使用者的協同過濾演算法(Java實現或R語言實現

　　協同過濾的步驟是：　　建立資料模型 —> 使用者相似度演算法 —>使用者近鄰演算法 —>推薦演算法。　　基於使用者的協同過濾演算法在Mahout庫中已經模組化了，通過4個模組進行統一的方法呼叫。首先，建立資料模型(DataModel

樸素貝葉斯分類演算法的R語言實現

貝葉斯分類常用來預測隸屬關係，計算一個給定元組屬於某一類的概率首先我們來看下貝葉斯基本公式： P(B|A)的意思是在A事件的情況下，發生B事件的概率，可以理解為概率論中的條件概率，而貝葉斯公式的巨大作用就是對因果關係進行了交換，通過上面的公式就可以計算P(A|B

應用統計學與R語言實現學習筆記後記

1 後記應用統計學與R語言實現學習筆記這一系列部落格斷斷續續寫了5個月左右。現在終於算是基本完成了。我個人比較強迫症，比較喜歡一個系列更完再更其他的。所以中間有一些不錯的內容想寫到部落格裡都沒動筆。後面會繼續填坑。另外之後遇到的跟應用統計學與R語言實現相關的

機器學習演算法（二）——決策樹分類演算法及R語言實現方法

決策樹演算法是分類演算法中最常用的演算法之一。決策樹是一種類似流程圖的樹形結構，可以處理高維資料，直觀易理解，且準確率較高，因此應用廣泛。本篇小博就決策樹的若干演算法：ID3演算法、C4.5演算法以及分類迴歸樹（CART）、C5.0進行對比介紹，並對比C4.5與C5.0處理

R語言實現關聯規則與推薦演算法(學習筆記)

一、關聯規則資料規則

1、資料格式

2、關聯規則專業術語項集 ItemSet

二、關聯規則強度指標

1、支援度——商品出現頻次

2、置信度——兩商品同時發生概率

3、提升度——兩商品獨立性

最後，lift(X->Y) = lift(Y->X)

4、出錯率——規則預測精度

四、R語言實現關聯規則

五、關聯規則的推薦案例解讀

1、支援度、置信度、提升度用法

2、網商時代關聯規則背棄長尾效應

相關推薦