給出《Python資料分析與挖掘實戰大資料技術叢書》Aprior演算法另一種寫法

阿新 • • 發佈：2019-01-15

背景

關聯規則應用，一般是為了尋求：已知某些項在一定概率下推匯出另一項，這樣的組合。
當然在資料量比較小的時候，這樣的問題可以窮盡的，但是在資料量比較大時，搜尋將成為瓶頸。
Aprior演算法提出頻繁項的子集必須都是頻繁，據此設計程式將減少搜尋次數。
在看《Python資料分析與挖掘實戰大資料技術叢書.pdf》，裡面實現的Aprior演算法有點煩瑣，而且未實現剪下步，有提升空間。
按自己的思路重寫了一遍，耗時90ms——>70ms，效率提高22%。

程式碼

import pandas as pd
import itertools
def find_rule2(d, support, confidence) 
:
    """
        關聯規則：Aprior演算法
            輸入：
            d: 資料樣本,pd.DataFrame
                示例：（3條資料）
                    a  b  c  d  e
                0  1  0  1  0  1
                1  0  1  0  1  0
                2  0  1  1  0  0
      support：支援度閾值，0.2 表示 20%
   confidence：置信度閾值，0.3 表示 30%
           
        含 連線步、剪下步
    """ 

    result = dict() #定義輸出結果
    # 最小支援度個數
    lend = len(d)
    support_num  = support*lend

    support_series = d.sum() #支援度序列
    L1 = {(k,):v for k,v in support_series[support_series>=support_num].items()} #L1頻繁項集
    # 計算支援度數目
    def getsupport(v):
        return np.sum(d.loc[:,v].sum(axis= 
1)==len(v))

    LL_all = []
    
    LLn = L1
    k = 0
    
    while len(LLn)>1:
        k += 1
        print("開始第%d輪搜尋……"%k)
        print("數目：%d"%len(LLn))
        
        LL_all.append(LLn) 
        
        # 連線步：
        df = pd.DataFrame([dict.fromkeys(key,1) for key in LLn.keys()],index=LLn.keys()).fillna(0)
        LL = {}
        for itemsets in itertools.combinations(df.columns[df.sum()>=k],k+1):
            # 剪下步：可以在這裡對itemsets的每一個子集是否在頻繁項進行過濾減少查詢頻率
            if np.sum(df.ix[:,itemsets].sum(axis=1)==k) != k+1:
                continue
            snum = getsupport(itemsets)
            if snum >= support_num:
                LL[itemsets] = snum
                
                # 產生關聯規則
                for i in range(1,k+1):
                    for cs  in itertools.combinations(itemsets,i):
                        # 置信度 P(B|A) = P(AB)/P(A)
                        cf = snum/LL_all[i-1][cs]
                        if cf>=confidence:
                            name = "".join(["--".join(cs),"->","--".join(set(itemsets).difference(cs))])
                            result[name] = (snum/lend,cf)
        LLn = LL
    return pd.DataFrame(result).T.rename(columns = {0:"support",1:"confidence"}).sort_values(by=["support","confidence"])

給出《Python資料分析與挖掘實戰大資料技術叢書》Aprior演算法另一種寫法

背景

程式碼

給出《Python資料分析與挖掘實戰大資料技術叢書》Aprior演算法另一種寫法

菜鷄日記——《Python資料分析與挖掘實戰》實驗6-1 拉格朗日插值法

Python資料分析與挖掘實戰 pdf下載

推薦書籍《Python資料分析與挖掘實戰》附下載連結

《Python資料分析與挖掘實戰》筆記（一）：資料探勘基礎

Python資料分析與挖掘實戰—挖掘建模

Python資料分析與挖掘實戰（Pandas,Matplotlib常用方法）

Python資料分析與挖掘實戰程式碼糾錯程式碼3-1

《Python資料分析與挖掘實戰》第7章——kmeans

python資料分析與挖掘實戰第六章拓展思考

《Python資料分析與挖掘實戰》第13章——迴歸+DNN

《Python資料分析與挖掘實戰》第15章——文字挖掘

『Python資料分析與挖掘實戰』第五章：挖掘建模

Python資料分析與挖掘實戰學習筆記（一）

python資料分析與挖掘實戰第九章拓展練習

python資料分析與挖掘實戰第七章拓展思考

《Python資料分析與挖掘實戰》筆記（五）：資料建模

python資料分析與挖掘實戰筆記二：第99頁神經網路訓練出現的錯誤'Some keys in session_kwargs are not supported at this time: %s'

《Python資料分析與挖掘實戰》第10章（上）——DNN

《Python資料分析與挖掘實戰》第8章——Apriori關聯規則

給出《Python資料分析與挖掘實戰大資料技術叢書》Aprior演算法另一種寫法

背景

程式碼

相關推薦