資料探勘之關聯規則挖掘之Apriori演算法實現

阿新 • • 發佈：2019-01-01

演算法細節見論文：Fast Algorithm for Mining Association Rules

控制檯版本C++程式碼如下：

#include <iostream>
#include <sstream>
#include <fstream>
#include <vector>
#include <set>
#include <map>
#include <ctime>
using namespace std;

//讀取檔案獲取整個資料庫儲存在database中，fileName必須為char*型，要是用string會報錯，in()不認
bool ObtainDatabase(vector<set<int> > &database,char *fileName)
{
/*	set<int> data;
	data.insert(1);data.insert(2);data.insert(5);
	database.push_back(data);
	
	data.clear();
	data.insert(2);data.insert(4);
	database.push_back(data);
	
	data.clear();
	data.insert(2);data.insert(3);
	database.push_back(data);
	
	data.clear();
	data.insert(1);data.insert(2);data.insert(4);
	database.push_back(data);
	
	data.clear();
	data.insert(1);data.insert(3);
	database.push_back(data);
	
	data.clear();
	data.insert(2);data.insert(3);
	database.push_back(data);
	
	data.clear();
	data.insert(1);data.insert(3);
	database.push_back(data);
	
	data.clear();
	data.insert(1);data.insert(2);data.insert(3);data.insert(5);
	database.push_back(data);
	
	data.clear();
	data.insert(1);data.insert(2);data.insert(3);
	database.push_back(data);
*/	
	ifstream in(fileName);
	if(!in)
	{
		cout<<"檔案開啟失敗！"<<endl;
		return false;
	}
	
	string s="";
	unsigned int i=0;
	while(getline(in,s))
	{//讀取一行記錄
	i++;
		set<int> transaction;
		int len=s.length();
		string str="";
		for(int i=0;i<len;i++)
		{//將記錄中的數提取出來
			if(s[i]!=' ')
			{
				str+=s[i];
			}
			else if(s[i]==' '||i==len-1)
			{
				//字串轉int
				stringstream stoi(str);
				int item=0;
				stoi>>item;
				
				transaction.insert(item);
				
				str="";
			}
		}
		database.push_back(transaction);
		s="";
	}
	cout<<i<<endl; //system("pause");
	return true;

}

//遍歷一遍資料庫，建立1-項大項集
void CreateItemset(vector<set<int> >&database,vector<set<int> > &largeItemset,unsigned int minSupport,map<set<int>,int> &lm1)
{
	map<int,int> dir;
	map<int,int>::iterator dirIt;
	
	vector<set<int> >::iterator databaseIt;
	
	set<int> temp;
	set<int>::iterator tempIt;
	
	//根據資料庫建立字典，字典形式為<item,count>
	for(databaseIt=database.begin();databaseIt!=database.end();databaseIt++)
	{
		temp=*databaseIt;
		for(tempIt=temp.begin();tempIt!=temp.end();tempIt++)
		{
			int item=*tempIt;
			dirIt=dir.find(item);
			if(dirIt==dir.end())
			{//item不在字典dir中
				dir.insert(pair<int,int>(item,1));
			}
			else
			{//item在字典dir中，則將其count值加1
				(dirIt->second)++;
			}
		}
	}
	
	//從字典中選出支援度超過minSopport的item
	for(dirIt=dir.begin();dirIt!=dir.end();dirIt++)
	{
		if(dirIt->second>=minSupport)
		{
			set<int> large;
			large.insert(dirIt->first);
			largeItemset.push_back(large);
			lm1.insert(pair<set<int>,int>(large,dirIt->second));
		}
	}
	
}


//輸出大項集
void OutputLargeItemset(vector<set<int> > &largeItemset,unsigned int i)
{
	cout<<"包含 "<<largeItemset.size()<<" 項的 "<<i<<"-項大項集："<<endl;
	
	vector<set<int> >::iterator largeItemsetIt;
	int j=0;
	for(largeItemsetIt=largeItemset.begin();largeItemsetIt!=largeItemset.end();largeItemsetIt++)
	{
		set<int> temp=*largeItemsetIt;
		cout<<"{ ";
		for(set<int>::iterator tempIt=temp.begin();tempIt!=temp.end();tempIt++)
		{
			cout<<(*tempIt)<<" ";
		}
		cout<<"}";
		j++;
		if(j%4==0)
		{
			cout<<endl;
		}
	}
	cout<<endl<<endl;
}

//連線步驟，若it1和it2符合連線條件，則把它們連線為temp，返回true，否則返回false
bool Joint(set<int> &recordI,set<int> &recordJ,set<int> &temp)
{
	if(recordI.size()!=recordJ.size())
	{//倆集合大小不一樣，立馬返回！
		return false;
	}
	set<int>::iterator it1=recordI.begin();
	set<int>::iterator it2=recordJ.begin();
	
	unsigned int size=recordI.size()-1;
	for(int i=0;i<size;i++)
	{
		if(*it1!=*it2)
		{
			return false;
		}
		temp.insert(*it1);
		it1++;
		it2++;
	}
	if(*it1==*it2)
	{
		return false;
	}
	temp.insert(*it1);
	temp.insert(*it2);
	//cout<<"連線"<<*it1<<" "<<*it2<<endl;
	return true;
}

//剪枝步驟，若temp的k-1項集有不在L[k-1]中，則剪掉，返回false，否則返回true
bool Prune(set<int> &temp,vector<set<int> > &largeTemp)
{
	unsigned int size=temp.size();
	
	//獲取temp的全部k-1項子集，並判斷每個子集是否在L[k-1]中
	for(int i=0;i<size;i++)
	{	
		set<int>::iterator tempIt=temp.begin();
		set<int> tempMinusOne;//盛放k-1項子集
		for(int j=0;j<size;j++)
		{
			if(j!=i)
			{
				tempMinusOne.insert(*tempIt);
			}
			*tempIt++;
		}
		
		//判斷tempMinusOne是否在L[k-1]中
		vector<set<int> >::iterator largeTempIt;
		bool flag=false;//temp是否被剪掉的標識
		for(largeTempIt=largeTemp.begin();largeTempIt!=largeTemp.end();largeTempIt++)
		{//對大項集集合largeTemp中的大項集*largeTempIt逐個與tempMinusOne進行比對，看相不相同，相同就會保證flag=true，否則為false
			flag=true;
			set<int> large=*largeTempIt;
			set<int>::iterator tempMinusOneIt=tempMinusOne.begin();
			for(set<int>::iterator largeIt=large.begin();largeIt!=large.end();largeIt++)
			{
				if(*largeIt!=*tempMinusOneIt)
				{
					flag=false;
					break;
				}
				tempMinusOneIt++;
			}
			if(flag==true)
			{//存在了，不用再和其它大項集比較了，浪費時間
				return true;
			}
		}
	}
	return false;
}

//利用L[k-1]，通過連線和剪枝兩個步驟，生成候選集集合candidate
void AprioriGen(vector<set<int> > &largeTemp,vector<set<int> > &candidate)
{
	unsigned int largeTempSize=largeTemp.size();
	
	unsigned int sizeTemp=largeTempSize-1;
		
	vector<set<int> >::iterator largeTempIt=largeTemp.begin();
	//L[k-1]中的大項集兩兩連線，求候選集集合
	for(int i=0;i<sizeTemp;i++,largeTempIt++)
	{//system("pause");cout<<largeTempSize<<" "<<i<<endl;
		set<int> recordI=*largeTempIt;
		for(int j=i+1;j<largeTempSize;j++)
		{//cout<<j<<endl;
			set<int> recordJ=*(largeTempIt+(j-i));
			set<int> temp;
		//	cout<<"進行連線"<<endl;
			if(Joint(recordI,recordJ,temp))
			{//recordI和recordJ能連線成temp，則對temp進行剪枝
			//cout<<"連線成功，進行剪枝"<<endl; 
				if(Prune(temp,largeTemp))
				{//temp沒有被剪掉，則把它加到候選集的集合中
				if(!temp.empty())
			//	cout<<"temp不為空，沒有被剪掉，成為到候選集"<<endl;
					candidate.push_back(temp);
				}
			//	else{cout<<"被剪掉了"<<endl;} 
			}
			//else{cout<<"不符合連線條件"<<endl; } 
		}//system("pause");
	}
}


//對比資料庫中的每條交易，計算每個候選集的支援度，選出大於等於最小支援度的候選集來構成L[k]
void Subset(vector<set<int> > &database,vector<set<int> > &candidate,vector<set<int> > &largeK,unsigned int minSupport,map<set<int>,int> &lm)
{	
	
	vector<set<int> >::iterator databaseIt;
	vector<set<int> >::iterator candidateIt;
	
	for(candidateIt=candidate.begin();candidateIt!=candidate.end();candidateIt++)
	{//對於每個候選集can
		//bool cunzai=true;
	
		set<int> can=*candidateIt;
		
		//cout<<"cannnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn"<<endl;
		
		unsigned int canCount=0;
		for(databaseIt=database.begin();databaseIt!=database.end();databaseIt++)
		{//對於資料庫中每條交易，檢視can是否在其中
			set<int> data=*databaseIt;
			
			if(can.size()>data.size())
			{
				continue;//候選集大小大於交易大小，肯定不在這個交易中
			}
			
			set<int>::iterator canIt;
			for(canIt=can.begin();canIt!=can.end();canIt++)
			{//對於can中每個項，看它是否在交易data中
				if(data.find(*canIt)==data.end())
				{
					break;
				}
				
			}
			
			if(canIt==can.end())
			{//cout<<"在"<<endl;//system("pause");
				canCount++;
                
                //cout<<canCount<<endl;
			}
		}
		if(canCount>=minSupport)
		{//canCount只要大於等於最小支援度，我們就退出迴圈，不再對該候選集進行計數了，浪費時間
			largeK.push_back(can);
			lm.insert(pair<set<int>,int>(can,canCount));
		}
	}
}

int main(int argc,char *argv[])
{
	char name[200];
	string file="";
	char *fileName="retail.dat";
	int minSupport=5000;//最小支援度
/*	
	string ctl="";
	cout<<"手動輸入檔案路徑和最小支援度（Y/N）？";
	cin>>ctl;
	if(ctl=="Y"||ctl=="y")
	{
		cout<<"請依次輸入檔案路徑和最小支援度，用空格隔開。（檔案路徑要用雙斜槓）:\n";
		cin>>file>>minSupport;
		strcpy(name,file.c_str());
		fileName=name;
	}	
	*/
	
	vector<map<set<int>,int> > liss;
	
    clock_t start=clock();	
	vector<set<int> > database;//資料庫
	ObtainDatabase(database,fileName);
	
	vector<set<int> > large1;
	map<set<int>,int> lm1;
	CreateItemset(database,large1,minSupport,lm1);
	
	liss.push_back(lm1);
	
	int k=1;
	vector<set<int> > largeTemp=large1;
	while(!largeTemp.empty())
	{
		
		OutputLargeItemset(largeTemp,k);
		k++;
		
		vector<set<int> > candidate;
		AprioriGen(largeTemp,candidate);
		
		vector<set<int> > largeK;
		map<set<int>,int> lm;
		Subset(database,candidate,largeK,minSupport,lm);
		
		largeTemp=largeK;
		
		if(largeTemp.empty())
		{
			cout<<"L["<<k<<"]為空"<<endl;
		} 
		else
		{
			liss.push_back(lm);	
		}
	}		
	
	
	
	clock_t end=clock();
	cout<<"Finish!共用時："<<(end-start)<<"ms"<<endl;
	system("pause");
}

資料探勘之關聯規則挖掘（Apriori演算法）

一、概述本篇博文主要闡述資料探勘相關的關聯規則挖掘的演算法（Apriori演算法）。主要介紹關聯規則的基本概念、Apriori演算法原理和Apriori演算法例項，文章末尾處附加Apriori演算法源程式。二、關聯規則挖掘的基本概念關聯規則挖掘發現大量資料中項集之間有趣的關聯

資料探勘之關聯規則挖掘之Apriori演算法實現

演算法細節見論文：Fast Algorithm for Mining Association Rules 控制檯版本C++程式碼如下： #include <iostream> #include <sstream> #include <fs

資料探勘筆記-關聯規則-Apriori-原理與簡單實現

public class AprioriBuilder { /** 最小支援度*/ private int minSupport = 2; /** 最小置信度*/ private double minConfidence = 0.6; /** 資料集*/ private Data data = n

資料探勘第一課學習筆記（Apriori演算法和FPTree演算法）

首先明確關聯規則挖掘中的幾個概念定義：假設有資料集表示幾個客戶買的東西如下： t1: 牛肉、雞肉、牛奶 t2: 牛肉、乳酪 t3: 乳酪、靴子 t4: 牛肉、雞肉、乳酪 t5: 牛肉、雞肉、衣服、乳酪、牛奶 t6: 雞肉、衣服、牛奶 t7: 雞肉、牛奶、衣服ti表示不同

資料探勘演算法之關聯規則挖掘（二）FPGrowth演算法

之前介紹的apriori演算法中因為存在許多的缺陷，例如進行大量的全表掃描和計算量巨大的自然連線，所以現在幾乎已經不再使用在mahout的演算法庫中使用的是PFP演算法，該演算法是FPGrowth演算法的分散式執行方式，其內部的演算法結構和FPGrowth演算法相差並不是

資料探勘演算法之-關聯規則挖掘(Association Rule)

在資料探勘的知識模式中，關聯規則模式是比較重要的一種。關聯規則的概念由Agrawal、Imielinski、Swami 提出，是資料中一種簡單但很實用的規則。關聯規則模式屬於描述型模式，發現關聯規則的演算法屬於無監督學習的方法。一、關聯規則的定義和屬性考察一

【Python資料探勘課程】八.關聯規則挖掘及Apriori實現購物推薦

這篇文章主要介紹三個知識點，也是我《資料探勘與分析》課程講課的內容。 1.關聯規則挖掘概念及實現過程； 2.Apriori演算法挖掘頻繁項集； 3.Python實現關聯規則挖掘及置信度、支援度計算。一. 關聯規則挖掘概

《資料探勘導論》第一章之緒論

資料探勘數學基礎：線性代數, 維度規約，概率統計，迴歸和優化資料探勘涵蓋領域：資料預處理，視覺化，預測建模，關聯分析，聚類，異常檢測資料探勘涵蓋主題：

【資料探勘筆記六】挖掘頻繁模式、關聯和相關性：基本概念和方法

6.挖掘頻繁模式、關聯和相關性：基本概念和方法頻繁模式（frequent pattern）是頻繁地出現在資料集中的模式。 6.1 基本概念頻繁模式挖掘搜尋給定資料集中反覆出現的聯絡，旨在發現大型事務或關係資料集中項之間有趣的關聯或相關性，其典型例子就是購物籃分析。購物

資料探勘乾貨總結（六）--推薦演算法之CF

本文共計1245字，預計閱讀時長八分鐘推薦演算法(二）--CF演算法一、推薦的本質推薦分為非個性化和個性化，非個性化推薦比如各類榜單，而本系列主要介紹個性化推薦，即：在合適的場景，合適的時機，通過合適的渠道，把合適的內容，推薦給合適的使用者二、推薦演算法的種類1. 基於內容C

海量資料探勘MMDS week4: 推薦系統之資料降維Dimensionality Reduction

海量資料探勘Mining Massive Datasets(MMDs) -Jure Leskovec courses學習筆記推薦系統Recommendation System之降維Dimensionality Reduction{部落格內容：推薦系統有一種推薦稱作隱語義模型

資料探勘乾貨總結（五）--推薦演算法之CB

本文共計927字，預計閱讀時長六分鐘推薦演算法(一)--CB演算法一、推薦的本質推薦分為非個性化和個性化，非個性化推薦比如各類榜單，而本系列主要介紹個性化推薦，即：在合適的場景，合適的時機，通過合適的渠道，把合適的內容，推薦給合適的使用者二、推薦演算法的種類1. 基於內容Co

python資料探勘實戰筆記——文字挖掘（1）：語料庫構建

什麼是文字挖掘？　　文字挖掘是抽取有效、新穎、有用、可理解的、散佈在文字檔案中的有價值知識，並且利用這些知識更好地組織資訊的過程。一、搭建語料庫語料庫：要進行文字分析的所有文件的集合。需要用到的模組：os、os.path、codecs、pandas 程

python資料探勘實戰筆記——文字挖掘（4）：詞雲繪製

概念：詞雲：詞雲是指對文字中詞頻較高的分詞，給予視覺上的突出，形成“關鍵詞渲染”，從而過濾掉大量的文字資訊，使瀏覽者一眼掃過就可以領略文字的主旨。需要用到的包：wordcloud、matplotlib wordcloud包下載地址：http://www.l

資料探勘---頻繁項集挖掘Apriori演算法的C++實現

1 準備 2 作業粗糙翻譯內容 2.1 前言程式設計作業可能比書面作業花費更多的時間，而這也算是你最後成績的10%，所以請提前開始；這是個人作業，你可以與你的同學或者老師交流，但是不能夠共享程式碼和抄襲；類似的庫或頻繁模式挖掘演算

資料探勘筆記-聚類-KMeans-原理與簡單實現

K中心點演算法（K-medoids）提出了新的質點選取方式，而不是簡單像k-means演算法採用均值計演算法。在K中心點演算法中，每次迭代後的質點都是從聚類的樣本點中選取，而選取的標準就是當該樣本點成為新的質點後能提高類簇的聚類質量，使得類簇更緊湊。該演算法使用絕對誤差標準來定義一個類簇的緊湊程度。如果

【python資料探勘課程】十四.Scipy呼叫curve_fit實現曲線擬合

前面系列文章講過各種知識，包括繪製曲線、散點圖、冪分佈等，而如何在在散點圖一堆點中擬合一條直線，也變得非常重要。這篇文章主要講述呼叫Scipy擴充套件包的curve_fit函式實現曲線擬

資料探勘筆記-聚類-Canopy-原理與簡單實現

Canopy聚類演算法是一個將物件分組到類的簡單、快速、精確地方法。每個物件用多維特徵空間裡的一個點來表示。這個演算法使用一個快速近似距離度量和兩個距離閾值 T1>T2來處理。基本的演算法是，從一個點集合開始並且隨機刪除一個，建立一個包含這個點的Canopy，並在

資料探勘應用的一些場景和對應演算法

資料探勘越來使用廣泛，下愛你介紹一些常見的使用場景以及對應的演算法： 1. 客戶細分：典型的分類問題 2.客戶流失預測分析：當作一個識別問題處理 3.客戶社會關係挖掘：關聯分析以及基於圖的關聯分

【Python資料探勘課程】三.Kmeans聚類程式碼實現、作業及優化

這篇文章直接給出上次關於Kmeans聚類的籃球遠動員資料分析案例，同時介紹這次作業同學們完成的圖例，最後介紹Matplotlib包繪圖的優化知識。希望這篇文章對你有所幫助，尤其是剛剛接觸資料探勘以及大資料的同學，同時準備嘗試以案例為主的方式進行

資料探勘之關聯規則挖掘之Apriori演算法實現

相關推薦