資料分析模型之樸素貝葉斯模型

阿新 • • 發佈：2020-10-25

模型思想

該分類器的實現思想⾮常簡單，即通過已知類別的訓練資料集，計算樣本的先驗概率，然後利⽤⻉葉斯概率公式測算未知類別樣本屬於某個類別的後驗概率，最終以最⼤後驗概率所對應的類別作為樣本的預測值。

先驗概率

先驗概率：指根據以往經驗和分析得到的概率，如全概率公式，它往往作為"由因求果"問題中的"因"出現的概率。

後驗概率

後驗概率：是資訊理論的基本概念之一。在一個通訊系統中，在收到某個訊息之後，接收端所瞭解到的該訊息傳送的概率稱為後驗概率。
後驗概率的計算要以先驗概率為基礎。後驗概率可以根據通過貝葉斯公式，用先驗概率和似然函式計算出來。

高斯貝葉斯分類器

高斯貝葉斯分類器：適用於資料集的自變數X都是連續的數值型，通常會優先使用高斯貝葉斯分類器

多項式貝葉斯分類器

多項式貝葉斯分佈器：適用於資料集的自變數X都是離散的數值型，通常會優先使用多項式貝葉斯分類器

伯努利貝葉斯分類器

伯努利貝葉斯分類器：適用於資料集中的自變數X都是0-1的二元值，通常會優先使用伯努利貝葉斯分類器

高斯貝葉斯分類器

  # 讀⼊資料
  skin = pd.read_excel(r'C:\Users\Administrator\Desktop\Skin_Segment.xlsx')
  # 樣本拆分
  X_train,X_test,y_train,y_test = model_selection.train_test_split(skin.iloc[:,:3], skin.y,
  test_size = 0.25, 
  random_state=1234)
  # 調⽤⾼斯樸素⻉葉斯分類器的“類”
  gnb = naive_bayes.GaussianNB()
  # 模型擬合
  gnb.fit(X_train, y_train)
  # 模型在測試資料集上的預測
  gnb_pred = gnb.predict(X_test)
  # 構建混淆矩陣
  cm = pd.crosstab(gnb_pred,y_test)
  # 繪製熱力圖
  sns.heatmap(cm, annot = True, cmap = 'GnBu', fmt = 'd')
  # 去除x軸和y軸標籤
  plt.xlabel('Real')
  plt.ylabel('Predict')
  # 顯示圖形
  plt.show()
  print('模型的準確率為：\n',metrics.accuracy_score(y_test,gnb_pred))

多項式貝葉斯分類器

  # 讀取資料
  mushrooms = pd.read_csv(r'C:\Users\Administrator\Desktop\mushrooms.csv')
  # 將字元型資料做因⼦化處理，將其轉換為整數型資料
  columns = mushrooms.columns[1:]
  for column in columns:
  mushrooms[column] = pd.factorize(mushrooms[column])[0]
  # 將資料集拆分為訓練集合測試集
  Predictors = mushrooms.columns[1:]
  X_train,X_test,y_train,y_test = model_selection.train_test_split(mushrooms[Predictors],
  mushrooms['type'],
  test_size = 0.25,
  random_state = 10)
  # 構建多項式⻉葉斯分類器的“類”
  mnb = naive_bayes.MultinomialNB()
  # 基於訓練資料集的擬合
  mnb.fit(X_train, y_train)
  # 基於測試資料集的預測
  mnb_pred = mnb.predict(X_test)
  # 構建混淆矩陣
  cm = pd.crosstab(mnb_pred,y_test)
  # 繪製熱力圖
  sns.heatmap(cm, annot = True, cmap = 'GnBu', fmt = 'd')
  # 去除x軸和y軸標籤
  plt.xlabel('')
  plt.ylabel('')
  # 顯示圖形
  plt.show()
  # 模型的預測準確率
  print('模型的準確率為：\n',metrics.accuracy_score(y_test, mnb_pred))

伯努利貝葉斯分類器

  jieba模組
  Python中針對中文進行欄位的分解（需要自定義詞庫，停止詞詞庫）
  # 讀⼊評論資料
  evaluation = pd.read_excel(r'Contents.xlsx',sheetname=0)
  # 運⽤正則表示式，將評論中的數字和英⽂去除
  evaluation.Content = evaluation.Content.str.replace('[0-9a-zA-Z]','')
  # 載入⾃定義詞庫
  jieba.load_userdict(r'all_words.txt')
  # 讀⼊停⽌詞
  with open(r'mystopwords.txt', encoding='UTF-8') as words:
  stop_words = [i.strip() for i in words.readlines()]
  # 構造切詞的⾃定義函式，並在切詞過程中刪除停⽌詞
  def cut_word(sentence):
  words = [i for i in jieba.lcut(sentence) if i not in stop_words]
  # 切完的詞⽤空格隔開
  result = ' '.join(words)
  return(result)
  # 調⽤⾃定義函式，並對評論內容進⾏批量切詞
  words = evaluation.Content.apply(cut_word)
  # 計算每個詞在各評論內容中的次數，並將稀疏度為99%以上的詞刪除
  counts = CountVectorizer(min_df = 0.01)
  # ⽂檔詞條矩陣
  dtm_counts = counts.fit_transform(words).toarray()
  # 矩陣的列名稱
  columns = counts.get_feature_names()
  # 將矩陣轉換為資料框，即X變數
  X = pd.DataFrame(dtm_counts, columns=columns)
  # 情感標籤變數
  y = evaluation.Type
  # 將資料集拆分為訓練集和測試集
  X_train,X_test,y_train,y_test = model_selection.train_test_split(X,y,test_size = 0.25,random_state=1)
  # 構建伯努利⻉葉斯分類器
  bnb = naive_bayes.BernoulliNB()
  # 模型在訓練資料集上的擬合
  bnb.fit(X_train,y_train)
  # 模型在測試資料集上的預測
  bnb_pred = bnb.predict(X_test)
  # 構建混淆矩陣
  cm = pd.crosstab(bnb_pred,y_test)
  # 繪製混淆矩陣圖
  sns.heatmap(cm, annot = True, cmap = 'GnBu', fmt = 'd')
  # 去除x軸和y軸標籤
  plt.xlabel('Real')
  plt.ylabel('Predict')
  # 顯示圖形
  plt.show()

資料分析模型之樸素貝葉斯模型

模型思想該分類器的實現思想⾮常簡單，即通過已知類別的訓練資料集，計算樣本的先驗概率，然後利⽤⻉葉斯概率公式測算未知類別樣本屬於某個類別的後驗概率，最終以最⼤後驗概率所對應的類別作為樣本的預測值。

Matlab建立SVM，KNN和樸素貝葉斯模型分類繪製ROC曲線

原文連結：http://tecdat.cn/?p=15508 繪製ROC曲線通過Logistic迴歸進行分類載入樣本資料。

機器學習（3）高斯判別分析&樸素貝葉斯分類器

判別模型與生成模型判別模型判別模型是對觀測資料進行直接分類，常見的判別模型有邏輯迴歸和感知機演算法等。此模型僅對資料進行分類，並不能具象化或者量化資料本身的分佈狀態，因此也無法根據分類生成可

機器學習筆記之python實現樸素貝葉斯演算法樣例

0x00 概述 # 這是分類演算法貝葉斯演算法的較為簡單的一種，整個貝葉斯分類演算法的核心就是在求解貝葉斯方程Ｐ（ｙ｜ｘ）＝［Ｐ（ｘ｜ｙ）Ｐ（ｙ）］／Ｐ（ｘ）

機器學習演算法-樸素貝葉斯（二）：模擬離散資料集--貝葉斯分類（程式碼附詳細註釋）

技術標籤：樸素貝葉斯機器學習 step 1：庫函式匯入 import random import numpy as np # 使用基於類目特徵的樸素貝葉斯

各種機器學習演算法的應用場景分別是什麼（比如樸素貝葉斯、決策樹、K 近鄰、SVM、邏輯迴歸最大熵模型）？...

連結：https://www.zhihu.com/question/26726794 編輯：深度學習與計算機視覺宣告：僅做學術分享，侵刪

拓端tecdat|基於貝葉斯模型的隨機森林預測方法分析汽車燃油經濟性

原文連結：http://tecdat.cn/?p=23075 原文出處：拓端資料部落公眾號這個例子展示瞭如何用Matlab實現貝葉斯優化，使用分位數誤差調整迴歸樹隨機森林的超引數。如果你打算使用模型來預測條件量值而不是條件平均值，

樸素貝葉斯——分類模型

樸素貝葉斯的簡介，和基本使用sample。樸素貝葉斯——分類模型樸素貝葉斯：首先貝葉斯推論就是通過結論推條件。專業點就是先假定先驗概率，然後通過後驗概率來判斷先驗概率的正確性，若不準確，則修正。（感覺

模型概率和樸素貝葉斯分類器

目錄 Sample Spaces Conditional Probability and Independence Density Functions Expected Value Variance Joint, Marginal, and Conditional Distributions

naiveBayes（樸素貝葉斯）演算法及案例分析

naiveBayes（樸素貝葉斯）演算法的R語言實現 #步驟1 載入e1071包 library(e1071) library(printr)

Python資料科學手冊-機器學習：樸素貝葉斯分類

樸素貝葉斯模型樸素貝葉斯模型是一組非常簡單快速的分類方法，通常適用於維度非常高的資料集。因為執行速度快，可調引數少。是一個快速粗糙的分類基本方案。

R語言用貝葉斯線性迴歸、貝葉斯模型平均 (BMA)來預測工人工資|附程式碼資料

全文連結：http://tecdat.cn/?p=24141 最近我們被客戶要求撰寫關於貝葉斯線性迴歸的研究報告，包括一些圖形和統計輸出。

mooc機器學習第六天-K近鄰，決策樹，樸素貝葉斯分類器簡單嘗試

1.下面的程式碼是上一篇理論中的小例子 from sklearn.neighbors import KNeighborsClassifier # K近鄰分類器

機器學習：樸素貝葉斯分類器實現二分類（伯努利型）程式碼+專案實戰

一、樸素貝葉斯分類器的構建 import numpy as np class BernoulliNavieBayes: def __init__(self, alpha=1.):

機器學習實戰---樸素貝葉斯演算法

一：準備資料（一）載入原始資料 import numpy as np def loadDataSet(): postingList=[[\'my\', \'dog\', \'has\', \'flea\', \'problems\', \'help\', \'please\'],#每一行詞表，代表一個文件

樸素貝葉斯演算法

一、概述貝葉斯分類演算法是統計學的一種概率分類方法，樸素貝葉斯分類是貝葉斯分類中最簡單的一種。其分類原理就是利用貝葉斯公式根據某特徵的先驗概率計算出其後驗概率，然後選擇具有最大後驗概率的類作為該特徵

基於概率論的分類方法：樸素貝葉斯

#基於概率論的分類方法：樸素貝葉斯 \'\'\' 優點：在資料較少的情況下任然有效，可以處理多類別問題。

【樸素貝葉斯】理解與使用

1：原理理解舉個形象的例子，若我們走在街上看到一個黑面板的外國友人，讓你來猜這位外國友人來自哪裡。十有八九你會猜是從非洲來的，因為黑面板人種中非洲人的佔比最多，雖然黑面板的外國人也有可能是美洲人或

python 實現樸素貝葉斯演算法的示例

特點這是分類演算法貝葉斯演算法的較為簡單的一種，整個貝葉斯分類演算法的核心就是在求解貝葉斯方程Ｐ（ｙ｜ｘ）＝［Ｐ（ｘ｜ｙ）Ｐ（ｙ）］／Ｐ（ｘ）

樸素貝葉斯分類學習總結

寫在前面：還是筆記的總結輸出，大佬看了笑笑就好樸素貝葉斯首先我們在小學二年級就學過先驗概率，百度百科給出的解釋：先驗概率（prior probability）是指根據以往經驗和分析得到的概率，個人理解上來

資料分析模型之樸素貝葉斯模型

模型思想

先驗概率

後驗概率

高斯貝葉斯分類器

多項式貝葉斯分類器

伯努利貝葉斯分類器

高斯貝葉斯分類器

多項式貝葉斯分類器

伯努利貝葉斯分類器

相關推薦