機器學習--樸素貝葉斯分類演算法學習筆記

阿新 • • 發佈：2018-12-15

一、基於貝葉斯決策理論的分類方法

優點：在資料較少的情況下仍然有效，可以處理多類別問題。

缺點：對於輸入資料的準備方式較為敏感。

適用資料型別：標稱型資料。

現在假設有一個數據集，它由兩類資料構成。

用p1(c1 | x,y)表示資料點(x,y)屬於類別1的概率，用p2(c2 | x,y)表示資料點(x,y)屬於類別2的概率。

那麼對於一個新的資料點(x,y)，可以用下面的規則來判斷它的類別。

如果p1(c1 | x,y) > p2(c2 | x,y)，則屬於類別1。
如果p1(c1 | x,y) < p2(c2 | x,y)，則屬於類別2。

這就是樸素貝葉斯理論的核心思想，即選擇具有最高概率的決策。

條件概率的計算使用貝葉斯準則。

二、使用樸素貝葉斯進行文件分類

2.1 準備資料

def loadDataSet():
    postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
                 ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                 ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                 ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                 ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                 ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    classVec = [0, 1, 0, 1, 0, 1]
    return postingList, classVec

def createVocabList(dataSet):
    vocabSet = set([])
    for document in dataSet:
        vocabSet = vocabSet | set(document)
    return list(vocabSet)

def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0]*len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1
        else:
            print("the word: %s is not in my Vacabulary!" %word)
    return returnVec

2.2 訓練演算法

def trainNB0(trainMatrix, trainCategory):
    numTrainDocs = len(trainMatrix)
    numWords = len(trainMatrix[0])
    pAbusive = sum(trainCategory)/float(numTrainDocs)
    p0Num = ones(numWords)
    p1Num = ones(numWords)
    p0Denom = 2.0
    p1Denom = 2.0
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:
            p1Num += trainMatrix[i]
            p1Denom += sum(trainMatrix[i])
        else:
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    p1Vect = log(p1Num/p1Denom)
    p0Vect = log(p0Num/p0Denom)
    return p0Vect, p1Vect, pAbusive

listOPosts, listClasses = loadDataSet()
myVacabList = createVocabList(listOPosts)
trainMat = []
for postinDoc in listOPosts:
    trainMat.append(setOfWords2Vec(myVacabList, postinDoc))
    p0V, p1V, pAb = trainNB0(trainMat, listClasses)

2.3 測試演算法

def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    p1 = sum(vec2Classify * p1Vec) + log(pClass1)
    p0 = sum(vec2Classify * p0Vec) + log(1.0 - pClass1)
    if p1 > p0:
        return 1
    else:
        return 0

def testingNB():
    list0Posts, listClasses = loadDataSet()
    myVacabList = createVocabList(listOPosts)
    trainMat = []
    for postinDoc in listOPosts:
        trainMat.append(setOfWords2Vec(myVacabList, postinDoc))
    p0V, p1V, pAb = trainNB0(array(trainMat), array(listClasses))
    testEntry = ['love', 'my', 'dalmation']
    thisDoc = array(setOfWords2Vec(myVacabList, testEntry))
    print("{} classified as: {}".format(testEntry, classifyNB(thisDoc, p0V, p1V, pAb)))
    testEntry = ['stupid', 'garbage']
    thisDoc = array(setOfWords2Vec(myVacabList, testEntry))
    print("{} classified as: {}".format(testEntry, classifyNB(thisDoc, p0V, p1V, pAb)))

呼叫

testingNB()

輸出：

機器學習--樸素貝葉斯分類演算法學習筆記

一、基於貝葉斯決策理論的分類方法優點：在資料較少的情況下仍然有效，可以處理多類別問題。缺點：對於輸入資料的準備方式較為敏感。適用資料型別：標稱型資料。現在假設有一個數據集，它由兩類資料構

《機器學習實戰》基於樸素貝葉斯分類演算法構建文字分類器的Python實現

Python程式碼實現：#encoding:utf-8 from numpy import * #詞表到向量的轉換函式 def loadDataSet(): postingList = [['my','dog','has','flea','problems','help','please'],

《機器學習實戰》學習筆記：樸素貝葉斯分類演算法

貝葉斯決策理論選擇高概率對應的類別是貝葉斯決策理論的核心思想，即選擇具有最高概率的決策。樸素貝葉斯樸素貝葉斯法是基於貝葉斯定理與特徵條件獨立假設的分類方法。最為廣泛的兩種分類模型是決策樹模型(Decision Tree Model)和樸素貝葉斯模型（Nai

機器學習-帶你搞懂樸素貝葉斯分類演算法

帶你搞懂樸素貝葉斯分類演算法你搞懂樸素貝葉斯分類算貝葉斯分類是一類分類演算法的總稱，這類演算法均以貝葉斯定理為基礎，故統稱為貝葉斯分類。而樸素樸素貝葉斯分類是貝葉斯分類中最簡單，也是常見的一種分類方法。這篇文章我儘可能用直白的話語總結一下我們學習會上講到的樸素貝葉斯分

機器學習--樸素貝葉斯分類，以及拉普拉斯校準

機器學習算法我們 earch lov 單詞標註樸素貝葉斯分類 images 劃分原文鏈接：http://chant00.com/2017/09/18/%E8%B4%9D%E5%8F%B6%E6%96%AF/

機器學習---樸素貝葉斯分類器（Machine Learning Naive Bayes Classifier）

垃圾郵件垃圾 bubuko 自己整理 href 極值 multi 帶來樸素貝葉斯分類器是一組簡單快速的分類算法。網上已經有很多文章介紹，比如這篇寫得比較好：https://blog.csdn.net/sinat_36246371/article/details/601

分類與監督學習，樸素貝葉斯分類演算法

1.理解分類與監督學習、聚類與無監督學習。簡述分類與聚類的聯絡與區別。簡述什麼是監督學習與無監督學習。區別：分類：我們是知道這個資料集是有多少種類的，然後對它們分類歸納。比如對一個學校的在校大學生進行性別分類，我們會下意識很清楚知道分為“男”,“女”。聚類：對資料集操作時，我們是不

樸素貝葉斯分類演算法簡單理解

樸素貝葉斯分類演算法簡單理解貝葉斯分類是一類分類演算法的總稱，這類演算法均以貝葉斯定理為基礎，故統稱為貝葉斯分類。而樸素樸素貝葉斯分類是貝葉斯分類中最簡單，也是常見的一種分類方法。這篇文章我儘可能用直白的話語總結一下我們學習會上講到的樸素貝葉斯分類演算法，希望有利於他人理解。 1

基於樸素貝葉斯分類演算法實現垃圾郵箱分類

貝葉斯決策理論在機器學習中，樸素貝葉斯是基於貝葉斯決策的一種簡單形式,下面給出貝葉斯的基本公式，也是最重要的公式：其中X是一個m*n的矩陣，m為他的樣本數，n為特徵的個數，即我們要求的是：在已知的樣本情況下的條件概率。 )表示

樸素貝葉斯分類演算法python實現

1 #==================================== 2 # 輸入: 3 # 空 4 # 輸出: 5 # postingList: 文件列表 6 # classVec: 分類標籤列表 7 #===

樸素貝葉斯分類演算法

概率論只不過是把常識用數學公式表達了出來。 ——拉普拉斯記得讀本科的時候，最喜歡到城裡的計算機書店裡面去閒逛，一逛就是好幾個小時；有一次，在書店看到一本書，名叫貝葉斯方法。當時數學系的課程還沒有學到概率統計。我心想，一個方法能夠專門寫出一本書來，肯定很牛逼。

樸素貝葉斯分類演算法原理

目錄概述原理要點 1、概述樸素貝葉斯分類演算法是貝葉斯分類演算法中最簡單的一種，貝葉斯分類演算法以樣本可能屬於某類的概率來作為分類依據。貝葉斯分類演算法是一大類分類演算法的總稱。 2、原理如果一個事物在一些屬性條件發生的情況下，事物屬於A的概率大於

貝葉斯公式和樸素貝葉斯分類演算法

先上問題吧，我們統計了14天的氣象資料(指標包括outlook，temperature，humidity，windy)，並已知這些天氣是否打球(play)。如果給出新一天的氣象指標資料:sunny,cool,high,TRUE，判斷一下會不會去打球。 table 1 outlook temperat

樸素貝葉斯分類演算法Python程式碼

貝葉斯分類器就是求P(C|F1F2...Fn) = P(F1F2...Fn|C)P(C) / P(F1F2...Fn) 最大值，由於 P(F1F2...Fn) 對於所有的類別都是相同的，可以省略，問題就變成了求 P(F1F2...Fn|C)P(C) 的最大值。樸素貝葉斯分類

樸素貝葉斯分類演算法的R語言實現

貝葉斯分類常用來預測隸屬關係，計算一個給定元組屬於某一類的概率首先我們來看下貝葉斯基本公式： P(B|A)的意思是在A事件的情況下，發生B事件的概率，可以理解為概率論中的條件概率，而貝葉斯公式的巨大作用就是對因果關係進行了交換，通過上面的公式就可以計算P(A|B

樸素貝葉斯分類演算法理解及文字分類器實現

貝葉斯分類是一類分類演算法的總稱，這類演算法均以貝葉斯定理為基礎，故統稱為貝葉斯分類。本文作為分類演算法的第一篇，將首先介紹分類問題，對分類問題進行一個正式的定義。然後，介紹貝葉斯分類演算法的基礎——貝葉斯定理。最後，通過例項討論貝葉斯分類中最簡單的一種：樸素貝葉斯分類。

樸素貝葉斯分類演算法的Python實現

貝葉斯分類演算法以貝葉斯定理為基礎，通過先驗概率計算後驗概率，再由最大厚顏概率決定分類（同學們還是當沒看到過這句話吧）。數學學得不咋地，就多說了，實驗報告怎麼寫也是頭疼，就直接貼程式碼了。 # 訓

帶你搞懂樸素貝葉斯分類演算法

帶你搞懂樸素貝葉斯分類算貝葉斯分類是一類分類演算法的總稱，這類演算法均以貝葉斯定理為基礎，故統稱為貝葉斯分類。而樸素樸素貝葉斯分類是貝葉斯分類中最簡單，也是常見的一種分類方法。這篇文章我儘可能用直白的話語總結一下我們學習會上講到的樸素貝葉斯分類演算法，希望有利於他人理解。 1 分類問題綜述

用樸素貝葉斯分類演算法做中文文字分類

一. 樸素貝葉斯分類演算法的原理樸素貝葉斯分類器基於屬性條件獨立假設：對於已知類別，假設所有屬性相互獨立，也就是說，假設每個屬性獨立地對分類結果產生影響。設待分類的樣本屬性集為TT，其中包含nn個屬性，分別為t1,t2,t3...tnt1,t2,t3..

【JAVA實現】樸素貝葉斯分類演算法

之前部落格提到的KNN演算法以及決策樹演算法都是要求分類器給出“該資料例項屬於哪一類”這類問題的明確答案，正因為如此，才出現了使用決策樹分類時，有時無法判定某一測試例項屬於哪一類別。使用樸素貝葉斯演算法則可以避免這個問題，它給出了這個例項屬於某一類別的概率值，

機器學習--樸素貝葉斯分類演算法學習筆記

一、基於貝葉斯決策理論的分類方法

二、使用樸素貝葉斯進行文件分類

2.1 準備資料

2.2 訓練演算法

2.3 測試演算法

相關推薦