機器學習實戰三（Naive Bayes）

阿新 • • 發佈：2018-01-09

需要 blog bag puts list tps foo 實戰簡單的

機器學習實戰三（Naive Bayes）

前兩章的兩種分類算法，是確定的分類器，但是有時會產生一些錯誤的分類結果，這時可以要求分類器給出一個最優的猜測結果，估計概率。樸素貝葉斯就是其中一種。

學過概率論的人對於貝葉斯這個名字應該是相當的熟悉，在學條件概率的時候，貝葉斯公式可謂是一針見血。這裏的“樸素貝葉斯”，是因為在計算貝葉斯概率的時候只考慮最原始、最簡單的假設。

Naive Bayes(樸素貝葉斯)

優點：在數據較少的情況下依然有效，可處理多類別問題。

缺點：對於輸入數據的格式要求嚴格。

原理：樸素貝葉斯的原理十分簡單，如果假定數據有兩類，分別計算待分類數據屬於這兩類的概率，p1和p2，如果

p1 > p2, 則屬於類別1
p1 < p2, 則屬於類別2

略微提及一下貝葉斯公式：
\(p\left( c|x\right) =\dfrac {p\left( x|c\right) p\left( c\right) }{p\left( x\right) }\)。

這個公式的強大之處在於，可以將先驗概率和後驗概率進行轉換，看起來簡單，但是使用的時候的確很強大，而且計算很便捷。

先來看樸素貝葉斯的兩個基本假設：

文本之間相互獨立
每個特征同等重要

根據這兩個基本假設，就可以著手構造分類器了。

首先要將文本轉換到向量空間,思路比較清晰。

import feedparser
import numpy as np
import operator
import random
import re

# 加載測試數據
def loadDataSet():
    postingList = [[‘my‘, ‘dog‘, ‘has‘, ‘flea‘, ‘problems‘, ‘help‘, ‘please‘],
                   [‘maybe‘, ‘not‘, ‘take‘, ‘him‘, ‘to‘, ‘dog‘, ‘park‘, ‘stupid‘],
                   [‘my‘, ‘dalmation‘, ‘is‘, ‘so‘, ‘cute‘, ‘I‘, ‘love‘, ‘him‘],
                   [‘stop‘, ‘posting‘, ‘stupid‘, ‘worthless‘, ‘garbage‘],
                   [‘mr‘, ‘licks‘, ‘ate‘, ‘my‘, ‘steak‘, ‘how‘, ‘to‘, ‘stop‘, ‘him‘],
                   [‘quit‘, ‘buying‘, ‘worthless‘, ‘dog‘, ‘food‘, ‘stupid‘]]
    classVec = [0, 1, 0, 1, 0, 1]
    return postingList, classVec


# 創建詞匯表
def createVocabList(dataSet):
    vocabSet = set()
    for document in dataSet:
        vocabSet = vocabSet | set(document)
    return list(vocabSet)


# 構造文檔向量
def setOfWord2Vec(vocabList, inputSet):
    returnVec = [0] * len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] = 1
        else:
            print(‘the word: {} is not in my Vocabulary!‘.format(word))
    return returnVec

下一步是訓練算法，從詞向量計算概率，但是這裏有幾個小技巧：

分母的初始值設置為2，避免分母為0的情況出現
由於特征之間獨立，在做乘法的時候有時會面臨小數位數過多的下溢出，這時可以將其轉化為對數形式，這是一種比較通常的解決思路

# 訓練函數
def trainNB0(trainMatrix, trainCategory):
    numTrainDocs = len(trainMatrix)
    numWords = len(trainMatrix[0])
    pAbusive = np.sum(trainCategory) / numTrainDocs
    p0Num = np.ones(numWords)
    p1Num = np.ones(numWords)
    p0Denom = 2.0
    p1Denom = 2.0
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:
            p1Num += trainMatrix[i]
            p1Denom += np.sum(trainMatrix[i])
        else:
            p0Num += trainMatrix[i]
            p0Denom += np.sum(trainMatrix[i])
    p1Vect = np.log(p1Num / p1Denom)
    p0Vect = np.log(p0Num / p0Denom)
    return p0Vect, p1Vect, pAbusive

這種分類方式稱為詞集模型，只考慮某個詞出不出現，如果一種詞出現不止一次，那麽統計出現的次數無疑會包含更多信息，這種方法稱為詞袋模型。

# 詞袋模型
def bagofWords2VecMN(vocabList, inputSet):
    returnVec = [0] * len(vocabList)
    for word in inputSet:
        if word in vocabList:
            returnVec[vocabList.index(word)] += 1
    return returnVec

變化其實並不大。

現在就可以執行分類了,這一步完全就是條件概率公式的應用，註意對數可以將相乘轉換為相加。

# 執行分類
def classifyNB(vect2Classify, p0Vec, p1Vec, pClass1):
    # 對數相乘轉換為相加
    p1 = np.sum(vect2Classify * p1Vec) + np.log(pClass1)
    p0 = np.sum(vect2Classify * p0Vec) + np.log(1.0 - pClass1)
    if p1 > p0:
        return 1
    else:
        return 0

原書中提供的兩個關於樸素貝葉斯應用的例子，一個是過濾垃圾郵件，另一個是從個人廣告中獲取區域傾向，都是很有趣的例子，代碼可以在我的Github中找到。

例子中有幾點需要註意：

1.留存交叉驗證，其實就是從樣本集中隨機選取一部分作為訓練集，剩下的作為預測集來檢驗精度。

2.高頻詞通常移除會帶來更好的分類效果。

3.停用詞也可以選擇剔除。

Naive Bayes存在的問題：

通過降級特征之間的條件獨立性假設降低對數據量的需求，有時這個假設會顯得過於簡單，但是樸素貝葉斯仍是一種有效的分類器，而且使用概率要比使用硬規則更為有效。

Next: 初次接觸優化算法和Logistic回歸

總結：概率在機器學習中的應用是廣泛的，這是因為很多時候我們對於事物的具體發生機理並不了解，這個時候就需要借助概率論和統計的力量。

References:https://github.com/plantree/Machine-Learing-In-Action/tree/master/chapter4

機器學習實戰三（Naive Bayes）

需要 blog bag puts list tps foo 實戰簡單的機器學習實戰三（Naive Bayes）前兩章的兩種分類算法，是確定的分類器，但是有時會產生一些錯誤的分類結果，這時可以要求分類器給出一個最優的猜測結果，估計概率。樸素貝葉斯就是其中一種。學過概率

機器學習實戰筆記（python3實現）01--概述

apriori 一個 python 系列 k-均值聚類思路機器學習實戰 st算法 apr 寫在前面：這一個多月都在學習python,從python3基礎、python爬蟲、python數據挖掘與數據分析都有接觸，最近看到一本機器學習的書（主要是學習相關算法）於是就打算

機器學習實戰筆記（K近鄰）

最終而是類別頻率 n) 簡單因此當前要素 K近鄰算法（KNN） k近鄰算法 ??k近鄰(k-nearest neighbor,KNN)是一種基本的分類與回歸算法。於1968年由Cover和Hart提出。k近鄰的輸入是實例的特征向量，對應於特征空間的點；輸出為實

機器學習實戰教程（十二）：線性迴歸提高篇之樂高玩具套件二手價預測

一、前言本篇文章講解線性迴歸的縮減方法，嶺迴歸以及逐步線性迴歸，同時熟悉sklearn的嶺迴歸使用方法，對樂高玩具套件的二手價格做出預測。二、嶺迴歸如果資料的特徵比樣本點還多應該怎麼辦？很顯然，此時我們不能再使用上文的方法進行計算了，因為矩陣X不是滿秩矩陣，非

《機器學習實戰》（第二章）中函式詳細解析

本文是針對《機器學習實戰》內函式的解析。並以頁數呈現。 P19：numpy.tile(A,rep)函式當rep為數字時，生成一個一維重複rep次的list。當rep為元組（m,n）時，生成一個m行並且每行重複n次的矩陣。 import numpy as np a1

機器學習實戰——筆記（第一章）

機器學習基礎目錄機器學習的簡單概述機器學習的主要任務演算法選擇與開發步驟 Python語言的優勢一、機器學習的簡單概述機器學習應用領域十分廣泛，如人臉識別、推薦系統、手寫數字辨識及垃圾郵件過濾等。那何謂“機器學習”？簡單的說“

機器學習實戰（三）樸素貝葉斯NB（Naive Bayes）

目錄 0. 前言 1. 條件概率 2. 樸素貝葉斯（Naive Bayes） 3. 樸素貝葉斯應用於文字分類 4. 實戰案例 4.1. 垃圾郵件分類案例學習完機器學習實戰的樸素貝葉斯，簡單的做個筆記。文中

《機器學習實戰》學習筆記之樸素貝葉斯（Naive Bayes）

原理假如郵箱中有n個單詞，如果returnVec[i]=0代表這個單詞在這封郵件中不出現， returnVec[i]=1代表這個單詞在郵件中出現了。設訓練集中每個郵件都有標記為是垃圾郵件和不是垃圾郵件，是垃圾郵件的分類為1，不是垃圾郵件的分類為0。演算法原理：

機器學習——樸素貝葉斯（Naive Bayes）詳細解讀

在機器學習中，樸素貝葉斯是一個分類模型，輸出的預測值是離散值。在講該模型之前首先有必要先了解貝葉斯定理，以該定理為基礎的統計學派在統計學領域佔據重要的地位，它是從觀察者的角度出發，觀察者所掌握的資訊量左右了觀察者對事件的認知。貝葉斯公式

機器學習演算法之樸素貝葉斯（Naive Bayes）--第二篇

引言這篇文章主要介紹將樸素貝葉斯模型應用到文字分類任務的技巧和方法。詞袋模型(The Bag of Words Model) 對於機器學習演算法來說，特徵的選擇是一個很重要的過程。那麼如何從文字訓練集中選出好的特徵呢？在自然語言處理中，一個常見

機器學習實戰教程（三）：決策樹實戰篇之為自己配個隱形眼鏡

原文連結：cuijiahua.com/blog/2017/1… 一、前言上篇文章機器學習實戰教程（二）：決策樹基礎篇之讓我們從相親說起講述了機器學習決策樹的原理，以及如何選擇最優特徵作為分類特徵。本篇文章將在此基礎上進行介紹。主要包括：決策樹構建決策樹視覺化使用決

機器學習演算法之樸素貝葉斯（Naive Bayes）--第一篇

引言先前曾經看了一篇文章，一個老外程式設計師寫了一些很牛的Shell指令碼，包括晚下班自動給老婆發簡訊啊，自動衝Coffee啊，自動掃描一個DBA發來的郵件啊，等等。於是我也想用自己所學來做一點有趣的事情。我的想法如下：首先我寫個scrapy指令碼來

機器學習實戰一（kNN）

.com block 個數 indices 操作來看空間計算機 python3 機器學習實戰一（kNN）跟著老師做一個項目，關於行車記錄儀識別前方車輛，並判斷車距，不太好做。本來是用OpenCV，做著做著，突然發現需要補習一下機器學習的內容。《機器學習實戰（mach

機器學習實戰教程（一）：線性回歸基礎篇（上）

學習 reg style spa 目標 pub auto 機器輸入一什麽是回歸？　　回歸的目的是預測數值型的目標值，最直接的辦法是依據輸入，寫入一個目標值的計算公式。　　假如你想預測小姐姐男友汽車的功率，可能會這麽計算：　　　　　　　　　　　　　　Ho

機器學習實戰筆記（一）- 使用SciKit-Learn做回歸分析

err 皮爾遜練習 using flow 相關一個數 ocean 針對一、簡介這次學習的書籍主要是Hands-on Machine Learning with Scikit-Learn and TensorFlow（豆瓣：https://book.douban.co

《機器學習實戰》（一）knn演算法

K最近鄰（k-Nearest Neighbor，KNN）分類演算法可以說是最簡單的機器學習演算法了。它採用測量不同特徵值之間的距離方法進行分類。它的思想很簡單：存在一個樣本資料集合，也稱作訓練樣本集，並且樣本集中每個資料都存在標籤，即我們知道樣本集中每一個數據與所屬分類的對應關係。輸入沒有標

機器學習實戰——SVD（奇異值分解）

與PCA一樣的學習過程，在學習SVD時同樣補習了很多的基礎知識，現在已經大致知道了PCA的應用原理，SVD個人感覺相對要難一點，但主要步驟還是能勉強理解，所以這裡將書本上的知識和個人的理解做一個記錄。主要關於（SVD原理、降維公式、重構原矩陣、SVD的兩個實際應用），當然矩陣

《機器學習實戰》（1）kNN小結（小白教學，每行程式碼都有註釋）

最近入坑了機器學習，為了快速提高自己的機器學習的程式碼能力，入坑了《機器學習實戰》，目前只學習了第一個重要演算法:k近鄰演算法（kNN），在學習過程中發現許多相關的學習資料要麼程式碼是python2的，要麼程式碼的解釋不夠詳細，對於像我這樣的菜雞而言苦不堪言，為了後來者不踩我

機器學習實戰系列（五）：SVM支援向量機

課程的所有資料和程式碼在我的Github：Machine learning in Action，目前剛開始做，有不對的歡迎指正，也歡迎大家star。除了版本差異，程式碼裡的部分函式以及程式碼正規化也和原書不一樣（因為作者的程式碼實在讓人看的彆扭，我改過後看起來舒服多了）

機器學習實戰教程（五）：樸素貝葉斯實戰篇之新浪新聞分類

原文連結： Jack-Cui，https://cuijiahua.com/blog/2017/11/ml_5_bayes_2.html 一、前言上篇文章機器學習實戰教程（四）：樸素貝葉斯基礎篇之言論過濾器講解了樸素貝葉斯的基礎知識。本篇文章將在此基礎上進行擴充套件，你將看到以下內容：拉普拉

機器學習實戰三（Naive Bayes）

機器學習實戰三（Naive Bayes）

Naive Bayes(樸素貝葉斯)

相關推薦