支援向量機（Python實現）

阿新 • • 發佈：2018-11-01

這篇文章是《機器學習實戰》（Machine Learning in Action）第六章支援向量機演算法的Python實現程式碼。

1 參考連結

（1）支援向量機通俗導論(理解SVM的三層境界)
（2）支援向量機—SMO論文詳解（序列最小最優化演算法）

2 實現程式碼

from numpy import *

def loadDataSet(filename):
    dataMat = []; labelMat = []
    fr = open(filename)
    for line in fr.readlines():
        lineArr = line.strip().split('\t' 
)
        dataMat.append([float(lineArr[0]), float(lineArr[1])])
        labelMat.append(float(lineArr[2]))
    return dataMat, labelMat

def selectJrand(i,m):
    j=i
    while (j==i):
        j = int(random.uniform(0,m))
    return j

def clipAlpha(aj, H, L):
    if aj > H:
        aj = H
    if L > aj:
        aj = L
    return 
 aj

def smoSimple(dataMatIn, classLabels, C, toler, maxIter):
    dataMatrix = mat(dataMatIn); labelMat = mat(classLabels).transpose()
    b = 0; m, n = shape(dataMatrix)
    alphas = mat(zeros((m,1)))
    iter = 0
    while (iter < maxIter):
        alphaPairsChanged = 0
        for i in range(m):
            fXi = float(multiply(alphas,labelMat).T*(dataMatrix*dataMatrix[i,:].T)) + b
            Ei = fXi - float(labelMat[i])
            if 
 ((labelMat[i]*Ei < -toler) and (alphas[i]<C)) or ((labelMat[i]*Ei > toler) and (alphas[i]>0)):
                j = selectJrand(i,m)
                fXj = float(multiply(alphas,labelMat).T*(dataMatrix*dataMatrix[j,:].T)) + b
                Ej = fXj -float(labelMat[j])
                alphaIold = alphas[i].copy()
                alphaJold = alphas[j].copy()
                if (labelMat[i] != labelMat[j]):
                    L = max(0, alphas[j] - alphas[i])
                    H = min(C, C + alphas[j] - alphas[i])
                else:
                    L = max(0, alphas[j] + alphas[i] - C)
                    H = min(C, alphas[j] + alphas[i])
                if L == H: print "L==H"; continue
                eta = 2.0*dataMatrix[i,:]*dataMatrix[j,:].T - dataMatrix[i,:]*dataMatrix[i,:].T - dataMatrix[j,:]*dataMatrix[j,:].T
                if eta >= 0: print "eta>=0"; continue
                alphas[j] -= labelMat[j]*(Ei-Ej)/eta
                alphas[j] = clipAlpha(alphas[j], H, L)
                if (abs(alphas[j]-alphaJold) < 0.0001):
                    print "j not moving enough"
                    continue
                alphas[i] += labelMat[j]*labelMat[i]*(alphaJold - alphas[j])
                b1 = b - Ei - labelMat[i]*(alphas[i]-alphaIold)*dataMatrix[i,:]*dataMatrix[i,:].T - \
                    labelMat[j]*(alphas[j]-alphaJold)*dataMatrix[i,:]*dataMatrix[j,:].T
                b2 = b - Ej - labelMat[i]*(alphas[i]-alphaIold)*dataMatrix[i,:]*dataMatrix[j,:].T -\
                    labelMat[j]*(alphas[j]-alphaJold)*dataMatrix[j,:]*dataMatrix[j,:].T
                if   (0 < alphas[i]) and (C > alphas[i]): b = b1
                elif (0 < alphas[j]) and (C > alphas[j]): b = b2
                else: b = (b1 + b2) / 2.0
                alphaPairsChanged += 1
                print "iter: %d i: %d, pairs changed %d" % (iter, i, alphaPairsChanged)
        if alphaPairsChanged == 0: iter += 1
        else: iter = 0
        print "iteration number: %d" % iter
    return b, alphas

def kernelTrans(X, A, kTup):
    m,n = shape(X)
    K = mat(zeros((m,1)))
    if kTup[0]=='lin': K=X*A.T
    elif kTup[0]=='rbf':
        for j in range(m):
            deltaRow = X[j,:]-A
            K[j] = deltaRow*deltaRow.T
        K = exp(K/(-1*kTup[1]**2))
    else: raise NameError('Houston We Have a Problem -- That Kernal is not recognized.')
    return K

#class optStruct:
#    def __init__(self,dataMatIn, classLabels, C, toler, kTup):
#        self.X = dataMatIn
#        self.labelMat = classLabels
#        self.C = C
#        self.tol = toler
#        self.m = shape(dataMatIn)[0]
#        self.alphas = mat(zeros((self.m,1)))
#        self.b = 0
#        self.eCache = mat(zeros((self.m,2)))
#        self.K = mat(zeros((self.m, self.m)))
#        for i in range(self.m):
#            self.K[:,i] = kernelTrans(self.X, self.X[i,:], kTup)

class optStruct:
    def __init__(self,dataMatIn, classLabels, C, toler, kTup):  # Initialize the structure with the parameters 
        self.X = dataMatIn
        self.labelMat = classLabels
        self.C = C
        self.tol = toler
        self.m = shape(dataMatIn)[0]
        self.alphas = mat(zeros((self.m,1)))
        self.b = 0
        self.eCache = mat(zeros((self.m,2))) #first column is valid flag
        self.K = mat(zeros((self.m,self.m)))
        for i in range(self.m):
            self.K[:,i] = kernelTrans(self.X, self.X[i,:], kTup)

def calcEk(oS, k):
    fXk = float(multiply(oS.alphas, oS.labelMat).T*oS.K[:,k] + oS.b) 
    Ek = fXk - float(oS.labelMat[k])
    return Ek

def selectJ(i, oS, Ei):
    maxK = -1; maxDeltaE = 0; Ej = 0
    oS.eCache[i] = [1, Ei]
    validEcacheList = nonzero(oS.eCache[:,0].A)[0]
    if (len(validEcacheList)) > 1:
        for k in validEcacheList:
            if k ==i: continue
            Ek = calcEk(oS, k)
            deltaE = abs(Ei - Ek)
            if (deltaE > maxDeltaE):
                maxK = k; maxDeltaE = deltaE; Ej = Ek
        return maxK, Ej
    else:
        j = selectJrand(i, oS.m)
        Ej = calcEk(oS, j)
    return j,Ej

def updateEk(oS, k):
    Ek = calcEk(oS, k)
    oS.eCache[k] = [1, Ek]

def innerL(i, oS):
    Ei = calcEk(oS, i)
    if ((oS.labelMat[i]*Ei < -oS.tol) and (oS.alphas[i] < oS.C)) or \
       ((oS.labelMat[i]*Ei > oS.tol) and (oS.alphas[i] > 0)):
           j, Ej = selectJ(i, oS, Ei)
           alphaIold = oS.alphas[i].copy(); alphaJold = oS.alphas[j].copy()
           if (oS.labelMat[i] != oS.labelMat[j]):
               L = max(0, oS.alphas[j] - oS.alphas[i])
               H = min(oS.C, oS.C + oS.alphas[j] - oS.alphas[i])
           else:
               L = max(0, oS.alphas[j] + oS.alphas[i] - oS.C)
               H = min(oS.C, oS.alphas[j] + oS.alphas[i])
           if L == H: print "L==H"; return 0
           eta = 2.0*oS.K[i,j] - oS.K[i,i] - oS.K[j,j]
           if eta >= 0: print "eta>=0"; return 0
           oS.alphas[j] -= oS.labelMat[j]*(Ei-Ej)/eta
           oS.alphas[j] = clipAlpha(oS.alphas[j], H, L)
           updateEk(oS,j)
           if (abs(oS.alphas[j]-alphaJold) < 0.0001):
               print "j not moving enough"; return 0
           oS.alphas[i] += oS.labelMat[j]*oS.labelMat[i]*(alphaJold - oS.alphas[j])
           updateEk(oS,i)
           b1 = oS.b - Ei - oS.labelMat[i]*(oS.alphas[i]-alphaIold)*oS.K[i,i] - \
               oS.labelMat[j]*(oS.alphas[j]-alphaJold)*oS.K[i,j]
           b2 = oS.b - Ej - oS.labelMat[i]*(oS.alphas[i]-alphaIold)*oS.K[i,j] -\
               oS.labelMat[j]*(oS.alphas[j]-alphaJold)*oS.K[j,j]
           if   (0 < oS.alphas[i]) and (oS.C > oS.alphas[i]): oS.b = b1
           elif (0 < oS.alphas[j]) and (oS.C > oS.alphas[j]): oS.b = b2
           else: oS.b = (b1 + b2) / 2.0
           return 1
    else:
        return 0

def smoP(dataMatIn, classLabels, C, toler, maxIter, kTup=('lin',0)):
    oS = optStruct(mat(dataMatIn), mat(classLabels).transpose(), C, toler,kTup)
    iter = 0
    entireSet = True; alphaPairsChanged = 0
    while (iter < maxIter) and ((alphaPairsChanged > 0) or (entireSet)):
        alphaPairsChanged = 0
        if entireSet:
            for i in range(oS.m):
                alphaPairsChanged += innerL(i, oS)
                print "fullSet, iter: %d i: %d, pairs changed %d" %(iter,i, alphaPairsChanged)
            iter += 1
        else:
            nonBoundsIs = nonzero((oS.alphas.A > 0) * (oS.alphas.A < C))[0]
            for i in nonBoundsIs:
                alphaPairsChanged += innerL(i, oS)
                print "non-bound, iter: %d i: %d, pairs changed %d" % (iter, i, alphaPairsChanged)
            iter += 1
        if entireSet: entireSet = False
        elif (alphaPairsChanged == 0): entireSet = True
        print "iteration number: %d" % iter
    return oS.b, oS.alphas

def calcWs(alphas, dataArr, classLabels):
    X = mat(dataArr); labelMat = mat(classLabels).transpose()
    m,n = shape(X)
    w = zeros((n,1))
    for i in range(m):
        w += multiply(alphas[i]*labelMat[i],X[i,:].T)
    return w

def plot(dataArr, labelArr, sVs):
    import matplotlib.pyplot as plt
    m = shape(dataArr)[0]
    xcord1 = []; ycord1 = []
    xcord2 = []; ycord2 = []
    for i in range(m):
        if int(labelArr[i]) == 1:
            xcord1.append(dataArr[i,0]); ycord1.append(dataArr[i,1]); 
        else:
            xcord2.append(dataArr[i,0]); ycord2.append(dataArr[i,1]); 
    fig = plt.figure()
    ax = fig.add_subplot(111)
    ax.scatter(xcord1, ycord1, s=50, c='red', marker='s')
    ax.scatter(xcord2, ycord2, s=50, c='green')
    ax.scatter(sVs[:,0], sVs[:,1], s=100, c='blue', marker='+')
    plt.xlabel('X1'); plt.ylabel('X2')
    plt.show()

def testRbf(k1=1.3):
    # training
    dataArr, labelArr = loadDataSet('testSetRBF.txt')
    b,alphas = smoP(dataArr, labelArr, 200, 0.0001, 10000, ('rbf', k1))
    dataMat = mat(dataArr); labelMat = mat(labelArr).transpose()
    svInd = nonzero(alphas.A>0)[0]
    sVs = dataMat[svInd]
    labelSV = labelMat[svInd]
    print "there are %d Support Vectors" % shape(sVs)[0]
    # test self
    m,n = shape(dataMat)
    errorCount = 0
    for i in range(m):
        kernelEval = kernelTrans(sVs, dataMat[i,:],('rbf',k1))
        predict = kernelEval.T * multiply(labelSV, alphas[svInd]) + b
        if sign(predict) != sign(labelArr[i]): errorCount += 1
    print "the training error rate is: %f" % (float(errorCount)/m)
    # test other
    dataArr, labelArr = loadDataSet('testSetRBF2.txt')
    errorCount = 0
    dataMat = mat(dataArr); labelMat = mat(labelArr).transpose()
    m,n = shape(dataMat)
    for i in range(m):
        kernelEval = kernelTrans(sVs, dataMat[i,:],('rbf',k1))
        predict = kernelEval.T * multiply(labelSV, alphas[svInd]) + b
        if sign(predict) != sign(labelArr[i]): errorCount += 1
    print errorCount, m
    print "the training error rate is: %f" % (float(errorCount)/m)
    # plot the figure
    dataArr=array(dataArr); labelArr=array(labelArr)
    plot(dataArr,labelArr, sVs)

def img2vector(filename):
    returnVect = zeros((1,1024))
    fr = open(filename)
    for i in range(32):
        lineStr = fr.readline()
        for j in range(32):
            returnVect[0,32*i+j] = int(lineStr[j])
    return returnVect

def loadImages(dirName):
    from os import listdir
    hwLabels = []
    trainingFileList = listdir(dirName)
    m = len(trainingFileList)
    trainingMat = zeros((m, 1024))
    for i in range(m):
        fileNameStr = trainingFileList[i]
        fileStr = fileNameStr.split('.')[0]
        classNumStr = int(fileStr.split('_')[0])
        if classNumStr == 9: hwLabels.append(-1)
        else: hwLabels.append(1)
        trainingMat[i,:] = img2vector('%s/%s' % (dirName, fileNameStr))
    return trainingMat, hwLabels

def testDigits(kTup=('rbf', 10)):
    dataArr, labelArr = loadImages('trainingDigits')
    b, alphas = smoP(dataArr, labelArr, 200, 0.0001, 10000, kTup)
    dataMat = mat(dataArr); labelMat = mat(labelArr).transpose()
    svInd = nonzero(alphas.A>0)[0]
    sVs = dataMat[svInd]
    labelSV = labelMat[svInd]
    print "there are %d Support Vectors" % shape(sVs)[0]
    m,n = shape(dataMat)
    errorCount = 0
    for i in range(m):
        kernelEval = kernelTrans(sVs, dataMat[i,:], kTup)
        predict = kernelEval.T * multiply(labelSV, alphas[svInd]) + b
        if sign(predict) != sign(labelArr[i]): errorCount += 1
    print "the training error rate is: %f" % (float(errorCount)/m)

    dataArr, labelArr = loadImages('testDigits')
    errorCount = 0
    dataMat = mat(dataArr); labelMat = mat(labelArr).transpose()
    m,n = shape(dataMat)

    for i in range(m):
        kernelEval = kernelTrans(sVs, dataMat[i,:], kTup)
        predict = kernelEval.T * multiply(labelSV, alphas[svInd]) + b
        if sign(predict) != sign(labelArr[i]): errorCount += 1
    print "the test error rate is: %f" % (float(errorCount)/m)

# TEST
testRbf()

3 執行結果

這裡寫圖片描述

支援向量機（Python實現）

這篇文章是《機器學習實戰》（Machine Learning in Action）第六章支援向量機演算法的Python實現程式碼。 1 參考連結（1）支援向量機通俗導論(理解SVM的三層境界) （2）支援向量機—SMO論文詳解（序列最小最優化演算法） 2 實現程式

《機器學習》周志華學習筆記第六章支援向量機（課後習題）python 實現

一、 1.間隔與支援向量 2.對偶問題 3.核函式 xi與xj在特徵空間的內積等於他們在原始yangben空間中通過函式k(.,.)計算的結果。核矩陣K總是半正定的。 4.軟間隔與正則化軟間隔允許某些samples不滿足約束鬆弛變數 5.支援

機器學習筆記8-支援向量機（3/3）

機器學習筆記8-支援向量機（3/3） scikit-learn中的SVM函式機器學習庫scikit-learn中也集成了SVM的函式，可以方便的進行呼叫，可用來分類、迴歸和異常點檢測。支援向量機的優點有： i)在高維空間效果很好 ii)當維度數大於樣本點數時，效果仍然不錯 i

十大經典預測演算法（四）----支援向量機（SVM演算法）

一、概念：SVM思想和線性迴歸很相似，兩個都是尋找一條最佳直線。不同點：最佳直線的定義方法不一樣，線性迴歸要求的是直線到各個點的距離最近，SVM要求的是直線離兩邊的點距離儘量大。 SVM本質，　　距離測度，即把點的座標轉換成點到幾個固定點的距離，從而實現升維。

林軒田--機器學習技法--SVM筆記2--對偶支援向量機（dual+SVM）

對偶支援向量機咦？怎麼還有關於支援向量機的內容，我們不是在上一講已經將支援向量機解決了麼？怎麼又引入了對偶這個概念？ 1.動機我們在上一講已經講過，可以使用二次規劃來解決支援向量機的問題。如果現在想要解決非線性的支援向量機的問題，也很簡單，如下圖所

【機器學習】支援向量機（4）——非線性支援向量機（核函式）

前言當訓練資料集線性可分或者近似線性可分時，前面我們在文一以及文二已經介紹了線性可分支援向量機和線性支援向量機。但是有時訓練資料集是非線性的，這時就可以使用非線性支援向量機。非線性支援向量機的主要特點就是利用了核技巧。非線性分類問題如

機器學習----支援向量機（核函式）

#線性不可分我們的SVM是找到一條分割直線，但是如果線性不可分怎麼辦？如下圖：可以看出，是有一個明顯的分割線的，但是不是直線，這種情況下我們怎麼用SVM呢？我們可以找到一種變化，讓變換後的資料線性可分，用圖形象的表示為：圖中的ϕ就是我們

Python實現支援向量機（基於雙月資料集）

1、生成資料集 class moon_data_class(object): def __init__(self,N,d,r,w): self.N=N self.w=w self.d=d self.r=

支援向量機（SVM）和python實現（三）

6. python實現根據前面的一步步推導獲得的結果，我們就可以使用python來實現SVM了這裡我們使用iris資料集進行驗證，由於該資料集有4維，不容易在二維平面上表示，我們先使用LDA對其進行降維，又因為該資料集有3類樣本，我們編寫的SVM是二分類的，所以我們將

支援向量機（SVM）實現MNIST手寫體數字識別

一、SVM演算法簡述支援向量機即Support Vector Machine，簡稱SVM。一聽這個名字，就有眩暈的感覺。支援(Support)、向量(Vector)、機器(Machine)，這三個毫無關聯的詞，硬生生地湊在了一起。從修辭的角度，這個合成詞最終落腳到”Machine”上，還以

python opencv3.x中支援向量機（svm）模型儲存與載入問題

親自驗證，可以解決svm的模型載入問題: import numpy as np from sklearn import datasets &nb

支援向量機演算法的實現和應用（Python3超詳細的原始碼實現+圖介紹）

支援向量機演算法的實現和應用，因為自己推到過SVM，建議自己推到一遍，這裡不對SVM原理做詳細的說明。原理公式推到推薦看：https://blog.csdn.net/jcjx0315/article/details/61929439 #!/usr/bin/env python # enc

TensorFlow深度學習框架學習（二）：TensorFlow實現線性支援向量機（SVM）

SVM的原理可以參考李航的《統計學習方法》具體程式碼如下，程式碼都有註釋的 #1、匯入必要的庫 import matplotlib.pyplot as plt import numpy as np import tensorflow as tf fro

支援向量機（SVM）演算法的matlab的實現

支援向量機（SVM）的matlab的實現支援向量機是一種分類演算法之一，matlab中也有相應的函式來對其進行求解；下面貼一個小例子，這個例子來源於我們實際的專案。 clc; clear; N=10; %下面的資料是我們實際專案中的訓練樣例（樣例中有8個屬

支援向量機——sklearn 實現支援向量機（SVM）

《Python machine learning》書籍學習~~~支援向量機的數學模型稍後補上，先來講一下sklearn中的實現。Support Vector Machine(SVM) ,優化目標與感知機相反，感知機是實現錯誤的最小優化；SVM實現邊緣最大優化。邊緣（margi

Python支援向量機（SVM）例項

SVM(Support Vector Machine)指的是支援向量機，是常見的一種判別方法。在機器學習領域，是一個有監督的學習模型，通常用來進行模式識別、分類以及迴歸分析。 Matlab中有林智仁編寫的libsvm工具包可以很好地進行進行SVM訓練。Pyth

支援向量機（SMO演算法原理與簡化版實現）

SMO演算法原理及實現支援向量機的學習問題本質上是求解凸二次規劃問題 SMO演算法序列最小最優化演算法就是求解該問題的代表性演算法 SMO演算法解決的凸二次規劃的對偶問題: mina12∑i=1N∑j=1NαiαjyiyjK(xi,xj)−∑i=1

支援向量機SMO演算法實現（原始碼逐條解釋）

支援向量機號稱機器學習中最好的演算法——存在最優解，而且一般問題都可以得解。但是演算法需要的儲存空間和計算複雜度較大，不大適合大資料量的運算，不過經過platt發明的SMO簡化運算後，效率可以提高很多。以下是筆者用Matlab語言寫的支援向量機兩分類問題的原始碼，因為在網路

Python 深入淺出支援向量機（SVM）演算法

相比於邏輯迴歸，在很多情況下，SVM演算法能夠對資料計算從而產生更好的精度。而傳統的SVM只能適用於二分類操作，不過卻可以通過核技巧（核函式），使得SVM可以應用於多分類的任務中。本篇文章只是介紹SVM的原理以及核技巧究竟是怎麼一回事，最後會介紹sklearn svm各個引數作用和一個demo實戰的內容，儘

機器學習之支援向量機（四）

引言：　　SVM是一種常見的分類器，在很長一段時間起到了統治地位。而目前來講SVM依然是一種非常好用的分類器，在處理少量資料的時候有非常出色的表現。SVM是一個非常常見的分類器，在真正瞭解他的原理之前我們多多少少都有接觸過他。本文將會詳細的介紹SVM的原理、目標以及計算過程和演算法步驟。我們針對線性可分資

支援向量機（Python實現）

1 參考連結

2 實現程式碼

3 執行結果

相關推薦