機器學習--k-近鄰演算法（kNN）實現手寫數字識別

阿新 • • 發佈：2018-12-11

這裡的手寫數字以0,1的形式儲存在文字檔案中，大小是32x32.目錄trainingDigits有1934個樣本。0-9每個數字大約有200個樣本，命名規則如下：

下劃線前的數字代表是樣本0-9的數字，下劃線後的數字代表是當前數字的第多少個樣本。

目錄testDigits下有946個樣本。這個資料集可以在網上下載。

首先將32x32的二進位制影象矩陣轉換為1x1024的向量。

def img2vector(filename):
    returnVect = zeros((1, 1024))
    fr = open(filename)
    for i in range(32):
        lineStr = fr.readline()
        for j in range(32):
            returnVect[0, 32*i+j] = int(lineStr[j])
    return returnVect

def classify0(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]
    #下面的四行程式碼計算距離
    diffMat = tile(inX, (dataSetSize, 1)) - dataSet
    sqDiffMat = diffMat ** 2
    sqDistances = sqDiffMat.sum(axis=1)
    distances = sqDistances ** 0.5
    #對距離進行排序
    sortedDistIndicies = distances.argsort()
    classCount = {}
    #確定前k個較小距離的類別
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1
    #獲得最大頻率的類別
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]

現在，可以檢測一下kNN分類器的效果了。

def handwritingClassTest():
    hwLabels = []
    #獲取目錄內容
    trainingFileList = listdir('digits/trainingDigits')
    m = len(trainingFileList)
    traningMat = zeros((m, 1024))
    for i in range(m):
        #從檔名解析分類數字
        fileNameStr = trainingFileList[i]
        fileStr = fileNameStr.split('.')[0]
        classNumStr = int(fileStr.split('_')[0])
        hwLabels.append(classNumStr)
        traningMat[i, :] = img2vector('digits/trainingDigits/%s' % fileNameStr)
    testFileList = listdir('digits/testDigits')
    errorCount = 0.0
    mTest = len(testFileList)
    for i in range(mTest):
        fileNameStr = testFileList[i]
        fileStr = fileNameStr.split('.')[0]
        classNumStr = int(fileStr.split('_')[0])
        vectorUnderTest = img2vector('digits/testDigits/%s' % fileNameStr)
        classifierResult = classify0(vectorUnderTest, traningMat, hwLabels, 3)
        print("the classifier came back with: %d, the real answer is: %d\n" % (classifierResult, classNumStr))
        if(classifierResult != classNumStr):
            errorCount += 1.0
    print("the total number of errors is: %d\n" % errorCount)
    print("the total error rate is: %f" % (errorCount/float(mTest)))

將上面的幾段程式碼儲存為kNN.py，然後在終端執行如下操作：

最後的輸出如下：

機器學習--k-近鄰演算法（kNN）實現手寫數字識別

這裡的手寫數字以0,1的形式儲存在文字檔案中，大小是32x32.目錄trainingDigits有1934個樣本。0-9每個數字大約有200個樣本，命名規則如下：下劃線前的數字代表是樣本0-9的

基於k近鄰（KNN）的手寫數字識別

作者：faaronzheng 轉載請註明出處！最近再看Machine Learning in Action. k近鄰演算法這一章節提供了不少例子，本著Talk is cheap的原則，我們用手寫數字識別來實際測試一下。簡單的介紹一下k近鄰演算法（KNN）：給定測試樣本

深度學習之PyTorch實戰（3）——實戰手寫數字識別

　　上一節，我們已經學會了基於PyTorch深度學習框架高效，快捷的搭建一個神經網路，並對模型進行訓練和對引數進行優化的方法，接下來讓我們牛刀小試，基於PyTorch框架使用神經網路來解決一個關於手寫數字識別的計算機視覺問題，評價我們搭建的模型的標準是它是否能準確的對手寫數字圖片進行識別。　　

機器學習筆記九：K近鄰演算法（KNN）

一.基本思想 K近鄰演算法，即是給定一個訓練資料集，對新的輸入例項，在訓練資料集中找到與該例項最鄰近的K個例項，這K個例項的多數屬於某個類，就把該輸入例項分類到這個類中。如下面的圖：通俗一點來說，就是找最“鄰近”的夥伴，通過這些夥伴的類別來看自己的類別

《機器學習實戰》學習筆記——K-近鄰演算法（KNN）(二)海倫約會網站匹配實戰

《機器學習實戰》中KNN演算法例項一：關於這個實戰的故事背景可以搜尋“海倫約會網站”基本上就可以瞭解。這個實驗的目的是根據已有的海倫整理出來的約會物件的資料和海倫對約會物件的評價，構造分類器，使對

K近鄰演算法（kNN）學習——kd樹

構造kd樹的過程我自己總結了一個口訣就是：“選擇中位數，一橫一豎” 構造平衡kd樹演算法輸入：k維空間資料集T={x1,x2,...,xN},其中xi=(x(1)i,x(2)i,...,x(k)i)，i=1,2...,N; 輸出kd樹。（1）分別基於輸入

基於scikit-learn實現k近鄰演算法（kNN）與超引數的除錯

前一篇關於kNN的部落格介紹了演算法的底層實現，這片部落格讓我們一起看一看基於scikit-learn如何快速的實現kNN演算法。 scikit-learn內建了很多資料集，就不用我們自己編造假資料了，下面我們分別選用鳶尾花和手寫數字識別的資料集。首先匯入需要的庫 from sklea

K-近鄰演算法（KNN）

#-*- coding:utf-8 -*- import numpy as np import operator def createDataset(): #四組二維特徵 group = np.array([[5,115],[7,106],[56,11],[66,9]])

Python高階--K-近鄰演算法（KNN）

K nearest neighbour K-近鄰演算法採用測量不同特徵值之間的距離方法進行分類。優點：精度高、對異常值不敏感、無資料輸入假定。缺點：時間複雜度高、空間複雜度高。適用資料範圍：數值型和標稱型。一、K

各種機器學習方法（線性迴歸、支援向量機、決策樹、樸素貝葉斯、KNN演算法、邏輯迴歸）實現手寫數字識別並用準確率、召回率、F1進行評估

本文轉自：http://blog.csdn.net/net_wolf_007/article/details/51794254 前面兩章對資料進行了簡單的特徵提取及線性迴歸分析。識別率已經達到了85%，完成了數字識別的第一步：資料探測。這一章要做的就各

K 近鄰演算法（KNN）與KD 樹實現

KD樹節點 /// <summary> /// ＫＤ樹節點 /// /2016/4/1安晟新增 /// </summary> [Serializable] p

學習KNN（三）KNN+HOG實現手寫數字識別

在學習KNN（二）KNN演算法手寫數字識別的OpenCV實現我們直接將畫素值作為特徵，實現了KNN演算法的手寫數字識別問題，並得到了較好的準確率，但是就像其他機器學習演算法一樣，KNN的物件同樣是特徵，所以我們可以用一種特徵提取演算法配合KNN實現手寫數字識

Tensorflow深度學習筆記（二）--BPNN手寫數字識別視覺化

資料集：MNIST 啟用函式：Relu 損失函式：交叉熵 Optimizer：AdamOptimizer 視覺化工具：tensorboad 迭代21epoch，accuracy結果如下： Iter 16,Testing Accuracy:

pytorch 入門（二） cnn 手寫數字識別

import torch import torch.nn as nn import torchvision.datasets as normal_datasets import torchvision.transforms as transforms from

TensorFlow程式碼實現（一）[MNIST手寫數字識別]

最簡單的神經網路結構：資料來源準備：資料在之前的文章中分析過了在這裡我們就構造一層神經網路：前提準備：引數： train images：因為圖片是28*28的個數，換算成一維陣列就是784，因此我們定義x = tf.placeholder(tf

Pytorch 快速入門（六）MNIST 手寫數字識別之CNN

接觸過深度學習的朋友對MNIST資料集肯定不陌生。基本上算是玩神經網路裡的“hello,world！”本節基於MNIST資料集，實現CNN學習過程。下面是一個 CNN 最後一層的學習過程, 我們先視覺化看看:MNIST手寫資料首先是資料集下載，為了看看資料集裡究竟是長什麼樣

小白python學習——機器學習篇——k-近鄰演算法（KNN演算法）

一、演算法理解一般給你一資料集，作為該題目的資料（一個矩陣，每一行是所有特徵），而且每一組資料都是分了類，然後給你一個數據，讓這個你預測這組資料屬於什麼類別。你需要對資料集進行處理，如：歸一化數值。處理後可以用matplotlib繪製出影象，一般選兩個特徵繪製x，y軸，然後核心是計算出預測點到

《機器學習實戰》第二章：k-近鄰演算法（1）簡單KNN

收拾下心情，繼續上路。最近開始看Peter Harrington的《Machine Learning in Action》... 的中文版《機器學習實戰》。準備在部落格裡面記錄些筆記。這本書附帶的程式碼和資料及可以在這裡找到。這本書裡程式碼基本是用python寫的

機器學習實戰（Machine Learning in Action）學習筆記————02.k-鄰近演算法（KNN）

機器學習實戰（Machine Learning in Action）學習筆記————02.k-鄰近演算法（KNN）關鍵字：鄰近演算法（kNN: k Nearest Neighbors）、python、原始碼解析、測試作者：米倉山下時間：2018-10-21機器學習實戰（Machine Learning in

機器學習之K-近鄰演算法（二）

本章內容： K-近鄰分類演算法從文字檔案中解析和匯入資料使用matplotlib建立擴散圖歸一化數值 2-1 K-近鄰演算法概述簡單的說，K-近鄰演算法採用測量不同特徵值之間的距離方法進行分類。 K-近鄰演算法優點：精度高、對異常

機器學習--k-近鄰演算法（kNN）實現手寫數字識別

相關推薦