python3對k-mean演算法的理解（轉）

阿新 • • 發佈：2018-12-18

1.隨機選取k個質心（k值取決於你想聚成幾類）

random.sample(dataSet, k) k你是想聚類的個數 dataset是資料集合是陣列

2.dataSet 取出一條資料然後分別與centroidList中的k的值進行歐氏距離的計算比較與哪個距離最短，儲存到對應的分類下

3.第一次分類後，計算均方誤差，是否大於0.001，如果不是，則將第一次的簇分類分別計算均值方差，分別成為新的中心

4.繼續迭代，判斷新舊質心是否相同，如果相同就代表已經聚類成功，如果沒有就迴圈2-3直到相同

寫了點自己理解

import numpy
import random
import codecs
import copy
import re
import matplotlib.pyplot as plt


def calcuDistance(vec1, vec2):
    # 計算向量vec1和向量vec2之間的歐氏距離
    return numpy.sqrt(numpy.sum(numpy.square(vec1 - vec2)))


def loadDataSet(inFile):
    # 載入資料測試資料集
    # 資料由文字儲存，為二維座標
    inDate = codecs.open(inFile, 'r', 'utf-8').readlines()
    dataSet = list()
    for line in inDate:
        line = line.strip()
        strList = re.split('[ ]+', line)  # 去除多餘的空格
        # print strList[0], strList[1]
        numList = list()
        for item in strList:
            num = float(item)
            numList.append(num)
            # print numList
        dataSet.append(numList)

    return dataSet  # dataSet = [[], [], [], ...]


def initCentroids(dataSet, k):
    # 初始化k個質心，隨機獲取
    return random.sample(dataSet, k)  # 從dataSet中隨機獲取k個數據項返回


def minDistance(dataSet, centroidList):
    # 對每個屬於dataSet的item，計算item與centroidList中k個質心的歐式距離，找出距離最小的，
    # 並將item加入相應的簇類中
    # dataSet 取出一條資料 然後分別與centroidList中的k的值進行歐氏距離的計算比較與哪個距離最短，儲存到對應的分類下
    clusterDict = dict()  # 用dict來儲存簇類結果
    for item in dataSet:
        vec1 = numpy.array(item)  # 取出一條資料轉換成array形式
        flag = 0  # 簇分類標記，根據距離比較將該條資料記錄到對應的分類下
        minDis = float("inf")  # 比較值為最大值
        #迴圈簇分類集合中的值
        for i in range(len(centroidList)):
            vec2 = numpy.array(centroidList[i])
            distance = calcuDistance(vec1, vec2)  # 計算相應的歐式距離
            if distance < minDis:
                minDis = distance
                flag = i  # 迴圈結束時，flag儲存的是與當前item距離最近的那個簇標記

        if flag not in clusterDict.keys():  # 簇標記不存在，進行初始化
            clusterDict[flag] = list()
        clusterDict[flag].append(item)  # 加入相應的類別中

    return clusterDict  # 返回新的聚類結果


def getCentroids(clusterDict):
    # 得到k個質心
    centroidList = list()
    for key in clusterDict.keys():
        centroid = numpy.mean(numpy.array(clusterDict[key]), axis=0)  # 計算每列的均值，即找到質心
        # print key, centroid
        centroidList.append(centroid)

    return numpy.array(centroidList).tolist()


def getVar(clusterDict, centroidList):
    # 計算簇集合間的均方誤差
    # 將簇類中各個向量與質心的距離進行累加求和

    sum = 0.0
    for key in clusterDict.keys():
        vec1 = numpy.array(centroidList[key])
        print(vec1)
        distance = 0.0
        for item in clusterDict[key]:
            vec2 = numpy.array(item)
            distance += calcuDistance(vec1, vec2)
        sum += distance

    return sum


def showCluster(centroidList, clusterDict):
    # 展示聚類結果

    colorMark = ['or', 'ob', 'og', 'ok', 'oy', 'ow']  # 不同簇類的標記 'or' --> 'o'代表圓，'r'代表red，'b':blue
    centroidMark = ['dr', 'db', 'dg', 'dk', 'dy', 'dw']  # 質心標記 同上'd'代表稜形
    for key in clusterDict.keys():
        plt.plot(centroidList[key][0], centroidList[key][1], centroidMark[key], markersize=12)  # 畫質心點
        for item in clusterDict[key]:
            plt.plot(item[0], item[1], colorMark[key])  # 畫簇類下的點

    plt.show()


if __name__ == '__main__':

    inFile = "test.txt"  # 資料集檔案
    dataSet = loadDataSet(inFile)  # 載入資料集
    centroidList = initCentroids(dataSet, 4)  # 初始化質心，設定k=4
    clusterDict = minDistance(dataSet, centroidList)  # 第一次聚類迭代
    newVar = getVar(clusterDict, centroidList)  # 獲得均方誤差值，通過新舊均方誤差來獲得迭代終止條件
    oldVar = -0.0001  # 舊均方誤差值初始化為-1
    print ('***** 第1次迭代 *****')
    print
    print( '簇類')
    for key in clusterDict.keys():
        print (key, ' --> ', clusterDict[key])
    print ('k個均值向量: ', centroidList)
    print ('平均均方誤差: ', newVar)
    print()
    showCluster(centroidList, clusterDict)  # 展示聚類結果

    k = 2
    while abs(newVar - oldVar) >= 0.0001:  # 當連續兩次聚類結果小於0.0001時，迭代結束
        centroidList = getCentroids(clusterDict)  # 獲得新的質心
        clusterDict = minDistance(dataSet, centroidList)  # 新的聚類結果
        oldVar = newVar
        newVar = getVar(clusterDict, centroidList)

        print('***** 第%d次迭代 *****' % k)
        print
        print ('簇類')
        for key in clusterDict.keys():
            print (key, ' --> ', clusterDict[key])
        print ('k個均值向量: ', centroidList)
        print ('平均均方誤差: ', newVar)
        print()
        showCluster(centroidList, clusterDict)  # 展示聚類結果

        k += 1

python3對k-mean演算法的理解（轉）

1.隨機選取k個質心（k值取決於你想聚成幾類） random.sample(dataSet, k) k你是想聚類的個數 dataset是資料集合是陣列 2.dataSet 取出一條資料然後分別與centroidList中的k的值進行歐氏距離

對Spring框架的理解（轉）

體系工廠方法面向對象編程整合控制應用 aop 低耦合 ati ① spring框架是一個開源而輕量級的框架，是一個IOC和AOP容器 ② spring的核心就是控制反轉（IOC）和面向切面編程（AOP） ③ 控制反轉（IOC）：是面向對象編程中的一種設計原則，

OpenCV中對Mat裏面depth,dims,channels,step,data,elemSize和數據地址計算的理解（轉）

ima 忽略 learning note 數組進行每一個 ber 初始 cv::Matdepth/dims/channels/step/data/elemSizeThe class Mat represents an n-dimensional dense numeri

對TCP協議握手的理解（轉）

向上重新啟動應該開始不發送開發釋放還要 knowledge 目錄： 31.Tcp握手的一些問題？ 21.Tcp三次握手及SYN攻擊；四次握手？為什麽建立連接是三次握手，而關閉連接卻是四次揮手？ 13.TCP釋放連接四次握手 12.TCP建立連接三次握

對代理模式理解（轉）

代理，代表打理，以他人的名義代表委託人打理其本職工作之外或不所能及的事務，達成合作關係並更高效地促成事務完成的目的。例如明星經紀人，他們並沒有像明星一樣會唱歌、跳舞或演戲，而是替明星打理一些無暇顧及的事務（這並不代表可以代理分外之事），比如推廣與宣傳，合同談判啊之類，達成和約後他們才會通知明星去表演

對mysql樂觀鎖、悲觀鎖、共享鎖、排它鎖、行鎖、表鎖概念的理解（轉）

而在狀態 line 主鍵 n) efault 你家不一致開啟實驗環境： mysql5.6 存儲引擎：innoDB 我們在操作數據庫的時候，可能會由於並發問題而引起的數據的不一致性（數據沖突）樂觀鎖樂觀鎖不是數據庫自帶的，需要我們自己去實現。樂觀鎖是指操作數據庫

OpenCV中對Mat裡面depth,dims,channels,step,data,elemSize和資料地址計算的理解（轉）

cv::Matdepth/dims/channels/step/data/elemSizeThe class Mat represents an n-dimensional dense numerical single-channel or multi-channel ar

Vue2.0 探索之路——生命周期和鉤子函數的一些理解（轉）

head chrom 路由技術分享 defined 修改疑問 reat 有時前言在使用vue一個多禮拜後，感覺現在還停留在初級階段，雖然知道怎麽和後端做數據交互，但是對於mounted這個掛載還不是很清楚的。放大之，對vue的生命周期不甚了解。只知道簡單的使用，而不

矩陣乘法的理解（轉）

導致 ebr tle 就會 ice 大學 img 很多所有大多數人在高中，或者大學低年級，都上過一門課《線性代數》。這門課其實是教矩陣。剛學的時候，還蠻簡單的，矩陣加法就是相同位置的數字加一下。矩陣減法也類似。矩陣乘以一個常數，就是所有位置都乘以這個數。

Spring中AOP的一個通俗易懂的理解（轉）

學會事物 nbsp 連接新的之前天都這不 proxy 這是看到的一個最易懂得AOP簡介了，適合初學者理解。轉自：http://www.verydemo.com/demo_c143_i20837.html 1.我所知道的aop 　　初看aop,上來就是一大堆術語，

Java中泛型T和Class<T>以及Class<?>的理解（轉）

tcl ota 特定類型基本 ext pla enum extend 註意：class是java的關鍵字, 在聲明Java類時使用; Class類的實例表示Java應用運行時的類（class ans enum）或接口（interface and annotatio

齊次座標的理解（轉）

齊次座標表示是計算機圖形學的重要手段之一，它既能夠用來明確區分向量和點，同時也更易用於進行仿射（線性）幾何變換。對於一個向量v以及基oabc，可以找到一組座標(v1,v2,v3)，使得v = v1 a + v2 b + v3 c （1）而對於一個點p，則可以找到一組座標

python中對閉包的理解（2）

上一篇介紹了閉包的概念，這一篇介紹下閉包的使用過程中需要注意的問題。 def count(): fs = [] for i in range(1,4): def f(): return i*i fs.append(f)

python中對閉包的理解（1）

今天聊下python中閉包的用法，首先它是在函式內再定義一個函式，內部定義的函式可以引用外部函式的引數和區域性變數，在呼叫外部函式時返回的是內部函式，但是不會立馬執行內部函式的程式體，需要單獨呼叫內部函式才會去執行。下面的程式就是閉包首先正常定義一個求和函式： def sum(*args)

python3傳送郵件出現的問題（轉）

新手學習Python3.5，根據教程試一試使用Python3.5中的smtplib模組傳送電子郵件。出現多個問題：本文中使用的傳送郵箱：[email protected] 接受郵箱：[email protected] 1、Error：無

機器學習實戰--K近鄰演算法實現（一）

KNN演算法的工作原理為：存在一個樣本資料的集合，也稱作訓練樣本集合，並且樣本集的每個資料都存在標籤。輸入沒有標籤的新資料後，將新資料的每個特徵與樣本集中資料對應的特徵進行比較，然後演算法提取樣本集中特徵最相似的分類標籤，一般只選擇樣本集中前K個最相似的資料，前K個相似資

SSD演算法理解（2）

作者：葉虎編輯：祝鑫泉前言目標檢測近年來已經取得了很重要的進展，主流的演算法主要分為兩個型別：（1）two-stage方法，如R-CNN系演算法，其主要思路是先通過啟發式方法（selective search）或

SpringAop的簡單理解（轉）

AOP AOP（Aspect Oriented Programming），即面向切面程式設計，可以說是OOP（Object Oriented Programming，面向物件程式設計）的補充和完善。OOP引入封裝、繼承、多型等概念來建立一種物件層次結構，用於模擬公共行為的一個集合。不過OO

淺談對面向物件的理解（2）

面向過程與面向物件的區別：面向過程是一種直接的程式設計方法，它是按照程式語言的思路考慮問題。通過順序執行一組語句來實現一個功能，這些語句的執行過程就是整個程式。面向物件是一種抽象度更高的程式設計方法。它的目標是使模組的抽象度更高，目的是可複用。面向物件三大特性：封裝，繼承，多型。面向過程可以說是從細節方

Hessian的使用以及理解（轉）

Hessian的使用以及理解 Hessian版本：3.1.5 將包括如下的內容： Hessian的基本使用 Hessian的原理 Hessian和Spring 的結合使用擴充套件簡單說來，Hessian是一個輕量級的RPC框架(RPC是什麼？請參考這裡)。

python3對k-mean演算法的理解（轉）

相關推薦