機器學習——K-均值聚類（K-means）演算法

阿新 • • 發佈：2018-11-29

本文轉載自：https://www.cnblogs.com/ybjourney/p/4714870.html

一 K-均值聚類（K-means）概述

聚類

“類”指的是具有相似性的集合。聚類是指將資料集劃分為若干類，使得類內之間的資料最為相似，各類之間的資料相似度差別儘可能大。聚類分析就是以相似性為基礎，對資料集進行聚類劃分，屬於無監督學習。
無監督學習和監督學習

上一篇對KNN進行了驗證，和KNN所不同，K-均值聚類屬於無監督學習。那麼監督學習和無監督學習的區別在哪兒呢？監督學習知道從物件（資料）中學習什麼，而無監督學習無需知道所要搜尋的目標，它是根據演算法得到資料的共同特徵。比如用分類和聚類來說，分類事先就知道所要得到的類別，而聚類則不一樣，只是以相似度為基礎，將物件分得不同的簇。
K-means

k-means演算法是一種簡單的迭代型聚類演算法，採用距離作為相似性指標，從而發現給定資料集中的K個類，且每個類的中心是根據類中所有值的均值得到，每個類用聚類中心來描述。對於給定的一個包含n個d維資料點的資料集X以及要分得的類別K,選取歐式距離作為相似度指標，聚類目標是使得各類的聚類平方和最小，即最小化：

在這裡插入圖片描述

結合最小二乘法和拉格朗日原理，聚類中心為對應類別中各資料點的平均值，同時為了使得演算法收斂，在迭代過程中，應使最終的聚類中心儘可能的不變。

演算法流程

K-means是一個反覆迭代的過程，演算法分為四個步驟：

1）選取資料空間中的K個物件作為初始中心，每個物件代表一個聚類中心；

2）對於樣本中的資料物件，根據它們與這些聚類中心的歐氏距離，按距離最近的準則將它們分到距離它們最近的聚類中心（最相似）所對應的類；

3）更新聚類中心：將每個類別中所有物件所對應的均值作為該類別的聚類中心，計算目標函式的值；

4）判斷聚類中心和目標函式的值是否發生改變，若不變，則輸出結果，若改變，則返回2）。

用以下例子加以說明：

在這裡插入圖片描述

圖1：給定一個數據集；

圖2：根據K = 5初始化聚類中心，保證　聚類中心處於資料空間內；

圖3：根據計算類內物件和聚類中心之間的相似度指標，將資料進行劃分；

圖4：將類內之間資料的均值作為聚類中心，更新聚類中心。

最後判斷演算法結束與否即可，目的是為了保證演算法的收斂。

二 python實現

首先，需要說明的是，我採用的是python2.7，直接上程式碼：

#k-means演算法的實現
#-*-coding:utf-8 -*-
from numpy import *
from math import sqrt


import sys
sys.path.append("C:/Users/Administrator/Desktop/k-means的python實現")
 
def loadData(fileName):
    data = []
    fr = open(fileName)
    for line in fr.readlines():
        curline = line.strip().split('\t')
        frline = map(float,curline)
        data.append(frline)
    return data
'''
#test
a = mat(loadData("C:/Users/Administrator/Desktop/k-means/testSet.txt"))
print a
'''
#計算歐氏距離
def distElud(vecA,vecB):
    return sqrt(sum(power((vecA - vecB),2)))

#初始化聚類中心
def randCent(dataSet,k):
    n = shape(dataSet)[1]
    center = mat(zeros((k,n)))
    for j in range(n):
        rangeJ = float(max(dataSet[:,j]) - min(dataSet[:,j]))
        center[:,j] = min(dataSet[:,j]) + rangeJ * random.rand(k,1)
    return center
'''
#test
a = mat(loadData("C:/Users/Administrator/Desktop/k-means/testSet.txt"))
n = 3
b = randCent(a,3)
print b
'''
def kMeans(dataSet,k,dist = distElud,createCent = randCent):
    m = shape(dataSet)[0]
    clusterAssment = mat(zeros((m,2)))
    center = createCent(dataSet,k)
    clusterChanged = True
    while clusterChanged:
        clusterChanged = False
        for i in range(m):
            minDist = inf
            minIndex = -1
            for j in range(k):
                distJI = dist(dataSet[i,:],center[j,:])
                if distJI < minDist:
                    minDist = distJI
                    minIndex = j
            if clusterAssment[i,0] != minIndex:#判斷是否收斂
                clusterChanged = True
            clusterAssment[i,:] = minIndex,minDist ** 2
        print center
        for cent in range(k):#更新聚類中心
            dataCent = dataSet[nonzero(clusterAssment[:,0].A == cent)[0]]
            center[cent,:] = mean(dataCent,axis = 0)#axis是普通的將每一列相加，而axis=1表示的是將向量的每一行進行相加
    return center,clusterAssment
'''
#test
dataSet = mat(loadData("C:/Users/Administrator/Desktop/k-means/testSet.txt"))
k = 4
a = kMeans(dataSet,k)
print a
'''

最終的結果如下圖5和圖6：
在這裡插入圖片描述

更多案例請關注“思享會Club”公眾號或者關注思享會部落格：http://gkhelp.cn/

在這裡插入圖片描述

機器學習——K-均值聚類（K-means）演算法

本文轉載自：https://www.cnblogs.com/ybjourney/p/4714870.html 一 K-均值聚類（K-means）概述聚類 “類”指的是具有相似性的集合。聚類是指將資料集劃分為若干類，使得類內之間的資料最為相似，各類之間的資料相

Python機器學習演算法實踐——k均值聚類（k-means）

一開始的目的是學習十大挖掘演算法（機器學習演算法）,並用編碼實現一遍，但越往後學習，越往後實現編碼，越發現自己的編碼水平低下，學習能力低。這一個k-means演算法用Python實現竟用了三天時間，可見編碼水平之低，而且在編碼的過程中看了別人的編碼，才發現自己對

K均值聚類（K-means）和高斯混合聚類（Mixture of Gaussian Models）

math del 一個 ans line k-均值聚類初始化 gaussian 樣本 K-means算法流程給定條件： ????example set: \((x_1, y_1), (x_2, y_2), \dots, (x_N, y_N)\) 初始化： ????K個簇

聚類分析演算法Python3.6實踐K均值聚類（K-means）

在http://blog.csdn.net/zouxy09/article/details/17589329 上看到聚類分析演算法，但是是基於python2.7.5版本，直接移植到Python3.6會有問題，更改程式碼後為增加對比性，繪製原始資料不部分；程式碼如下： ##

python機器學習案例系列教程——k均值聚類、k中心點聚類

上一篇我們學習了層次聚類。層次聚類只是迭代的把最相近的兩個聚類匹配起來。並沒有給出能給出多少的分組。今天我們來研究一個K均值聚類。就是給定分組數目的基礎上再來聚類。即將所有的樣本資料集分成K個組，每個組內儘可能相似，每個組間又儘可能不相似。 k均值聚類和k

聚類之均值聚類（k-means）演算法的python實現

# -*- coding: UTF-8 -*- import numpy import random import codecs import copy import re import matplotlib.pyplot as plt def calcuDistance(vec1, vec2):

周志華《機器學習》Ch9. 聚類：k-means演算法的python實現

理論 k-means方法是一種常用的聚類方法，其目標是最小化其中是第i個簇的中心。直接優化上式有難度，故k-means演算法採用一種近似方法。簡單來說，k-means演算法由兩個步驟迴圈組成： 1. 計算每個sample到各個簇中心的距離，將該sample的類

K均值聚類--利用k-means演算法分析NBA近四年球隊實力

分類作為一種監督學習方法，要求必須事先明確知道各個類別的資訊，並且斷言所有待分類項都有一個類別與之對應。但是很多時候上述條件得不到滿足，尤其是在處理海量資料的時候，如果通過預處理使得資料滿足分類演算法的要求，則代價非常大，這時候可以考慮使用聚類演算法。聚類屬於無監督學習，相比於分類，聚類不依賴預定義的類和類標

[硬貨]|《機器學習》筆記-聚類（9）

作者：劉才權編輯：黃俊嘉寫在最前面如今機器學習和深度學習如此火熱，相信很多像我一樣的普通程式猿或者還在大學校園中的同學，一定也想參與其中。不管是出於好奇，還是自身充電，跟上潮流，我覺得都值得試一試。對於自己，經歷了一段時間的系統學習（參考

譜聚類（Spectral Clustering）演算法介紹

一. 前言本來想寫關於聚類系列演算法的介紹，但是聚類系列的其它幾個演算法原理比較簡單，網上有大量的教程可以查閱。這裡主要是介紹一下譜聚類演算法，做一個學習筆記，同時也希望對想要了解該演算法的朋友有一個幫助。關於聚類的其他系列演算法，這裡推薦一個寫的很不錯的部落格。譜聚

機器學習實戰（Machine Learning in Action）學習筆記————06.k-均值聚類演算法（kMeans）學習筆記

機器學習實戰（Machine Learning in Action）學習筆記————06.k-均值聚類演算法（kMeans）學習筆記關鍵字：k-均值、kMeans、聚類、非監督學習作者：米倉山下時間：2018-11-3機器學習實戰（Machine Learning in Action,@author: Pet

《機器學習實戰》二分-kMeans演算法（二分K均值聚類）

首先二分-K均值是為了解決k-均值的使用者自定義輸入簇值k所延伸出來的自己判斷k數目，其基本思路是：為了得到k個簇，將所有點的集合分裂成兩個簇，從這些簇中選取一個繼續分裂，如此下去，直到產生k個簇。虛擬碼：初始化簇表，使之包含由所有的點組成的簇。 repeat &n

機器學習（二）——K均值聚類演算法（K-means）

概述： 1.聚類 “類”指的是具有相似性的集合。聚類是指將資料集劃分為若干類，使得類內之間的資料最為相識，各類之間的資料相似度差別儘可能大。聚類分析就是以相似性為基礎，對資料集進行聚類分析，屬於無監督學習。 2.無監督學習和監督學習 k-均值聚類（k-means）與k-近鄰（knn）

斯坦福大學機器學習筆記——聚類（k-均值聚類演算法、損失函式、初始化、聚類數目的選擇）

上面的部落格的演算法都是有監督學習的演算法，即對於每個資料我們都有該資料對應的標籤，資料集的形式如下：而今天我們學習的演算法是一種無監督學習的演算法——聚類，該演算法中的每個資料沒有標籤，資料集的形式如下： K-均值聚類 k-均值聚類是一種最常見

機器學習練習（七）—— K-均值聚類與主成分分析

這篇文章是一系列 Andrew Ng 在 Coursera 上的機器學習課程的練習的一部分。這篇文章的原始程式碼，練習文字，資料檔案可從這裡獲得。現在我們到了本系列最後兩篇文章了！在本部分，我們將會討論

機器學習實戰筆記-利用K均值聚類算法對未標註數據分組

機器學習-*-K均值聚類及程式碼實現

KMeans聚類在聚類演算法中，最出名的應該就是k均值聚類(KMeans)了，幾乎所有的資料探勘/機器學習書籍都會介紹它，有些初學者還會將其與KNN等混淆。k均值是一種聚類演算法，屬於無監督學習的一種，而KNN是有監督學習/分類學習的一種。聚類：顧名思義，就是講某些相似的事物聚在

【機器學習筆記12】聚類（k-means)

K-means 演算法演算法流程如下：（1）在樣本中選擇兩個點（也可以是若干個）作為種子點；（2）計算其餘各個樣本離該種子點的距離，並將其分為兩類；（3）將種子點移到（2）所分為的兩類的中間；（4）重複（2）(3)直到種子不再移動； K-means

機器學習實戰———k均值聚類演算法

問題：關於第九章list（）新增的問題 fltLine = list(map(float,curLine)) fltLine = map(float,curLine) 二者的區別在於加list（）輸出為數 [1.658985, 4.285136] [-3.453

機器學習實戰---讀書筆記：第10章利用K均值聚類演算法對未標註資料分組---1

#!/usr/bin/env python # encoding: utf-8 import os from matplotlib import pyplot as plt from numpy import * ''' 讀書筆記之--<<機器學習實戰>>--第10章_

機器學習——K-均值聚類（K-means）演算法

一 K-均值聚類（K-means）概述

二 python實現

相關推薦