K-means聚類演算法及python程式碼實現

阿新 • • 發佈：2021-06-19

K-means聚類演算法（事先資料並沒有類別之分！所有的資料都是一樣的）

1、概述

K-means演算法是集簡單和經典於一身的基於距離的聚類演算法

採用距離作為相似性的評價指標，即認為兩個物件的距離越近，其相似度就越大。

該演算法認為類簇是由距離靠近的物件組成的，因此把得到緊湊且獨立的簇作為最終目標。

2、核心思想

通過迭代尋找k個類簇的一種劃分方案，使得用這k個類簇的均值來代表相應各類樣本時所得的總體誤差最小。

k個聚類具有以下特點：各聚類本身儘可能的緊湊，而各聚類之間儘可能的分開。

k-means演算法的基礎是最小誤差平方和準則,

其代價函式是：

式中，μc(i)表示第i個聚類的均值。

各類簇內的樣本越相似，其與該類均值間的誤差平方越小，對所有類所得到的誤差平方求和，即可驗證分為k類時，各聚類是否是最優的。

上式的代價函式無法用解析的方法最小化，只能有迭代的方法。

3、演算法步驟圖解

下圖展示了對n個樣本點進行K-means聚類的效果，這裡k取2。

4、演算法實現步驟

k-means演算法是將樣本聚類成k個簇（cluster），其中k是使用者給定的，其求解過程非常直觀簡單，具體演算法描述如下：

1)隨機選取k個聚類質心點

2)重複下面過程直到收斂 {

對於每一個樣例i，計算其應該屬於的類：

對於每一個類j，重新計算該類的質心：

}

其虛擬碼如下：

******************************************************************************

建立k個點作為初始的質心點（隨機選擇）

當任意一個點的簇分配結果發生改變時

對資料集中的每一個數據點

對每一個質心

計算質心與資料點的距離

將資料點分配到距離最近的簇

對每一個簇，計算簇中所有點的均值，並將均值作為質心

********************************************************

5、K-means聚類演算法python實戰

需求：

對給定的資料集進行聚類

本案例採用二維資料集，共80個樣本，有4個類。

 1 #!/usr/bin/python
 2 # coding=utf-8
 3 from numpy import *
 4 # 載入資料
 5 def loadDataSet(fileName):  # 解析檔案，按tab分割欄位，得到一個浮點數字型別的矩陣
 6     dataMat = []              # 檔案的最後一個欄位是類別標籤
 7     fr = open(fileName)
 8     for line in fr.readlines():
 9         curLine = line.strip().split('\t')
10         fltLine = map(float, curLine)    # 將每個元素轉成float型別
11         dataMat.append(fltLine)
12     return dataMat
13 
14 # 計算歐幾里得距離
15 def distEclud(vecA, vecB):
16     return sqrt(sum(power(vecA - vecB, 2))) # 求兩個向量之間的距離
17 
18 # 構建聚簇中心，取k個(此例中為4)隨機質心
19 def randCent(dataSet, k):
20     n = shape(dataSet)[1]
21     centroids = mat(zeros((k,n)))   # 每個質心有n個座標值，總共要k個質心
22     for j in range(n):
23         minJ = min(dataSet[:,j])
24         maxJ = max(dataSet[:,j])
25         rangeJ = float(maxJ - minJ)
26         centroids[:,j] = minJ + rangeJ * random.rand(k, 1)
27     return centroids
28 
29 # k-means 聚類演算法
30 def kMeans(dataSet, k, distMeans =distEclud, createCent = randCent):
31     m = shape(dataSet)[0]
32     clusterAssment = mat(zeros((m,2)))    # 用於存放該樣本屬於哪類及質心距離
33     # clusterAssment第一列存放該資料所屬的中心點，第二列是該資料到中心點的距離
34     centroids = createCent(dataSet, k)
35     clusterChanged = True   # 用來判斷聚類是否已經收斂
36     while clusterChanged:
37         clusterChanged = False;
38         for i in range(m):  # 把每一個數據點劃分到離它最近的中心點
39             minDist = inf; minIndex = -1;
40             for j in range(k):
41                 distJI = distMeans(centroids[j,:], dataSet[i,:])
42                 if distJI < minDist:
43                     minDist = distJI; minIndex = j  # 如果第i個數據點到第j箇中心點更近，則將i歸屬為j
44             if clusterAssment[i,0] != minIndex: clusterChanged = True;  # 如果分配發生變化，則需要繼續迭代
45             clusterAssment[i,:] = minIndex,minDist**2   # 並將第i個數據點的分配情況存入字典
46         print centroids
47         for cent in range(k):   # 重新計算中心點
48             ptsInClust = dataSet[nonzero(clusterAssment[:,0].A == cent)[0]]   # 去第一列等於cent的所有列
49             centroids[cent,:] = mean(ptsInClust, axis = 0)  # 算出這些資料的中心點
50     return centroids, clusterAssment
51 # --------------------測試----------------------------------------------------
52 # 用測試資料及測試kmeans演算法
53 datMat = mat(loadDataSet('testSet.txt'))
54 myCentroids,clustAssing = kMeans(datMat,4)
55 print myCentroids
56 print clustAssing

執行結果：

6、K-means演算法補充

K-means演算法的缺點及改進方法

（1）k值的選擇是使用者指定的，不同的k得到的結果會有挺大的不同，如下圖所示，左邊是k=3的結果，這個就太稀疏了，藍色的那個簇其實是可以再劃分成兩個簇的。而右圖是k=5的結果，可以看到紅色菱形和藍色菱形這兩個簇應該是可以合併成一個簇的：

改進：

對k的選擇可以先用一些演算法分析資料的分佈，如重心和密度等，然後選擇合適的k

（2）對k個初始質心的選擇比較敏感，容易陷入區域性最小值。例如，我們上面的演算法執行的時候，有可能會得到不同的結果，如下面這兩種情況。K-means也是收斂了，只是收斂到了區域性最小值：

改進：

有人提出了另一個成為二分k均值（bisecting k-means）演算法，它對初始的k個質心的選擇就不太敏感

（3）存在侷限性，如下面這種非球狀的資料分佈就搞不定了：

（4）資料集比較大的時候，收斂會比較慢。

K-means聚類演算法及python程式碼實現

K-means聚類演算法（事先資料並沒有類別之分！所有的資料都是一樣的） 1、概述

k-means 聚類演算法與Python實現程式碼

k-means 聚類演算法思想先隨機選擇k個聚類中心，把集合裡的元素與最近的聚類中心聚為一類，得到一次聚類，再把每一個類的均值作為新的聚類中心重新聚類，迭代n次得到最終結果分步解析

python基於K-means聚類演算法的影象分割

1 K-means演算法實際上，無論是從演算法思想，還是具體實現上，K-means演算法是一種很簡單的演算法。它屬於無監督分類，通過按照一定的方式度量樣本之間的相似度，通過迭代更新聚類中心，當聚類中心不再移動或移動

Python用K-means聚類演算法進行客戶分群的實現

一、背景 1.專案描述你擁有一個超市(Supermarket Mall)。通過會員卡，你用有一些關於你的客戶的基本資料，如客戶ID，年齡，性別，年收入和消費分數。

關於k-means聚類演算法的原理及解析

一、k-means演算法思想：第一步，從檔案中讀取資料，點用元組表示，點集用列表表示。第二步，初始化聚類中心。首先獲取資料的長度，然後在range(0,length)這個區間上隨機產生k個不同的值,以此為下標提取出資料點，

使用 K-means 聚類演算法處理影象（Python）

K-means演算法屬於無監督分類，通過按照一定的方式度量樣本之間的相似度，通過迭代更新聚類中心，當聚類中心不再移動或移動差值小於閾值時，則就樣本分為不同的類別。

matlab實現K-means聚類演算法（轉載）

https://blog.csdn.net/wys7541/article/details/82153844 K-means聚類演算法的一般步驟：初始化。輸入基因表達矩陣作為物件集X，輸入指定聚類類數N，並在X中隨機選取N個物件作為初始聚類中心。設定迭代中止條件，

K-Means聚類演算法k值選取——輪廓係數

1 # 1 匯入模組和包 2 import matplotlib.pyplot as plt #匯入繪製資料圖的資料庫 3 from sklearn.datasets import make_blobs

k-means聚類演算法原理

k-means演算法原理 k-means是一種無監督的分類演算法，簡而言之就是餵給演算法的資料是沒有標籤的，但是我們需要自己設定k值（分類數）。如顆粒影象中有四種顏色，則設立k值為4.而相反，KNN分類演算法是一種有監督的

Berlekamp-Massey演算法及python程式碼實現

技術標籤：python密碼學 1. Berlekamp-Massey演算法原理介紹 1.1 基本概念簡介設

維吉尼亞密碼的破解演算法及python程式碼實現

技術標籤：python密碼學 1. 密文描述密文1 密文： krkpekmcwxtvknugcmkxfwmgmjvpttuflihcumgxafsdajfupgzzmjlkyykxdvccyqiwdncebwhyjmgkazybtdfsitncwdnolqiacmchnhwcgxfzlwtxzlvgqecllhimbnudynagrttgiiycm