資料聚類演算法-K-means演算法

阿新 • • 發佈：2018-11-29

深入淺出K-Means演算法

摘要：

在資料探勘中，K-Means演算法是一種 cluster analysis 的演算法，其主要是來計算資料聚集的演算法，主要通過不斷地取離種子點最近均值的演算法。

K-Means演算法主要解決的問題如下圖所示。我們可以看到，在圖的左邊有一些點，我們用肉眼可以看出來有四個點群，但是我們怎麼通過計算機程式找出這幾個點群來呢？於是就出現了我們的K-Means演算法

演算法概要

這個演算法其實很簡單，如下圖所示：

從上圖中，我們可以看到，A，B，C，D，E是五個在圖中點。而灰色的點是我們的種子點，也就是我們用來找點群的點。有兩個種子點，所以K=2。

然後，K-Means的演算法如下：

隨機在圖中取K（這裡K=2）個種子點。
然後對圖中的所有點求到這K個種子點的距離，假如點Pi離種子點Si最近，那麼Pi屬於Si點群。（上圖中，我們可以看到A，B屬於上面的種子點，C，D，E屬於下面中部的種子點）
接下來，我們要移動種子點到屬於他的“點群”的中心。（見圖上的第三步）
然後重複第2）和第3）步，直到，種子點沒有移動（我們可以看到圖中的第四步上面的種子點聚合了A，B，C，下面的種子點聚合了D，E）。

這個演算法很簡單，但是有些細節我要提一下，求距離的公式我不說了，大家有初中畢業水平的人都應該知道怎麼算的。我重點想說一下“求點群中心的演算法”。

求點群中心的演算法

一般來說，求點群中心點的演算法你可以很簡的使用各個點的X/Y座標的平均值。不過，我這裡想告訴大家另三個求中心點的的公式：

1）Minkowski Distance公式——λ可以隨意取值，可以是負數，也可以是正數，或是無窮大。

2）Euclidean Distance公式——也就是第一個公式λ=2的情況

3）CityBlock Distance公式——也就是第一個公式λ=1的情況

這三個公式的求中心點有一些不一樣的地方，我們看下圖（對於第一個λ在0-1之間）。

（1）Minkowski Distance （2）Euclidean Distance （3） CityBlock Distance

上面這幾個圖的大意是他們是怎麼個逼近中心的，第一個圖以星形的方式，第二個圖以同心圓的方式，第三個圖以菱形的方式。

K-Means的演示

如果你以”K Means Demo“為關鍵字到Google裡查你可以查到很多演示。這裡推薦一個演示：http://home.dei.polimi.it/matteucc/Clustering/tutorial_html/AppletKM.html

操作是，滑鼠左鍵是初始化點，右鍵初始化“種子點”，然後勾選“Show History”可以看到一步一步的迭代。

注：這個演示的連結也有一個不錯的K Means Tutorial。

K-Means++演算法

K-Means主要有兩個最重大的缺陷——都和初始值有關：

K是事先給定的，這個K值的選定是非常難以估計的。很多時候，事先並不知道給定的資料集應該分成多少個類別才最合適。（ISODATA演算法通過類的自動合併和分裂，得到較為合理的型別數目K）
K-Means演算法需要用初始隨機種子點來搞，這個隨機種子點太重要，不同的隨機種子點會有得到完全不同的結果。（K-Means++演算法可以用來解決這個問題，其可以有效地選擇初始點）

我在這裡重點說一下K-Means++演算法步驟：

先從我們的資料庫隨機挑個隨機點當“種子點”。
對於每個點，我們都計算其和最近的一個“種子點”的距離D(x)並儲存在一個數組裡，然後把這些距離加起來得到Sum(D(x))。
然後，再取一個隨機值，用權重的方式來取計算下一個“種子點”。這個演算法的實現是，先取一個能落在Sum(D(x))中的隨機值Random，然後用Random -= D(x)，直到其<=0，此時的點就是下一個“種子點”。
重複第（2）和第（3）步直到所有的K個種子點都被選出來。
進行K-Means演算法。

相關的程式碼你可以在這裡找到“implement the K-means++ algorithm”（牆）另，Apache的通用資料學庫也實現了這一演算法

K-Means演算法應用

看到這裡，你會說，K-Means演算法看來很簡單，而且好像就是在玩座標點，沒什麼真實用處。而且，這個演算法缺陷很多，還不如人工呢。是的，前面的例子只是玩二維座標點，的確沒什麼意思。但是你想一下下面的幾個問題：

1）如果不是二維的，是多維的，如5維的，那麼，就只能用計算機來計算了。

2）二維座標點的X，Y 座標，其實是一種向量，是一種數學抽象。現實世界中很多屬性是可以抽象成向量的，比如，我們的年齡，我們的喜好，我們的商品，等等，能抽象成向量的目的就是可以讓計算機知道某兩個屬性間的距離。如：我們認為，18歲的人離24歲的人的距離要比離12歲的距離要近，鞋子這個商品離衣服這個商品的距離要比電腦要近，等等。

只要能把現實世界的物體的屬性抽象成向量，就可以用K-Means演算法來歸類了。

在《k均值聚類(K-means)》這篇文章中舉了一個很不錯的應用例子，作者用亞洲15支足球隊的2005年到1010年的戰績做了一個向量表，然後用K-Means把球隊歸類，得出了下面的結果，呵呵。

亞洲一流：日本，韓國，伊朗，沙特
亞洲二流：烏茲別克，巴林，朝鮮
亞洲三流：中國，伊拉克，卡達，阿聯酋，泰國，越南，阿曼，印尼

其實，這樣的業務例子還有很多，比如，分析一個公司的客戶分類，這樣可以對不同的客戶使用不同的商業策略，或是電子商務中分析商品相似度，歸類商品，從而可以使用一些不同的銷售策略，等等。

資料聚類演算法-K-means演算法

深入淺出K-Means演算法

摘要：

演算法概要

求點群中心的演算法

K-Means的演示

K-Means++演算法

K-Means演算法應用

資料建模-聚類分析-K-Means演算法

聚類之K-means演算法

無監督學習——聚類（k-means演算法）

聚類分析層次聚類及k-means演算法

K均值聚類--利用k-means演算法分析NBA近四年球隊實力

層次聚類以及k-means演算法

8.2 聚類(Clustering) K-means演算法應用

周志華《機器學習》Ch9. 聚類：k-means演算法的python實現

資料聚類演算法-K-means演算法

機器學習——K-均值聚類（K-means）演算法

聚類演算法實踐（一）——層次聚類、K-means聚類

聚類分析(K-means 層次聚類和基於密度DBSCAN演算法三種實現方式)

聚類之均值聚類（k-means）演算法的python實現

Python機器學習演算法實踐——k均值聚類（k-means）

聚類分析演算法Python3.6實踐K均值聚類（K-means）

【機器學習】聚類演算法：層次聚類、K-means聚類

聚類分析K均值演算法講解

MADlib——基於SQL的資料探勘解決方案（26）——聚類之k-means方法

軟件——機器學習與Python，聚類，K——means

mahout in Action2.2-聚類介紹-K-means聚類算法

資料聚類演算法-K-means演算法

深入淺出K-Means演算法

摘要：

演算法概要

求點群中心的演算法

K-Means的演示

K-Means++演算法

K-Means演算法應用

相關推薦