Scikit-Learn學習筆記——k-means聚類：影象識別、色彩壓縮

阿新 • • 發佈：2019-02-20

k-means聚類

k-means是一種無監督學習模型——聚類演算法的一種演算法。k-means演算法可以在不帶標籤的多維資料集中尋找確定數量的簇。
最優的聚類結果需要符合一下兩個假設

“簇中心點“是屬於該簇的所有資料點座標的算術平均值

一個簇的每個點到該簇中心點的距離，比到其他簇中心點的距離短。

#簡單演示k-means演算法
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns;sns.set()
import numpy as np
from sklearn.datasets.samples_generator import 
 make_blobs
x, y = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)

from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=4)
kmeans.fit(x)
y_kmeans = kmeans.predict(x)

#視覺化
plt.scatter(x[:, 0], x[:, 1], c=y_kmeans, cmap='viridis')
centers = kmeans.cluster_centers_
plt.scatter(centers[:, 0 
], centers[:, 1], c='k', s=200, alpha=0.5)

這裡寫圖片描述

手動實現一個簡單的k-means演算法


from sklearn.metrics import pairwise_distances_argmin
def find_clusters(x, n_clusters, rseed=2):
    #1.隨機選擇簇中心點
    rng = np.random.RandomState(rseed)
    i = rng.permutation(x.shape[0])[:n_clusters]
    centers = x[i]

    while True:
        # 2a.給於最近的中心執行標籤 

        labels = pairwise_distances_argmin(x, centers)
        #2b.根據點的平均值找到新的中心
        new_centers =np.array([x[labels==i].mean(0)
                              for i in range(n_clusters)])
        #2c.確認收斂
        if np.all(centers == new_centers):
            break
        centers = new_centers
    return centers, labels
center, labels = find_clusters(x, 4)
plt.scatter(x[:, 0], x[:, 1], c=labels, s=50, cmap='viridis')

這裡寫圖片描述

使用核k-means演算法實現非線性聚類

#k-means演算法遇到非線性邊界時會失效
from sklearn.datasets import make_moons
x, y = make_moons(200, noise=.05, random_state=0)
labels = KMmeans(2, random_state=0).fit_predict(x)
plt.scatter(x[:, 0], x[:, 1], c=labels, s=50, cmap='viridis')

這裡寫圖片描述

#通過一個核變換將資料投影到更高維空間，投影后的資料線性分離成為可能
from sklearn.cluster import SpectralClustering
model = SpectralClustering(n_clusters=2, affinity='nearest_neighbors',assign_labels='kmeans')
labels = model.fit_predict(x)
plt.scatter(x[:, 0], x[:, 1], c=labels, s=50, cmap='viridis')

這裡寫圖片描述

用k-means演算法處理手寫數字

### 用k-means演算法處理手寫數字
from sklearn.datasets import load_digits
digits = load_digits()

kmeans = KMeans(n_clusters=10, random_state=0)
clusters = kmeans.fit_predict(digits.data)
#視覺化10類中的中心點——最具有代表性的10個數字
fig, ax = plt.subplots(2, 5, figsize=(8, 3))
centers = kmeans.cluster_centers_.reshape(10, 8, 8)
for axi, center in zip(ax.flat, centers):
    axi.set(xticks=[], yticks=[])
    axi.imshow(center, interpolation='nearest', cmap=plt.cm.binary)

這裡寫圖片描述

#將每個學習到的簇標籤和真實標籤進行匹配
from scipy.stats import mode
labels = np.zeros_like(clusters)
for i in range(10):
    mask = (clusters == i)
    labels[mask] = mode(digits.target[mask])[0]

#計算分類的準確率
from sklearn.metrics import accuracy_score
accuracy_score(digits.target, labels)

#輸出結果：
0.7935447968836951

#視覺化分類的混淆矩陣
from sklearn.metrics import confusion_matrix
mat = confusion_matrix(digits.target, labels)
sns.heatmap(mat.T, square=True, annot=True, fmt='d', cbar=False,
            yticklabels=digits.target_names, xticklabels=digits.target_names)
plt.xlabel('true label')
plt.ylabel('predicted label')

這裡寫圖片描述

使用t-分佈鄰域演算法對資料進行預處理

#使用t-分佈鄰域嵌入演算法在執行k-means之前對資料進行預處理。t-SNE是一個非線性嵌入演算法，特別擅長保留簇中的資料點
from sklearn.manifold import TSNE
#投影資料：這一步將要執行幾秒鐘
tsne = TSNE(n_components=2, init='pca', random_state=0)
digits_proj = tsne.fit_transform(digits.data)

#計算類
kmeans = KMeans(n_clusters=10, random_state=0)
clusters = kmeans.fit_predict(digits_proj)

#排列標籤
labels = np.zeros_like(clusters)
for i in range(10):
    mask = (clusters == i)
    labels[mask] = mode(digits.target[mask])[0]

#計算分類的準確率
from sklearn.metrics import accuracy_score
accuracy_score(digits.target, labels)

#輸出結果：
0.9371174179187535

將k-means用於色彩壓縮

#將k-means用於色彩壓縮
#需要安裝pillow影象程式包
from sklearn.datasets import load_sample_image
china = load_sample_image("china.jpg")
ax = plt.axes(xticks=[], yticks=[])
ax.imshow(china)

這裡寫圖片描述

#將畫素資料轉換成三維顏色空間中的一群資料點
data = china / 255.0 #轉換為0～1區間
data = data.reshape(427*640, 3)

#在顏色空間中對這些畫素進行視覺化
def plot_pixels(data, title, colors=None, N=10000):
    if colors is None:
        colors = data
    #隨機選擇一個子集
    rng = np.random.RandomState(0)
    i = rng.permutation(data.shape[0])[:N]
    colors = colors[i]
    R, G, B = data[i].T

    fig, ax = plt.subplots(1, 2, figsize=(16, 6))
    ax[0].scatter(R, G, color=colors, marker='.')
    ax[0].set(xlabel='Red', ylabel='Blue', xlim=(0, 1), ylim=(0, 1))

    ax[1].scatter(R, G, color=colors, marker='.')
    ax[1].set(xlabel='Red', ylabel='Blue', xlim=(0, 1), ylim=(0, 1))

    fig.suptitle(title, size=20)

plot_pixels(data, title='Input color space: 16 million possible colors')

這裡寫圖片描述

#對畫素空間使用k-means聚類，將1600萬種顏色（255x255x255=16581375）縮減到16種顏色。
#因為我們處理的是非常大的資料集，所以將使用MiniBatchKMeans演算法，這種演算法速度比k-means速度快
from sklearn.cluster import  MiniBatchKMeans
kmeans = MiniBatchKMeans(16)
kmeans.fit(data)
new_colors = kmeans.cluster_centers_[kmeans.predict(data)]

plot_pixels(data, colors=new_colors, title='Reduced color space:16 colors')

這裡寫圖片描述

#用計算結果對原始畫素重新著色，即每個畫素被指定為距離其距離最近的簇中心點的顏色。
china_recolored = new_colors.reshape(china.shape)

fig, ax = plt.subplots(1, 2, figsize=(16, 6),
                       subplot_kw=dict(xticks=[], yticks=[]))
fig.subplots_adjust(wspace=0.05)
ax[0].imshow(china)
ax[0].set_title("Original Image", size=16)
ax[1].imshow(china_recolored)
ax[1].set_title('16-color Image', size=16)

這裡寫圖片描述

Scikit-Learn學習筆記——k-means聚類：影象識別、色彩壓縮

k-means聚類 k-means是一種無監督學習模型——聚類演算法的一種演算法。k-means演算法可以在不帶標籤的多維資料集中尋找確定數量的簇。最優的聚類結果需要符合一下兩個假設 “簇中心點“是屬於該簇的所有資料點座標的算術平

scikit-learn學習之K-means聚類演算法與 Mini Batch K-Means演算法

======================================================================本系列部落格主要參考 Scikit-Learn 官方網站上的每一個演算法進行，並進行部分翻譯，如有錯誤，請大家指正轉載請註明出

scikit-learn學習之K-means聚類演算法與 Mini Batch K-Means演算法 [轉自別的作者，還有其他sklearn翻譯]

http://blog.csdn.net/gamer_gyt/article/details/51244850 ====================================================================== 本系列部落格主要

吳恩達老師機器學習筆記K-means聚類演算法（二）

運用K-means聚類演算法進行影象壓縮趁熱打鐵，修改之前的演算法來做第二個練習—影象壓縮原始圖片如下：程式碼如下： X =imread('bird.png'); % 讀取圖片 X =im2double(X); % unit8轉成double型別 [m,n,z]=size

吳恩達老師機器學習筆記K-means聚類演算法（一）

今天接著學習聚類演算法以後堅決要八點之前起床學習！不要浪費每一個早晨。 K-means聚類演算法聚類過程如下：原理基本就是先從樣本中隨機選擇聚類中心，計算樣本到聚類中心的距離，選擇樣本最近的中心作為該樣本的類別。最後某一類樣本的座標平均值作為新聚類中心的座標，如此往復。原

Andrew Ng機器學習課程筆記（十二）之無監督學習之K-means聚類演算法

Preface Unsupervised Learning（無監督學習） K-means聚類演算法 Unsupervised Learning 我們以前介紹的所有演算法都是基於有類別標籤的資料集，當我們對於沒有標籤的資料進行分類時，以前的方

非監督學習之k-means聚類演算法——Andrew Ng機器學習筆記（九）

寫在前面的話在聚類問題中，我們給定一個訓練集，演算法根據某種策略將訓練集分成若干類。在監督式學習中，訓練集中每一個數據都有一個標籤，但是在分類問題中沒有，所以類似的我們可以將聚類演算法稱之為非監督式學習演算法。這兩種演算法最大的區別還在於：監督式學習有正確答

機器學習--無監督學習之K-means聚類方法

一、引言從上次SVM之後幾節課講的是學習理論，這塊理論性比較深，我得好好消化一下。所以先總結一下第一個無監督的機器學習演算法，K-means聚類方法。所謂無監督學習，就是資料樣本沒有標籤，要讓學習演算法自己去發現數據之間內在的一些結構和規律。就好比做題沒有標準答案，所以

【機器學習】K-means聚類演算法初探

資料聚類是對於靜態資料分析的一門技術，在許多領域內都被廣泛地應用，包括機器學習、資料探勘、模式識別、影象分析、資訊檢索以及生物資訊等。聚類是把相似的物件通過靜態分類的方法分成不同的組別或者更多的子集，這樣讓在同一個子集中的成員物件都有相似的一些屬性，常見的包括在座標系中

資料學習(5)·K-means 聚類和PCA演算法

作者的課堂筆記[email protected] Preview K-means 聚類主成分分析（Principal Component Analysis）無監督學習和有監督學習類似，但是資料沒有標籤。給定輸入資料，

機器學習之K-means聚類演算法

k均值演算法的計算過程非常直觀： 1、從D中隨機取k個元素，作為k個簇的各自的中心。 2、分別計算剩下的元素到k個簇中心的相異度，將這些元素分別劃歸到相異度最低的簇。 3、根據聚類結果，重新計算k個簇各自的中心，計算方法是取簇

機器學習中K-means聚類演算法原理及C語言實現

本人以前主要focus在傳統音訊的軟體開發，接觸到的演算法主要是音訊訊號處理相關的，如各種編解碼演算法和回聲消除演算法等。最近切到語音識別上，接觸到的演算法就變成了各種機器學習演算法，如GMM等。K-means作為其中比較簡單的一種肯定是要好好掌握的。今天就講講K-means的基本原理和程式碼實現。其中基本原

【SciKit-Learn學習筆記】8：k-均值演算法做文字聚類,聚類演算法效能評估

學習《scikit-learn機器學習》時的一些實踐。原理見K-means和K-means++的演算法原理及sklearn庫中引數解釋、選擇。 sklearn中的KMeans from sklearn.datasets import make_blobs from m

用scikit-learn學習K-Means聚類

　　　　在K-Means聚類演算法原理中，我們對K-Means的原理做了總結，本文我們就來討論用scikit-learn來學習K-Means聚類。重點講述如何選擇合適的k值。 1. K-Means類概述　　　　在scikit-learn中，包括兩個K-Means的演算法，一個是傳統的K-Means演算法，對

CS229 Machine Learning學習筆記:Note 7(K-means聚類、高斯混合模型、EM算法)

learn 不同的 inf ear 公式 course splay alt spa K-means聚類 ng在coursera的機器學習課上已經講過K-means聚類，這裏不再贅述高斯混合模型問題描述聚類問題：給定訓練集\(\{x^{(1)},\cdots,x^{(m

吳恩達機器學習筆記八 K-means聚類演算法

1. 代價函式 K-means演算法是比較容易理解的，它屬於無監督學習方法，所以訓練樣本資料不再含有標籤。我們假設有樣本資料x(1),x(2),⋯,x(m)x(1),x(2),⋯,x(m)，我們選擇設定KK個聚類中心u1,u2,⋯,uKu1,u2,⋯,uK

【機器學習筆記12】聚類（k-means)

K-means 演算法演算法流程如下：（1）在樣本中選擇兩個點（也可以是若干個）作為種子點；（2）計算其餘各個樣本離該種子點的距離，並將其分為兩類；（3）將種子點移到（2）所分為的兩類的中間；（4）重複（2）(3)直到種子不再移動； K-means

MatLab建模學習筆記14——K-Means聚類演算法

網際網路的發展帶動雲端計算、虛擬化、大資料等IT新技術的興起，各行各業的網際網路化日趨明顯。其中大資料的興起和發展壯大成為了IT時代或者說資訊時代最為典型的特徵之一。僅就大資料本身而言，其本身就具有資料體積大、資料多樣性、價值密度低、資料更新快等特點。所以，要想

【OpenCV學習筆記 020】K-Means聚類演算法介紹及實現

一、K-Means演算法介紹在資料探勘中，K-Means演算法是一種cluster analysis的演算法，其主要是來計算資料聚集的演算法，主要通過不斷地取離種子點最近均值的演算法。問題 K-Means演算法主要解決的問題如下圖所示。我們可以看到，在圖的左邊有一些點，

機器學習筆記六：K-Means聚類，層次聚類，譜聚類

前面的筆記搞了那麼多的數學，這篇來一點輕鬆的，提前適應一下除了監督問題以外的非監督學習。這篇筆記有沒有前面那麼多的數學了，要講的聚類算是無監督的學習方式。一.一般問題聚類分析的目標是,建立滿足於同一組內的物件相似,不同組的物件相異的物件分組.它作為一種無

Scikit-Learn學習筆記——k-means聚類：影象識別、色彩壓縮

k-means聚類

手動實現一個簡單的k-means演算法

使用核k-means演算法實現非線性聚類

用k-means演算法處理手寫數字

使用t-分佈鄰域演算法對資料進行預處理

將k-means用於色彩壓縮

相關推薦