【scikit-learn】03：將sklearn庫用於非監督性學習聚類

阿新 • • 發佈：2019-01-10

# -*-coding:utf-8-*-

# ----------------------
#   Author：kevinelstri
#   Datetime:2017.2.16
# ----------------------

# -----------------------
# Unsupervised learning: seeking representations of the data
# http://scikit-learn.org/stable/tutorial/statistical_inference/unsupervised_learning.html
# ----------------------- 

import numpy as np

'''
    非監督性學習
'''

'''
    Clustering: grouping observations together 聚類：分組觀察
    The problem solved in clustering 聚類中的問題求解
    給定一個iris資料集，如果我們知道iris有三種類型，但是沒有一個能夠分開三類的標籤；
    此時，可以嘗試使用聚類任務，將觀察到的資料劃分成更好的組就叫做聚類。
'''
'''
    K-means clustering : k均值聚類
    聚類中存在許多不同的聚類標準和相關演算法，最簡單的聚類演算法就是K均值聚類演算法
''' 

from sklearn import cluster, datasets

iris = datasets.load_iris()  # 載入資料集
x_iris = iris.data  # 資料集的資料
y_iris = iris.target  # 資料集的標籤
print x_iris
print y_iris

k_means = cluster.KMeans(n_clusters=3)  # k_means分類器,引數n_clusters=3,劃分成3類

print k_means.fit(x_iris)  # 分類器直接對資料進行聚類

print k_means.labels_[::10 
]  # 標籤
print y_iris[::10]
print '-------------------------------------------------'
'''
    Application example: vector quantization ：應用案例：向量量化
    聚類的一般演算法，特別的，可以作為一種選擇一些典範的壓縮資訊，這個問題被稱為向量量化。
'''
import scipy as sp
import matplotlib.pyplot as plt

try:
    face = sp.face(gray=True)
except AttributeError:
    from scipy import misc

    face = misc.face(gray=True)

plt.gray()
plt.imshow(face)
plt.show()  # 顯示原圖

# 把圖片畫素進行聚類
X = face.reshape((-1, 1))
k_means = cluster.KMeans(n_clusters=5, n_init=1)  # 構造分類器，引數n_clusters是K值
print k_means.fit(X)  # 分類器對資料進行聚類，分類不需要預測
values = k_means.cluster_centers_.squeeze()
labels = k_means.labels_
face_compressed = np.choose(labels, values)
face_compressed.shape = face.shape
print face_compressed  # 影象中各個畫素的大小
print face_compressed.shape  # 影象大小

plt.gray()
plt.imshow(face_compressed)
plt.show()  # 顯示分類器操作過的影象

'''
    Hierarchical agglomerative clustering: Ward  層次凝聚聚類演算法（自下向上）
    層次聚類方法是典型的聚類分析方法，目的是建立一個分層的聚類。一般，層次聚類的方法可以分為以下兩種：
    自下向上-層次聚類（Agglomerative）：
    自頂向下-層次聚類（Divisive）：
'''
'''
    約束連線聚類：

'''
import matplotlib.pyplot as plt
from sklearn.feature_extraction.image import grid_to_graph
from sklearn.cluster import AgglomerativeClustering
from sklearn.utils.testing import SkipTest
from sklearn.utils.fixes import sp_version
from scipy import misc
import scipy as sp

if sp_version < (0, 12):
    raise SkipTest("Skipping because SciPy version earlier than 0.12.0 and "
                   "thus does not include the scipy.misc.face() image.")

try:
    face = sp.face(gray=True)
except AttributeError:
    from scipy import misc

    face = misc.face(gray=True)
face = sp.misc.imresize(face, 0.10) / 255.
plt.gray()
plt.imshow(face)
plt.show()

'''
    Feature agglomeration 特徵群
'''
digits = datasets.load_digits()
images = digits.images
x = np.reshape(images, (len(images), -1))
connectivity = grid_to_graph(*images[0].shape)
agglo = cluster.FeatureAgglomeration(connectivity=connectivity, n_clusters=32)
print agglo.fit(x)
x_reduced = agglo.transform(x)
x_approx = agglo.inverse_transform(x_reduced)
images_approx = np.reshape(x_approx, images.shape)

'''
    Principal component analysis: PCA 降維
'''
x1 = np.random.normal(size=100)
x2 = np.random.normal(size=100)
x3 = x1 + x2
X = np.c_[x1, x2, x3]

from sklearn import decomposition
pca = decomposition.PCA()  # PCA降維演算法
print pca.fit(X)  # 直接對資料進行降維
print pca.explained_variance_
pca.n_components = 2
X_reduced = pca.fit_transform(X)
print X_reduced.shape

KMeans案例：

# -*-coding:utf-8-*-
"""
第一部分：匯入包
從sklearn.cluster機器學習聚類包中匯入KMeans聚類
"""

from sklearn.cluster import Birch
from sklearn.cluster import KMeans

"""
第二部分：資料集
X表示二維矩陣資料，籃球運動員比賽資料
總共20行，每行兩列資料
第一列表示球員每分鐘助攻數：assists_per_minute
第二列表示球員每分鐘得分數：points_per_minute
"""

X = [[0.0888, 0.5885],
     [0.1399, 0.8291],
     [0.0747, 0.4974],
     [0.0983, 0.5772],
     [0.1276, 0.5703],
     [0.1671, 0.5835],
     [0.1906, 0.5276],
     [0.1061, 0.5523],
     [0.2446, 0.4007],
     [0.1670, 0.4770],
     [0.2485, 0.4313],
     [0.1227, 0.4909],
     [0.1240, 0.5668],
     [0.1461, 0.5113],
     [0.2315, 0.3788],
     [0.0494, 0.5590],
     [0.1107, 0.4799],
     [0.2521, 0.5735],
     [0.1007, 0.6318],
     [0.1067, 0.4326],
     [0.1956, 0.4280]
     ]

# 輸出資料集
print X

"""
第三部分：KMeans聚類
clf = KMeans(n_clusters=3) 表示類簇數為3，聚成3類資料，clf即賦值為KMeans
y_pred = clf.fit_predict(X) 載入資料集X，並且將聚類的結果賦值給y_pred
"""

clf = KMeans(n_clusters=3)  # 聚類演算法，引數n_clusters=3，聚成3類
y_pred = clf.fit_predict(X)  # 直接對資料進行聚類，聚類不需要進行預測

# 輸出完整Kmeans函式，包括很多省略引數
print clf
# 輸出聚類預測結果，20行資料，每個y_pred對應X一行或一個球員，聚成3類，類標為0、1、2
print y_pred

"""
第四部分：視覺化繪圖
Python匯入Matplotlib包，專門用於繪圖
import matplotlib.pyplot as plt 此處as相當於重新命名，plt用於顯示影象
"""

import numpy as np
import matplotlib.pyplot as plt

# 獲取第一列和第二列資料 使用for迴圈獲取 n[0]表示X第一列
x = [n[0] for n in X]
print x
y = [n[1] for n in X]
print y

# 繪製散點圖 引數：x橫軸 y縱軸 c=y_pred聚類預測結果 marker型別 o表示圓點 *表示星型 x表示點
plt.scatter(x, y, c=y_pred, marker='x')

# 繪製標題
plt.title("Kmeans-Basketball Data")

# 繪製x軸和y軸座標
plt.xlabel("assists_per_minute")
plt.ylabel("points_per_minute")

# 設定右上角圖例
plt.legend(["A", "B", "C"])

# 顯示圖形
plt.show()

【scikit-learn】03：將sklearn庫用於非監督性學習聚類

# -*-coding:utf-8-*- # ---------------------- # Author：kevinelstri # Datetime:2017.2.16 # ---------------------- # ------

【scikit-learn】01：使用案例對sklearn庫進行簡單介紹

# -*-coding:utf-8-*- ''' Author：kevinelstri Datetime:2017.2.16 ''' # ----------------------- # An introduction to mac

【Scikit-learn】【模型預處理-2-資料整理】資料標準化調整：把資料調整為標準正態分佈

1.標準正態分佈概念詳細的概念可以www.baidu.com，或者看以前寫的文章。標準正態分佈又稱為u分佈，是以0為均數、以1為標準差的正態分佈，記為N（0，1）。如下圖，綠色綠色就代表了標準正態分佈：2.資料標準化調整2.1簡介許多機器學習演算法在具有不同範圍特徵的資料中呈

【scikit-learn】網格搜尋來進行高效的引數調優

[mean: 0.96000, std: 0.05333, params: {'n_neighbors': 1, 'weights': 'uniform'}, mean: 0.96000, std: 0.05333, params: {'n_neighbors': 1, 'weights': 'dista

【scikit-learn】交叉驗證及其用於引數選擇、模型選擇、特徵選擇的例子

[0.95999999999999996, 0.95333333333333337, 0.96666666666666656, 0.96666666666666656, 0.96666666666666679, 0.96666666666666679, 0.96666666666666679, 0.9666

【scikit-learn】評估分類器效能的度量，像混淆矩陣、ROC、AUC等

6. ROC曲線和AUC¶ ROC曲線指受試者工作特徵曲線/接收器操作特性(receiver operating characteristic，ROC)曲線, 是反映靈敏性和特效性連續變數的綜合指標,是用構圖法揭示敏感性和特異性的相互關係，它通過將連續變數設定出多個不同的臨界值，從而計算出一系列敏感性和特異

【程式14】題目：將一個正整數分解質因數。例如：輸入90,打印出90=233*5

#define _CRT_SECURE_NO_WARNINGS #include <stdio.h> /* 【程式14】題目：將一個正整數分解質因數。例如：輸入90, 打印出90 = 2 * 3 * 3 * 5。【分析】就是從2到自己，一一除過去 */ #if 0 int main

【自然語言處理】【scikit-learn】文字特徵提取

詞袋錶示文字分析是機器學習演算法的主要應用領域。然而，原始資料，一串符號序列不能直接送到演算法本身，因為大多數演算法期望具有固定大小的數字特徵向量而不是具有可變長度的原始文字文件。為了解決這個問題，scikit-learn提供了從文字內容中提取數字特徵的最常用方法的

【Iris】【Keras】神經網路分類器和【scikit-learn】邏輯迴歸分類器的構建

原文連結：https://github.com/fastforwardlabs/keras-hello-world/blob/master/kerashelloworld.ipynb 原文標題：“Hello world” in Keras 本文全部程式碼基於python2，

數學模型：3.非監督學習--聚類分析和K-means聚類

rand tar 聚類分析復制 clust tle 降維算法 generator pro 1. 聚類分析聚類分析（cluster analysis）是一組將研究對象分為相對同質的群組（clusters）的統計分析技術 ---->> 將觀測對象的群體按照

【SciKit-Learn學習筆記】5：核SVM分類和預測乳腺癌資料集

學習《scikit-learn機器學習》時的一些實踐。常用引數引數C SVM分類器svm.SVC()中的引數C即SVM所優化的目標函式 a

【SciKit-Learn學習筆記】8：k-均值演算法做文字聚類,聚類演算法效能評估

學習《scikit-learn機器學習》時的一些實踐。原理見K-means和K-means++的演算法原理及sklearn庫中引數解釋、選擇。 sklearn中的KMeans from sklearn.datasets import make_blobs from m

【SciKit-Learn學習筆記】7：PCA結合SVM做AT&T資料集人物影象分類

學習《scikit-learn機器學習》時的一些實踐。原理見PCA及繪製降維與恢復示意圖。 sklearn的PCA sklearn中包裝的PCA也是不帶有歸一化和縮放等預處理操作的，可以用MinMaxScaler()實現並裝在Pipeline裡封裝起來。 from

【SciKit-Learn學習筆記】6：樸素貝葉斯做文件分類並繪製混淆矩陣

學習《scikit-learn機器學習》時的一些實踐。條件獨立樸素即指的是條件獨立假設，假設n個特徵之間不相關，則可據聯合概率的條件展開式： p

【SciKit-Learn學習筆記】4：決策樹擬合泰坦尼克號資料集並提交到Kaggle

學習《scikit-learn機器學習》時的一些實踐。決策樹擬合泰坦尼克號資料集這裡用繪製引數-score曲線的方式去直觀看出模型引數對模型得分的影響，作者使用了GridSearchCV來自動做k-fold交叉驗證，並且能在多組模型引數中找到最優的一組和最優值（用平均s

【SciKit-Learn學習筆記】3：線性迴歸測算波士頓房價,Logistic迴歸預測乳腺癌

學習《scikit-learn機器學習》時的一些實踐。線性迴歸這部分和第一篇筆記"繪製隨機波動樣本的學習曲線 "部分基本類似。線性迴歸裡可以加入多項式特徵，以對模型做增強。線性迴歸增加多項式特徵,擬合sin函式 import numpy as np impor

【SciKit-Learn學習筆記】2：kNN分類/迴歸,在糖尿病資料集上的表現

學習《scikit-learn機器學習》時的一些實踐。 kNN分類在三個點周圍生成聚類樣本，然後做的kNN分類。這種把標準差取得好（不要太小），得到的就不一定是線性可分的資料了。比如圖上右側有個玫紅點和藍點交錯。 from sklearn.datasets.sa

【SciKit-Learn學習筆記】1：SVM預測digits資料集,繪製隨機波動樣本的學習曲線

學習《scikit-learn機器學習》時的一些實踐。 SVM預測digits資料集 sklearn裡的各種模型物件統一了介面，fit()做訓練，predit()做預測，用score()獲得對模型測試結果的打分。這裡的打分不是acc，應該是決定係數。檢視資料形式

【Scikit-Learn 中文文件】二十四：協方差估計 / 經驗協方差 / 收斂協方差 / 稀疏逆協方差 / Robust 協方差估計

2.8.1. 基本收斂儘管是協方差矩陣的無偏估計，最大似然估計不是協方差矩陣的特徵值的一個很好的估計，所以從反演得到的精度矩陣是不準確的。有時，甚至出現數學原因，經驗協方差矩陣不能反轉。為了避免這樣的反演問題，引入了經驗協方差矩陣的一種變換方式：shrinkage 。在 scikit-le

【Vue.js 牛刀小試】03：第三章 - 事件修飾符的使用

前言熟悉了 Vue 的指令系統後，在實際開發中，不可避免的會使用到對於事件的操作，如何處理 DOM 事件流，成為我們必須要掌握的技能。不同於傳統的前端開發，在 Vue 中給我們提供了事件修飾符這一利器，使我們可

【scikit-learn】03：將sklearn庫用於非監督性學習 聚類

相關推薦

【scikit-learn】03：將sklearn庫用於非監督性學習聚類