k-prototypes聚類演算法

阿新 • • 發佈：2022-02-10

1 k-prototypes聚類

https://github.com/nicodv/kmodes.git

1 k-prototypes演算法

K-prototype是K-means與K-modes的一種集合形式，適用於數值型別與字元型別集合的混合型資料。

k-prototypes演算法在聚類的過程中，是將資料的數值型變數和類別型變數拆開，分開計算樣本間變數的距離，再將兩者相加，視為樣本間的距離。

k-prototypes聚類的準則就是使用一個合適的損失函式去度量數值型和分類變數對原型的距離；

2 k-prototypes演算法步驟

1.隨機選取k個初始原型(中心點)；

2.針對資料集中的每個樣本點，計算樣本點與k個原型的距離（數值型變數計算歐氏距離，類別型變數計算漢明距離），將樣本點劃分到離它最近的中心點所對應的類別中；

3.類別劃分完成後，重新確定類別的原型，數值型變數樣本取值的均值作為新的原型的特徵取值，類別型變數樣本取值的眾數作為新的原型的特徵取值；

4.重複步驟2 3，直到沒有樣本改變類別，返回最後的聚類結果。

3 聚類演算法api

3.1 api介紹

from kmodes.kprototypes import KPrototypes

KPrototypes(n_clusters=8)
- 引數:
  - n_clusters:開始的聚類中心數量
    - 整型，預設值=8，生成的聚類數，即產生的質心（centroids）數。
  - n_init ：預設值：10
    k-mode 演算法將以不同的方式執行的次數質心種子。最終結果將是最好的輸出n_init 在成本方面連續執行。
  - init : {'Huang', 'Cao', 'random' 或 ndarrays 列表}，預設值：'Cao'
    初始化方法：
    '黃'：黃的方法 [1997, 1998]
    '曹'：曹等人的方法。 [2009]
    'random'：從隨機選擇'n_clusters'觀察（行）
    初始質心的資料。
    如果傳遞了 ndarrays 列表，則它的長度應為 2，其中
    數字和分類的形狀（n_clusters，n_features）
    資料分別。這些是初始質心。
  - verbose
- 方法:
  - estimator.fit(x)
  - estimator.predict(x)
  - estimator.fit_predict(x)
    - 計算聚類中心並預測每個樣本屬於哪個類別,相當於先呼叫fit(x),然後再呼叫predict(x)

3.2 步驟分析

1.獲取資料
2.資料基本處理
- 2.1 確定特徵值,目標值
- 2.2 缺失值處理
- 2.3 資料集劃分
3.特徵工程(特徵值處理)
4.機器學習
5.模型評估

4 聚類演算法如何選出最佳k值

手肘法（elbow method）
手肘法的核心指標是SSE(sum of the squared errors，誤差平方和)，

簡單說，加入k值=1，那麼誤差會極大，加入k值趨向於樣本量，那麼每一個樣本點就是一個簇，那肯定沒有誤差，但是脫離聚類演算法本意。我們想找的，就是隨著k值不斷增加，誤差越來越小，到底達到那個k值的時候，誤差平方SSE會開始不再“明顯大幅度降低”，而趨於平緩。這個圖做出來就像一個手肘一樣，因此叫手肘法。

5 模型的儲存和載入

5.1 模型的儲存和載入API

sklearn.externals.joblib函式是用在0.21及以前的版本中，在最新的版本中，該函式應被棄用

安裝：pip install joblib

import joblib
# 4.3 模型儲存
joblib.dump(estimator, './test.pkl')  # estimator: 指的是訓練好的模型例項(評估器)
# 4.4 模型載入
estimator = joblib.load("./test.pkl")

儲存：joblib.dump(estimator, 'test.pkl')
載入：estimator = joblib.load('test.pkl')

k-prototypes聚類演算法

1 k-prototypes聚類 https://github.com/nicodv/kmodes.git 1 k-prototypes演算法 K-prototype是K-means與K-modes的一種集合形式，適用於數值型別與字元型別集合的混合型資料。

python基於K-means聚類演算法的影象分割

1 K-means演算法實際上，無論是從演算法思想，還是具體實現上，K-means演算法是一種很簡單的演算法。它屬於無監督分類，通過按照一定的方式度量樣本之間的相似度，通過迭代更新聚類中心，當聚類中心不再移動或移動

k-means 聚類演算法與Python實現程式碼

k-means 聚類演算法思想先隨機選擇k個聚類中心，把集合裡的元素與最近的聚類中心聚為一類，得到一次聚類，再把每一個類的均值作為新的聚類中心重新聚類，迭代n次得到最終結果分步解析

機器學習實戰---K均值聚類演算法

一：一般K均值聚類演算法實現（一）匯入資料 import numpy as np import matplotlib.pyplot as plt

Python用K-means聚類演算法進行客戶分群的實現

一、背景 1.專案描述你擁有一個超市(Supermarket Mall)。通過會員卡，你用有一些關於你的客戶的基本資料，如客戶ID，年齡，性別，年收入和消費分數。

二分K-均值聚類演算法

#K-means聚類 from numpy import * import matplotlib.pyplot as plt plt.ion()#開啟互動模式，實時繪製

matlab實現K-means聚類演算法（轉載）

https://blog.csdn.net/wys7541/article/details/82153844 K-means聚類演算法的一般步驟：初始化。輸入基因表達矩陣作為物件集X，輸入指定聚類類數N，並在X中隨機選取N個物件作為初始聚類中心。設定迭代中止條件，

關於k-means聚類演算法的原理及解析

一、k-means演算法思想：第一步，從檔案中讀取資料，點用元組表示，點集用列表表示。第二步，初始化聚類中心。首先獲取資料的長度，然後在range(0,length)這個區間上隨機產生k個不同的值,以此為下標提取出資料點，

Python 非調包實現K中心聚類演算法

技術標籤：人工智慧python機器學習深度學習聚類 Python 非調包實現K中心聚類演算法

K-means聚類演算法及python程式碼實現

K-means聚類演算法（事先資料並沒有類別之分！所有的資料都是一樣的） 1、概述

Thinking in SQL系列之：資料探勘K均值聚類演算法與城市分級

引言：SQL做為一種程式語言，能夠滿足各類資料處理的需要，關鍵就在於演算法與思維方式。以SQL會友，希望結交更多的資料庫、資料分析領域的朋友。

K-Means聚類演算法k值選取——輪廓係數

1 # 1 匯入模組和包 2 import matplotlib.pyplot as plt #匯入繪製資料圖的資料庫 3 from sklearn.datasets import make_blobs

k-means聚類演算法原理

k-means演算法原理 k-means是一種無監督的分類演算法，簡而言之就是餵給演算法的資料是沒有標籤的，但是我們需要自己設定k值（分類數）。如顆粒影象中有四種顏色，則設立k值為4.而相反，KNN分類演算法是一種有監督的

使用 K-means 聚類演算法處理影象（Python）

K-means演算法屬於無監督分類，通過按照一定的方式度量樣本之間的相似度，通過迭代更新聚類中心，當聚類中心不再移動或移動差值小於閾值時，則就樣本分為不同的類別。

機器學習實戰---K均值聚類演演算法

一：一般K均值聚類演演算法實現（一）匯入資料 import numpy as np import matplotlib.pyplot as plt

基於劃分的聚類演算法（K-Means）與基於密度的聚類演算法（DBSCAN）的程式碼實現與分析

基於劃分的聚類演算法（K-Means）與基於密度的聚類演算法（DBSCAN）對比分析在開始閱讀前可以看一下有關這兩個演算法的描述和視覺化效果展示

python聚類演算法解決方案（rest介面/mpp資料庫/json資料/下載圖片及資料）

1. 場景描述一直做java，因專案原因，需要封裝一些經典的演算法到平臺上去，就一邊學習python，一邊網上尋找經典演算法程式碼，今天介紹下經典的K-means聚類演算法，演算法原理就不介紹了，只從程式碼層面進行介紹

在Python中使用K-Means聚類和PCA主成分分析進行影象壓縮

在Python中使用K-Means聚類和PCA主成分分析進行影象壓縮各位讀者好，在這片文章中我們嘗試使用sklearn庫比較k-means聚類演算法和主成分分析（PCA）在影象壓縮上的實現和結果。壓縮影象的效果通過佔用的減少比例以及

python 程式碼實現k-means聚類分析的思路(不使用現成聚類庫)

一、實驗目標　　　　1、使用 K-means 模型進行聚類，嘗試使用不同的類別個數 K，並分析聚類結果。

python實現mean-shift聚類演算法

本文例項為大家分享了python實現mean-shift聚類演算法的具體程式碼，供大家參考，具體內容如下

k-prototypes聚類演算法

1 k-prototypes聚類

1 k-prototypes演算法

2 k-prototypes演算法步驟

3 聚類演算法api

3.1 api介紹

3.2 步驟分析

4 聚類演算法如何選出最佳k值

5 模型的儲存和載入

5.1 模型的儲存和載入API

相關推薦