模式識別設計（Python程式設計）：IRIS資料集的Kmeans聚類與分解聚類法

阿新 • • 發佈：2019-01-04

題目：本次作業的實驗需求是使用分解聚類法與c-means聚類法對IRIS資料集進行聚類，Kmeans聚類程式碼網上摘錄，分解聚類法純原創，PS：因為時間緊，分解聚類法進行第二次分解時，偷懶了~~有緣人改改吧~~

資料格式：

kmeans程式碼：

import math
from collections import defaultdict
import numpy as np
dataname = "data.txt"
def loadIRISdata(filename):
    data = []
    with open(filename, mode="r", encoding="utf-8") as rf:
        for line in rf:
            if line == '\n':
                continue
            data.append(list(map(float, line.split(" "))))
    return data

def generateCenters(data):
    '''求解初始聚類中心'''
    centers = []
    '''已知維度為4'''
    '''分三類，取第0，50，100的三個向量作為分界'''
    centers.append(data[0])
    centers.append(data[50])
    centers.append(data[100])
    return centers

def distance(a ,b):
    '''歐式距離'''
    sum = 0
    for i in range(4):
        sq = (a[i]-b[i])*(a[i]-b[i])
        sum += sq
    return math.sqrt(sum)

def point_avg(points):
    '''對維度求平均值'''
    new_center = []
    for i in range(4):
        sum = 0
        for p in points:
            sum += p[i]
        new_center.append(float("%.8f" % (sum/float(len(points)))))
    return new_center

def updataCenters(data, assigments):
    new_means = defaultdict(list)
    centers = []
    for assigment, point in zip(assigments, data):
        new_means[assigment].append(point)
        '''將同一類的資料進行整合'''
    for i in range(3):
        points = new_means[i]
        centers.append(point_avg(points))
    return centers

def assignment(data, centers):
    assignments = []
    '''對應位置顯示對應類群'''
    for point in data:
        '''遍歷所有資料'''
        shortest = float('inf')
        shortestindex = 0
        for i in range(3):
            '''遍歷三個中心向量，與哪個類中心歐氏距離最短就將其歸為哪類'''
            value = distance(point, centers[i])
            if value < shortest:
                shortest = value
                shortestindex = i
        assignments.append(shortestindex)
    return assignments

def kmeans(data):
    k_data = generateCenters(data)
    assigments = assignment(data, k_data)
    old_assigments = None
    while assigments != old_assigments:
        new_centers = updataCenters(data, assigments)
        old_assigments = assigments
        assigments = assignment(data, new_centers)
    result = list(zip(assigments, data))
    return result

def acc(result):
    sum = 0
    all = 0
    for i in range(50):
        if result[i][0] == 0:
            sum += 1
        all += 1
    for i in range(50):
        if result[i+50][0] == 1:
            sum += 1
        all += 1
    for i in range(50):
        if result[i+100][0] == 2:
            sum += 1
        all += 1
    print('sum:', sum, 'all:', all)
    return sum, all

if __name__ == "__main__":
    data = loadIRISdata(dataname)
    result = kmeans(data)
    for i in range(3):
        tag = 0
        print('\n')
        print("第%d類資料有：" % (i+1))
        for tuple in range(len(result)):
            if(result[tuple][0] == i):
                print(tuple, end=' ')
                tag += 1
            if tag > 20 :
                print('\n')
                tag = 0
    #print(result)
    print('\n')
    sum, all = acc(result)
    print('c-means準確度為:%2f%%' % ((sum/all)*100))

kmeans結果:

分解聚類程式碼：

import math
from collections import defaultdict
import numpy as np
dataname = "data.txt"
def loadIRISdata(filename):
    data = []
    with open(filename, mode="r", encoding="utf-8") as rf:
        for line in rf:
            if line == '\n':
                continue
            data.append(list(map(float, line.split(" "))))
    return data
def E(N, N1, N2, a, b):
    return float(((N1*N2)/N)*np.matrix((a-b))*np.matrix((a-b)).T)
def avg(data, k, assignments):
    sum = []
    tag = 0
    for i in range(150):
        if assignments[i] == k:
            sum.append(data[i])
            tag += 1
    return np.sum(sum, 0)/tag
def length(k, assignments):
    answer = 0
    for i in range(150):
        if assignments[i] == k:
            answer += 1
    return answer
def decomposition_clustering(data, assignments):
    Er_max = float('-inf')
    while True:
        # 第一次
        place = 0
        tag = 0
        for i in range(150):
            if assignments[i] == 0:
                assignments[i] = 1
                # print('第%d次迴圈的assignments:' % i, assignments)
                average_1 = avg(data, 0, assignments)
                if length(1, assignments) == 0:
                    average_2 = np.array([0, 0, 0, 0])
                else:
                    average_2 = avg(data, 1, assignments)
                Er = E(150, length(0, assignments), length(1, assignments), average_1, average_2)
                # print('E值為：', Er)
                if Er > Er_max:
                    place = i
                    Er_max = Er
                    tag = 1  # E未到極值
                    print('max_1:', Er_max)
                assignments[i] = 0
        if tag == 1:
            assignments[place] = 1
        else:
            break
    Er_max = float('-inf')
    while True:
        # 第二次
        place = 0
        tag = 0
        for i in range(150):
            if assignments[i] == 1:
                assignments[i] = 2
                # print('第%d次迴圈的assignments:' % i, assignments)
                average_1 = avg(data, 1, assignments)
                if length(2, assignments) == 0:
                    average_2 = np.array([0, 0, 0, 0])
                else:
                    average_2 = avg(data, 2, assignments)
                Er = E(150, length(1, assignments), length(2, assignments), average_1, average_2)
                # print('E值為：', Er)
                if Er > Er_max:
                    place = i
                    Er_max = Er
                    tag = 1  # E未到極值
                    print('max_2:', Er_max)
                assignments[i] = 1
        if tag == 1:
            assignments[place] = 2
        else:
            break
    return assignments
def acc(result):
    sum = 0
    all = 0
    for i in range(50):
        if result[i][0] == 0:
            sum += 1
        all += 1
    for i in range(50):
        if result[i+50][0] == 1:
            sum += 1
        all += 1
    for i in range(50):
        if result[i+100][0] == 2:
            sum += 1
        all += 1
    print('sum:', sum, 'all:', all)
    return sum, all


if __name__ == "__main__":
    data = loadIRISdata(dataname)
    assignments = []
    for i in range(150):
        assignments.append(0)
    answer = decomposition_clustering(data, assignments)
    result = list(zip(answer, data))
    for i in range(3):
        tag = 0
        print('\n')
        print("第%d類資料有：" % (i+1))
        for tuple in range(len(result)):
            if(result[tuple][0] == i):
                print(tuple, end=' ')
                tag += 1
            if tag > 20 :
                print('\n')
                tag = 0
    #print(result)
    print('\n')
    sum, all = acc(result)
    print('分解聚類法準確度為:%2f%%' % ((sum/all)*100))

分解聚類結果：

模式識別設計（Python程式設計）：IRIS資料集的Kmeans聚類與分解聚類法

題目：本次作業的實驗需求是使用分解聚類法與c-means聚類法對IRIS資料集進行聚類，Kmeans聚類程式碼網上摘錄，分解聚類法純原創，PS：因為時間緊，分解聚類法進行第二次分解時，偷懶了~~有緣人改改吧~~ 資料格式： kmeans程式碼： import mat

人臉識別系列（十七）：ArcFace/Insight Face 人臉識別系列（十七）：ArcFace/Insight Face

原人臉識別系列（十七）：ArcFace/Insight Face 2018年03月18日 18:00:31 Fire_Light_ 閱讀數：11370

Python入門基礎（第二天）：基本資料型別

一、運算子 1、算數運算子 2、比較運算子 3、邏輯運算子 4、賦值運算子 5、成員運算子二、基本資料型別 1、數字通常的int, long,float,long等等都被支援。而且會看你的具體數字來定義變數的型別。 2、字串單引

人臉識別系列（十四）：NormFace

提出問題之前的人臉識別工作，在特徵比較階段，通常使用的都是特徵的餘弦距離而餘弦距離等價於L2歸一化後的內積，也等價L2歸一化後的歐式距離（歐式距離表示超球面上的弦長，兩個向量之間的夾角越大，弦長也越大）然而，在實際上訓練的時候用的都是沒有L2

人臉識別系列（十七）：ArcFace/Insight Face

其實這篇論文可以看作是AmSoftmax的一種改進版本，總體思路相對較為簡單。 AmSoftmax: Arcface: 這樣修改的原因：角度距離比餘弦距離在對角度的影響更加直接決策邊界的具體比較如下圖 IR 除了

大資料（十五）：Hadoop資料壓縮與壓縮/解壓縮例項

一、資料壓縮 1.概論壓縮技術能夠有效減少低層儲存系統（HDFS）讀寫位元組。壓縮提高了網路頻寬和磁碟空間的效率。在Hadoop下，尤其是資料規模很大和工作負載密集的情況下。使用資料壓縮閒的非常重要。在這種情況下，I/O操作

Java併發（十二）：CAS Unsafe Atomic 說一說Java的Unsafe類說一說Java的Unsafe類 Java中Unsafe類詳解 Unsafe與CAS

一、Unsafe Java無法直接訪問底層作業系統，而是通過本地（native）方法來訪問。不過儘管如此，JVM還是開了一個後門，JDK中有一個類Unsafe，它提供了硬體級別的原子操作。這個類儘管裡面的方法都是public的，但是並沒有辦法使用它們，JDK API文件也沒有提供任何關於這個類的方法的解

劍指Offer面試題7（Java版）：用兩個棧實現佇列與用兩個佇列實現棧

題目：用兩個棧實現一個佇列。佇列的宣告如下，請實現它的兩個函式appendTail和deletedHead,分別完成在佇列尾部插入節點和在佇列頭部刪除節點的功能。我們通過一個具體的例子來分析該佇列插入和刪除元素的過程。首先插入一個元素a，不妨先把它插入到stack1，此時

hadoop學習之HDFS（2.4）：hadoop資料型別與java資料型別的對比與轉換

前言： hadoop由各個節點構成一個叢集，分散式儲存就要考慮到資料在節點之間來回傳遞的問題。為了解決這一問題，hadoop採用了java中的序列化和反序列化概念。序列化（serialization）是指將結構化的物件轉化為位元組流，以便在網路上傳輸或者寫入到硬碟進行

【Tensorflow】怎樣為你的網路預加工和打包訓練資料？（二）：小資料集的處理方案

實驗環境：python2.7 第二篇我們來講一講小資料集的處理方法，小資料集一般多以文字儲存為主，csv是一種流行的資料格式，另外也有txt等。當然也會有.mat或者.npy這種經過處理的格式。一.處理csv格式資料集實驗資料集是鳶尾花卉資料集iris，格式是.csv

Caffe程式碼導讀（5）：對資料集進行Testing

上一篇介紹瞭如何準備資料集，做好準備之後我們先看怎樣對訓練好的模型進行Testing。先用手寫體識別例子，MNIST是資料集（包括訓練資料和測試資料），深度學習模型採用LeNet（具體介紹見http://yann.lecun.com/exdb/lenet/），由Yann Le

Docker系列（十四）：Docker Swarm集群

mount dns 容器 water style 請求兩種 ups task 一、Swarm簡介 Swarm是Docker官方提供的一款集群管理工具，其主要作用是把若幹臺Docker主機抽象為一個整體，並且通過一個入口統一管理這些Docker主機上的各種Docker資源。

機器學習筆記 perceptron（感知機）在ex4Data資料集上的實現

慣例的ML課堂作業，第四個也是最後一個線性分類模型，感知機。感知機是一個非常簡單的線性分類模型，簡單來說就是一個神經元，其啟用函式是門限函式，有n個輸入和一個輸出，和神經元結構十分相似。感知機的損失函式是看作是分類錯的所有樣本的輸出值的和 hw的輸出就是

深度學習筆記（十二）--深度學習資料集MNIST、ImageNet、 COCO 、 VOC介紹

1. MNIST 深度學習領域的“Hello World!”，入門必備!MNIST是一個手寫數字資料庫，它有60000個訓練樣本集和10000個測試樣本集，每個樣本影象的寬高為28*28。此資料集是以二進位制儲存的，不能直接以影象格式檢視，不過很容易找到將其轉換成

TensorFlow入門教程：18：Iris資料集的線性迴歸訓練

這篇文章使用實際的統計資料來確認對線性迴歸的曲線擬合的效果，Iris資料集中花瓣的長度和寬度之間的關係滿足明顯的線性關係，這裡我們將使用前文多次使用的方式來對Iris資料進行分析。 Iris資料集四

Spark 機器學習實踐：Iris資料集的分類

今天試用了一下Spark的機器學習，體驗如下：第一步，匯入資料我們使用Iris資料集，做一個分類，首先要把csv檔案匯入。這裡用到了spark的csv包，不明白為什麼這麼常見的功能不是內建的，還需要額外載入。 --packages com.databricks:spar

設計模式中的黃金搭檔（一對活寶）：命令模式+觀察者模式

現有場景描述：現在無論是系統自帶的鍵盤還是第三方的鍵盤一般都自帶撤銷和恢復功能，你知道它們是用的什麼模式實現的嗎？它們用的是==命令模式+觀察者模式==，你答對了嗎？簡單科普一下啥是==Command模式==？ Command模式：- 模式型別：行為類模式- 定義：將一個操作、一個方法呼叫、一個命令封裝成一個

程式設計漫談（十六）：設計與程式設計

設計先行。設計設計是構思一件事應該是怎樣、方案的形態、並論證可行性的過程與產出。站在設計者的角度：應該是什麼樣子，為什麼？主要考慮如下要素：安全、實用、可靠、效率、便捷、流暢、簡潔、易懂、易操作需要根據實際情況進行取捨權衡。軟體設計的主要工作是：深入

Python之路（十五）：網路程式設計（上）

python基礎之網路程式設計(上篇) socket程式設計　　本篇介紹socket是基於什麼來的，為什麼要知道網際網路底層實現通訊的原理一、客戶端/服務端架構即C/S架構，包括 1.硬體C/S架構(印表機) 2.軟體C/S架構(web

Python之路（十四）：網路程式設計基礎 Python基礎之網路程式設計

Python基礎之網路程式設計學習網路程式設計之前,要對計算機底層的通訊實現機制要有一定的理解。 OSI 網際網路協議按照功能不同分為osi七層或tcp/ip五層或tcp/ip四層可以將應用層，表示層，會

模式識別設計（Python程式設計）：IRIS資料集的Kmeans聚類與分解聚類法

相關推薦