使用word2vec工具對指定資料集聚類

阿新 • • 發佈：2018-12-10

一.資料準備階段

採用2018年螞蟻金服舉辦的競賽“金融大腦”初賽的資料集，約10萬條。（其實可以使用自定義的資料集，這裡僅僅是用來做實驗）。進行資料清洗：過濾字母，數字和標點符號。使用結巴分詞，效果如下圖所示：

程式碼如下所示：環境python2.7

#coding=utf-8
import os
import sys
import codecs
import csv
import string
import jieba
import tensorflow as tf
import sys
import re
reload(sys)
sys.setdefaultencoding( "utf-8" )

jieba.suggest_freq('花唄', True)
jieba.suggest_freq('花貝', True)
jieba.suggest_freq('借唄', True)
jieba.suggest_freq('花貝', True)

#讀取原始csv檔案，並進行分詞
def readcsvfile(read_filename):
    lines_cut=[]
    with open(read_filename) as csvfile:
        for line in csvfile:
            line_cut=''
            cutsen=jieba.cut(line)
            line_cut=' '.join(cutsen)
            line_cut= re.sub(ur"[^\u4e00-\u9fff]", " ", line_cut)
#print(line_cut)
            lines_cut.append(line_cut)
    return lines_cut

#過濾停用詞
def filter(stpwrdpath,lines_cut):
    afterfiler_list=[]
    enco_stpword_list=[]
    stpwrd_dic = open(stpwrdpath, 'rb')
    stpwrd_content = stpwrd_dic.read()
#將停用詞表轉換為list  
    stpwrdlst = stpwrd_content.splitlines()
    for stopword in stpwrdlst:
        enco_stpword=stopword.decode('utf-8')
        enco_stpword_list.append(enco_stpword)
#print (enco_stpword_list)
    stpwrd_dic.close()

    for line in lines_cut:
        new_line=""
        for word in line.split(" "):
            if word not in enco_stpword_list:
                new_line+=word
                new_line+=' '
        print(new_line)
        afterfiler_list.append(new_line)
#print (afterfiler_list)
    return afterfiler_list

#初始的write_filename檔案為空
def writetxtfile(write_filename,write_list):
    with open(write_filename,'a') as f:
        for line in write_list:
                f.write(line)
                f.write('\n')

if __name__ == '__main__':
    read_filename="mayi.csv"#原始文件
    write_filename="after_pre.txt"#分詞去停用詞後的文件
    stpwrdpath = "stop_words.txt"#停用詞列表
    cut_list=readcsvfile(read_filename)#讀取原始檔案，分詞
    afterfiler_list=filter(stpwrdpath,cut_list)#去停用詞
    writetxtfile(write_filename,afterfiler_list)#預處理後的文件

其中需增加stop_words.txt停用詞檔案，該程式碼輸入為mayi.csv,輸出為處理後的檔案after_pre.txt。處理效果如上圖所示。

將after_pre.txt重新命名為mayi.txt

二. 從github上下載原始碼

三. 修改demo-classes.sh檔案程式碼

如下圖所示，將make下幾行添加註釋“#”，然後將畫圈的三個地方分別對應經過分詞過濾預處理後的檔案，無序的聚類和有序的聚類結果。本例當中聚類數目為500類。

四. 執行命令

sh demo-class.sh執行該命名則可以得到結果

開啟mayi_classes.sorted.txt 顯示結果如下，可以看出同一類別的詞彙有相關性。聚類效果和資料質量和資料類別數有直接關係。通常聚類適合做為資料的預處理，作為中間結果使用，並不作為最終結果應用。

使用word2vec工具對指定資料集聚類

一.資料準備階段採用2018年螞蟻金服舉辦的競賽“金融大腦”初賽的資料集，約10萬條。（其實可以使用自定義的資料集，這裡僅僅是用來做實驗）。進行資料清洗：過濾字母，數字和標點符號。使用結巴分詞，效果如下圖所示：程式碼如下所示：環境python2.

python中使用k-means對鳶尾花資料集聚類

程式碼和結果： import matplotlib.pyplot as plt import numpy as np from sklearn.cluster import KMeans from sklearn import datasets X

DBSCAN——非凸資料集聚類

K-Means 本質上是將樣本空間劃分成 k 個 Voronoi 區域，決定了劃分結果的 k 個簇一定是凸集，因而該方法對非凸區域的鑑別效果非常不好。下面使用 DBSCAN 對上面非凸分佈的資料聚類。本例中 DBSCAN 選擇的引數為：eps=0.5, min_samples=5

在分類過程中對連續資料的類劃分

分類中對連續資料的類劃分：在 C4.5 演算法中採用二分法對連續值進行處理。 Markdown Code 對於連續的屬性 XX 假設共出現了 n 個不同的取值，將這些取值從小到大排序{x1,x2,x3,…,xn}{x1,x2,x3,…,xn}，其中找一點作為劃分點 t ，則將資料

對指定資料夾中的檔案分類儲存

實現效果：　　知識運用：　　DirectoryInfo類的GetFiles方法　　　　//返回當前資料夾的檔案列表　　public FileInfo[] GetFiles() 　　Directory類的CreateDirectory方法　　　//在指定路徑中建立資料夾　　public s

【shell】對指定資料夾中檔案進行過濾，並修改檔案內容的shell指令碼

編寫shell指令碼，對某個資料夾內搜尋指定檔案並對檔案內容進行更改：在桌面建立shell_test資料夾進入shell_test資料夾，建立5個測試檔案在shell_test資料夾中再建立一個666資料夾，繼續再建立5個檔案，如圖：分

python3----專案-在windows系統下對指定資料夾的檔案進行更改格式並隱藏檔案（或恢復正常）os、win32api、win32con、platform

python3—-專案-在windows系統下對指定資料夾內容的檔案進行更改格式並隱藏檔案（或恢復正常）os、win32api、win32con、platform 1、目標資料夾與檔案 C:\te

linux下面怎樣讓給一個使用者新增對指定資料夾寫的權力

chown -R usr:usergroup /usr/local/bin chmod u+w,-x,o-w-r /usr/local/bin usr為你的普通使用者 usergroup為這個普通使用

Redis工具類對各種資料型別的操作

import org.springframework.beans.factory.annotation.Autowired; import org.springframework.data.redis.core.*; import org.springframework.stereotype.Service;

在java中RandomAccessFile類的作用：對指定文件可以進行讀寫的操作

cnblogs 讀寫 acc com ces 作用分享進行 .com 在java中RandomAccessFile類的作用：對指定文件可以進行讀寫的操作

StringUtil對字符串類型參數進行校驗的工具類

ring oms win shu ogl href sin oci nfa 9圖uO17茲S笨尚付5截Lhttp://www.docin.com/yizl7171 tDRD7y2PX笆http://www.docin.com/app/user/userinfo?useri

IO流-獲取指定目錄下文件夾和文件對象【File類】

io流 test http src space directory sys tostring absolut 　　一、運用File類實現獲取指定目錄下文件夾和文件對象　　1、File類　　2、方法：　　獲取文件絕對路徑：getAbsolutePath 案例：

10 友盟專案--日期工具類、時間對齊、地理類庫Geolite

1.日期工具類 import java.text.ParseException; import java.text.SimpleDateFormat; import java.util.Date; import java.util.Locale; /*

用各種工具對資料進行分類彙總

資料分類彙總的方法有很多種，工具也有很多，這次為大家一一介紹，各種工具如何進行分類彙總，大家自行判斷，覺得哪種最好用，就用哪種，畢竟工具不重要，高效出結果才最重要。為了方便舉例，所用的資料集就是鸞尾花資料集，5個欄位（Sepal.Length、Sepal.Width、Petal.Length、P

在Spark SQL對人類資料實現K-Means聚類，並對聚類中心格式化輸出

簡介本篇博文對UCI提供的 Machine-Learning-Databases 資料集進行資料分析，並通過K-Means模型實現聚類，最後格式化輸出聚類中心點。本文主要包括以下內容：通過VectorAssembler來將多列資料合成一列features

利用word2vec對關鍵詞進行聚類

繼上次提取關鍵詞之後，專案組長又要求我對關鍵詞進行聚類。說實話，我不太明白對關鍵詞聚類跟新聞推薦有什麼聯絡，不過他說什麼我照做就是了。按照一般的思路，可以用新聞ID向量來表示某個關鍵詞，這就像廣告推薦系統裡面用使用者訪問類別向量來表示使用者一樣，然後就可以用kmeans的方法進

Tensorflow例項1：對人工資料集的K均值聚類

2.6.7 例1–對人工資料集的K均值聚類 import tensorflow as tf import numpy as np import time import matplotlib.pyplot as plt import matplotlib from sklearn

在阿里雲Rds上採用MySQLdump工具對資料進行匯出匯入

1. 開通雲伺服器服務。 2. 開通RDS服務，如果開通成功，會返回給使用者連線地址和埠，比如example.mysql.aliyun.com：3306 3. 先停止業務，使用MySQLdump的資料匯出工具，將原有資料庫資料匯出為資料檔案。例如： mysqldump -h

NSPredicate --（謂詞查詢） Foundation提供的類，它指定資料被獲取或者過濾的方式

NSPredicate是一個Foundation類，它指定資料被獲取或者過濾的方式。它的查詢語言就像SQL的WHERE和正則表示式的交叉一樣，提供了具有表現力的，自然語言介面來定義一個集合被搜尋的邏輯條件。相比較抽象的談論它，展示NSPredicate的

asp.net學習總結——ADO.net（對Sql Server進行操作的資料訪問類）

ADO.net物件 System.Data.SqlClient（對Sql Server進行操作的資料訪問類）： 1)SqlConnection：資料庫聯結器2)SqlCommand：資料庫命名

使用word2vec工具對指定資料集聚類

一.資料準備階段

二. 從github上下載原始碼

三. 修改demo-classes.sh檔案程式碼

四. 執行命令

相關推薦