【轉】Gensim庫詳解

阿新 • • 發佈：2018-12-10

一、gensim介紹

gensim是一款強大的自然語言處理工具，裡面包括N多常見模型：

基本的語料處理工具

- LSI
- LDA
- HDP
- DTM
- DIM
- TF-IDF
- word2vec、paragraph2vec

二、訓練模型

1、訓練

#encoding=utf-8
from gensim.models import word2vec
sentences=word2vec.Text8Corpus(u'分詞後的爽膚水評論.txt')
model=word2vec.Word2Vec(sentences, size=50)

y2=model.similarity(u"好", u"還行")
print(y2)

for i in model.most_similar(u"滋潤"):
    print i[0],i[1]

txt檔案是已經分好詞的5W條評論，訓練模型只需一句話：

model=word2vec.Word2Vec(sentences,min_count=5,size=50)

第一個引數是訓練語料，第二個引數是小於該數的單詞會被剔除，預設值為5, 第三個引數是神經網路的隱藏層單元數，預設為100 .

2、模型匯出

word2vec = gensim.models.word2vec.Word2Vec(sentences(), size=256, window=10, min_count=64, sg=1, hs=1, iter=10, workers=25)
word2vec.save('word2vec_wx')

word2vec.save即可匯出檔案，這邊沒有匯出為.bin .

3、模型匯入

model = gensim.models.Word2Vec.load('xxx/word2vec_wx')
pd.Series(model.most_similar(u'微信',topn = 360000))

gensim.models.Word2Vec.load的辦法匯入

其中的Numpy,可以用numpy.load：

import numpy
word_2x = numpy.load('xxx/word2vec_wx.wv.syn0.npy')

還有其他的匯入方式：

from gensim.models.keyedvectors import KeyedVectors
word_vectors = KeyedVectors.load_word2vec_format('/tmp/vectors.txt', binary=False)  # C text format
word_vectors = KeyedVectors.load_word2vec_format('/tmp/vectors.bin', binary=True)  # C binary format

匯入txt格式+bin格式。 .

4、增量訓練

model = gensim.models.Word2Vec.load('/tmp/mymodel')
model.train(more_sentences)

不能對C生成的模型進行再訓練. .

三、gensim訓練好的word2vec使用

1、相似性

持數種單詞相似度任務: 相似詞+相似係數（model.most_similar）、model.doesnt_match、model.similarity（兩兩相似）

model.most_similar(positive=['woman', 'king'], negative=['man'], topn=1)
[('queen', 0.50882536)]

model.doesnt_match("breakfast cereal dinner lunch".split())
'cereal'

model.similarity('woman', 'man')
.73723527

2、詞向量

通過以下方式來得到單詞的向量:

model['computer']  # raw NumPy vector of a word
array([-0.00449447, -0.00310097,  0.02421786, ...], dtype=float32)

案例一：800萬微信語料訓練

訓練過程：

import gensim, logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

import pymongo
import hashlib

db = pymongo.MongoClient('172.16.0.101').weixin.text_articles_words
md5 = lambda s: hashlib.md5(s).hexdigest()
class sentences:
    def __iter__(self):
        texts_set = set()
        for a in db.find(no_cursor_timeout=True):
            if md5(a['text'].encode('utf-8')) in texts_set:
                continue
            else:
                texts_set.add(md5(a['text'].encode('utf-8')))
                yield a['words']
        print u'最終計算了%s篇文章'%len(texts_set)

word2vec = gensim.models.word2vec.Word2Vec(sentences(), size=256, window=10, min_count=64, sg=1, hs=1, iter=10, workers=25)
word2vec.save('word2vec_wx')

這裡引入hashlib.md5是為了對文章進行去重（本來1000萬篇文章，去重後得到800萬），而這個步驟不是必要的。

【轉】Gensim庫詳解

一、gensim介紹 gensim是一款強大的自然語言處理工具，裡面包括N多常見模型：基本的語料處理工具 - LSI - LDA - HDP - DTM - DIM - TF-IDF - word2vec、paragraph2vec 二、訓練模型 1、

【轉】Selenium-xpath詳解

input end tab UC 子元素 dom 絕對路徑 sele .class 1、XPATH是什麽 XPATH是一門在XML文檔中查找信息的語言，XPATH可用來在XML文檔中對元素和屬性進行遍歷，主流的瀏覽器都支持XPATH，因為HTML頁面在DOM中表示為XHT

【轉】DBMS_STATS.GATHER_TABLE_STATS詳解

【轉】DBMS_STATS.GATHER_TABLE_STATS詳解 2012-04-22 09:20:10 分類： Linux 由於Oracle的優化器是CBO，所以物件的統計資料對執行計劃

【轉】tar 命令詳解

tar 命令[[email protected] ~]# tar [-cxtzjvfpPN] 檔案與目錄 ….Usage: tar [OPTION…] [FILE]…Examples: tar -cf archive.tar foo bar

【轉】htop使用詳解--史上最強（沒有之一）

在管理程序時通常要藉助一些工具，比較常用的就是ps和top了；不過CentOS還為我們提供了一個更加強大的工具htop，下面就來了解一下此工具的使用方法。一、安裝htop htop工具在epel源中提供，請自行配置epel源，也可以直接下載htop的原始碼包進行安裝。二、htop的介面操作 htop跟

【轉】C++模板詳解

模板是C++支援引數化多型的工具，使用模板可以使使用者為類或者函式宣告一種一般模式，使得類中的某些資料成員或者成員函式的引數、返回值取得任意型別。　　模板是一種對型別進行引數化的工具；　　通常有兩種形式：函式模板和類模板；　　函式模板針對僅引數型別不

【轉】mask-rcnn詳解

《Mask R-CNN》進行例項分割，就是要在每一個畫素上都表示出來目標所屬的具體類別。完成類別檢測，影象分割和特徵點定位。 1、解決的問題：在時間上對faster rcnn進行了優化，並且提高準確度，最關鍵的是在畫素級別進行特徵點定位達到了將各個物件的邊緣確定的效果。上圖是，faster rcn

【轉】Java package詳解

Java package詳解 Java引入包（package）機制，提供了類的多層名稱空間，用於解決類的命名衝突、類檔案管理等問題。 Java允許將一組功能相關的類放在同一個package下，從而組成邏輯上的類庫單元。如果希望把一個類放在指定的包結構下，我應該在Java源程式的第一個非註釋行放置

【轉】【MySQL】MySQL鎖詳解

https://www.cnblogs.com/luyucheng/p/6297752.html 一、概述資料庫鎖定機制簡單來說，就是資料庫為了保證資料的一致性，而使各種共享資源在被併發訪問變得有序所設計的一種規則。對於任何一種資料庫來說都需要有相應的鎖定機制，所以MyS

【轉載】FusionSphere架構詳解

computing ssis 修改 hyperv 適配器 drive 特殊架構 avi FusionSphere底層使用Xen架構： 1.單臺物理機上建立hypervisor系統。 2.將所有單個hypervisor系統整合起來管理使用。安裝C

【轉載】Spring AOP詳解、 JDK動態代理、CGLib動態代理

rto 工廠第一個 lec 僅支持 sel clas sleep gpo 原文地址：https://www.cnblogs.com/kukudelaomao/p/5897893.html AOP是Aspect Oriented Programing的簡稱，面向切面

【搬運】Wget 命令詳解

clear challenge 多次進度條成功 imp 聯網 llb tails 　　　　用過 Linux 系統的對於 wget 不陌生吧，從網上下載資源等操作都是少不了它，它體積小但功能集全，支持 FTP HTTP HTTPS 協議下載方式，支持斷點續傳代理服務器

【配置】log4j.properties 詳解與配置步驟

詳解項目 import throw 得到容器地方 med play 一、Log4j基本使用方法 Log4j由三個重要的組件構成：【日誌信息的優先級】，【日誌信息的輸出目的地】，【日誌信息的輸出格式】。日誌信息的優先級從高到低有ERROR、WARN、 INFO、D

【轉載】DHCP協議詳解

為了學習作業系統，今天又在windows上裝了一把virtualbox+debian。安裝的過程中遇到了網路配置的問題。學習了一下橋接，NAT，僅主機三種模式的區別。在這個過程中又遇到了DHCP協議，稍做了瞭解。轉載至此，方便檢視。原文地址：http://blog.c

【NLP】Google BERT詳解

11號論文放上去，12號各個公眾號推送，13號的我終於在最晚時間完成了前沿追蹤，驚覺上一篇論文竟然是一個月前。。。立個flag以後保持一週一更的頻率。下週開始終於要在工作上接觸NLP了，之後希望會帶來更多自己的東西而不是論文解析。 Attention和Transformer還不熟悉的請移步之前的文章：

【NLP】Universal Transformers詳解

上一篇transformer寫了整整兩週。。解讀太慢了。。主要是自己也在理解，而且沒有時間看原始碼，非常慚愧，如果哪裡說錯了希望大佬們可以提醒一下之前細細研究了attention和transformer之後，universal transformer讀了一遍就理解了，缺乏之前基礎的童鞋們請先移步：【N

【linux】md5sum 命令詳解

1、命令詳解 $ md5sum --help Usage: md5sum [OPTION]... [FILE]... Print or check MD5 (128-bit) checksums. With no FILE, or when FILE is -, read stand

【linux】top命令詳解

1、引數詳解 $ top -help procps-ng version 3.3.9 Usage: top -hv | -bcHiOSs -d secs -n max -u|U user -p pid(s) -o field -w [cols] -b：列印所有程式 -c

【譯】LiveData 使用詳解

前言本文翻譯自【Understanding LiveData made simple】，詳細介紹了 liveData 的使用。感謝作者 Elye。水平有限，歡迎指正討論。 Architecture Components 可以說是 Google 提供給 Android 開發者的一大福利。LiveData 是

【wrapper】weapper 配置詳解消化

將一個簡單的程度如HelloWorld 的應用包裝秤Wrapper 服務並不複雜，甚至可以認為非常簡單。但是實際專案應用過程中我們的程式一般較龐大，執行環境也較複雜。 &nb

【轉】Gensim庫詳解

一、gensim介紹

二、訓練模型

1、訓練

2、模型匯出

3、模型匯入

4、增量訓練

三、gensim訓練好的word2vec使用

1、相似性

案例一：800萬微信語料訓練

相關推薦