Word2vec進行中文情感分析

阿新 • • 發佈：2018-11-10

'''
Chinese sentiment analysis
'''

from sklearn.cross_validation import train_test_split
from gensim.models.word2vec import Word2Vec
import numpy as np
import pandas as pd
import jieba
from sklearn.externals import joblib    #把資料轉化為二進位制
from sklearn.svm import SVC
import sys

'''
資料預處理：載入資料
           預處理
           切分訓練集和測試集
'''
def load_file_and_processing():
    neg = pd.read_excel('H:/word2vect_3data/Chinese_data/neg.xls')
    pos = pd.read_excel('H:/word2vect_3data/Chinese_data/pos.xls')

    cw = lambda x:list(jieba.cut(x))                #jieba分詞
    pos['words'] = pos[0].apply(cw)				#此處會報錯，讀取時給列命名，在apply jieba.cut()不會報錯
    neg['words'] = neg[0].apply(cw)

    # use 1 for positive sentiment, 0 for negative
    y = np.concatenate((np.ones(len(pos)),np.zeros(len(neg))))

    x_train,x_test,y_train,y_test = train_test_split(np.concatenate((pos['words'],neg['words'])),y,test_size=0.2)

    np.save('H:/word2vect_3data/Chinese_data/y_train.npy', y_train)
    np.save('H:/word2vect_3data/Chinese_data/y_test.npy', y_test)
    return x_train,x_test



'''
對每個句子的所有詞向量取均值，生成一個句子的vector
'''
def build_sentence_vector(text,size,imdb_w2v):
    vec = np.zeros(size).reshape((1,size))
    count = 0
    for word in text:
        try:
            vec += imdb_w2v[word].reshape((1,size))
            count += 1
        except KeyError:
            continue
    if count != 0:
        vec /= count
    return vec

'''
計算詞向量
'''
def get_train_vecs(x_train,x_test):
    n_dim = 300
    #初始化模型和詞表
    imdb_w2v = Word2Vec(size=n_dim,min_count=10)    #詞頻少於min_count次數的單詞會被丟棄掉, 預設值為5
    imdb_w2v.build_vocab(x_train)

    #在評論集上訓練模型
    imdb_w2v.train(x_train)

    train_vecs = np.concatenate([build_sentence_vector(z,n_dim,imdb_w2v) for z in x_train])
    np.save('H:/word2vect_3data/Chinese_data/train_vecs.npy',train_vecs)
    print('train_vecs size:')
    print(train_vecs.shape)

    #在測試集上訓練
    imdb_w2v.train(x_test)
    imdb_w2v.save('H:/word2vect_3data/Chinese_data/w2v_model.pkl')
    #build test tweet vector then scale
    test_vecs = np.concatenate([build_sentence_vector(z,n_dim,imdb_w2v) for z in x_test])
    np.save('H:/word2vect_3data/Chinese_data/test_vecs.npy',test_vecs)
    print('test_vecs size:')
    print(test_vecs.shape)


def get_data():
    train_vecs = np.load('H:/word2vect_3data/Chinese_data/train_vecs.npy')
    y_train = np.load('H:/word2vect_3data/Chinese_data/y_train.npy')
    test_vecs = np.load('H:/word2vect_3data/Chinese_data/test_vecs.npy')
    y_test = np.load('H:/word2vect_3data/Chinese_data/y_test.npy')
    return train_vecs,test_vecs,y_train,y_test


'''
訓練模型
'''

def svm_train(train_vecs,y_train,test_vecs,y_test):
    clf = SVC(kernel='rbf',verbose=True)
    clf.fit(train_vecs,y_train)
    joblib.dump(clf, 'H:/word2vect_3data/Chinese_data/model.pkl')
    print(clf.score(test_vecs,y_test))


'''
構建待測句子向量
'''
def get_predict_vecs(words):
    n_dim = 300
    imdb_w2v =Word2Vec.load('H:/word2vect_3data/Chinese_data/w2v_model.pkl')
    train_vecs = build_sentence_vector(words,n_dim,imdb_w2v)
    return train_vecs


'''
對單個句子進行情感分析
'''
def svm_predict(string):
    words = jieba.cut(string)          #jieba.lcut直接返回list
    words_vecs = get_predict_vecs(words)
    clf =joblib.load('H:/word2vect_3data/Chinese_data/model.pkl')

    result = clf.predict(words_vecs)

    if int(result[0]) == 1:
        print('positive')
    else:
        print('negative')

Word2vec進行中文情感分析

''' Chinese sentiment analysis ''' from sklearn.cross_validation import train_test_split from gensim.models.word2vec import Word2Vec import numpy

中文情感分析 glove+LSTM

load .get reat return 左右 strip() 加載 models pyplot 最近嘗試了一下中文的情感分析。主要使用了Glove和LSTM。語料數據集采用的是中文酒店評價語料 1、首先是訓練Glove，獲得詞向量（這裏是用的300d）。這一步使用的是

中文情感分析語料庫【下載】

轉自部落格：https://blog.csdn.net/noter16/article/details/75340354 http://blog.leanote.com/post/doubleseven/%E4%B8%AD%E6%96%87%E6%83%85%E6%84%9F%E5%88%86%

snownlp中文情感分析[正負面sentiments/相似度sim]

安裝 pip install snownlp 導包 from snownlp import SnowNLP # 載入情感分析模組 from snownlp import sentiment 匯入資料集 text=pd.read_excel("./自然語言文字.xls

用WordNet實現中文情感分析

1. 分析中文的情感分析可以用詞林做，詞林有一大類（Ｇ類）對應心理活動，但是相對於wordnet還是太簡單了．因此使用nltk+wordnet的方案，如下： 1) 中文分詞：結巴分詞 3) 情感分析：wordnet的sentiwordn

R語言中文情感分析包:cnSentimentR

R語言中文情感分析. 該包使用jiebaR分詞, svm[e1071]進行分類; 主要的函式:cnsr.predict, cnsr.train, cnsr.prepare, cnsr.topic.word, cnsr.keyword

中文情感分析——snownlp類庫原始碼註釋及使用

最近發現了snownlp這個庫，這個類庫是專門針對中文文字進行文字挖掘的。主要功能：中文分詞（Character-Based Generative Model）詞性標註（TnT 3-gram 隱馬）情感分析（現在訓練資料主要是買賣東西時的評價，所以對其他的一些可能效果不是很好，待

NLP入門（十）使用LSTM進行文字情感分析

情感分析簡介文字情感分析（Sentiment Analysis）是自然語言處理（NLP）方法中常見的應用，也是一個有趣的基本任務，尤其是以提煉文字情緒內容為目的的分類。它是對帶有情感色彩的主觀性文字進行分析、處理、歸納和推理的過程。本文將介紹情感分析中的情感極性（傾向）分析。所謂情感極性分析，指的

python的中文文字挖掘庫snownlp進行購物評論文字情感分析例項

昨晚上發現了snownlp這個庫，很開心。先說說我開心的原因。我本科畢業設計做的是文字挖掘，用R語言做的，發現R語言對文字處理特別不友好，沒有很多強大的庫，特別是針對中文文字的，加上那時候還沒有學機器學習演算法。所以很頭疼，後來不得已用了一個視覺化的軟體R

spark scala word2vec 和多層分類感知器在情感分析中的實際應用

predict output edi ext oop post format vector spa 轉自：http://www.cnblogs.com/canyangfeixue/p/7227998.html 對於威脅檢測算法使用神經網絡訓練有用！！！TODO待實驗 /

Py：數據挖掘之對個人微信朋友圈好友的性別、區域、昵稱、簽名信息進行情感分析——Jason niu

簽名信息 col ram gif -s post 區域 ons AR #Py：數據挖掘之對微信朋友圈好友的性別、區域、昵稱、簽名信息進行情感分析——Jason niu import os import re import csv import time import jso

使用ANNdotNET進行情感分析

pyw designer 讀者 href ali mpm 切換 ati 建議 2018年10月的MSDN雜誌上發表了由James McCaffrey撰寫的文章“使用CNTK的情感分析” 。在這篇博文中，我將向您介紹這篇非常好且寫得很好的MSDN文章示

Sentiment Analysis with Recurrent Neural Networks in TensorFlow 利用TensorFlow迴歸神經網路進行情感分析 Pluralsigh

Sentiment Analysis with Recurrent Neural Networks in TensorFlow 中文字幕利用TensorFlow迴歸神經網路進行情感分析中文字幕Sentiment Analysis with Recurrent Neural Netwo

NLP之情感分析：基於python程式設計(jieba庫)實現中文文字情感分析(得到的是情感評分)

NLP之情感分析：基於python程式設計(jieba庫)實現中文文字情感分析(得到的是情感評分) 輸出結果 1、測試物件 data1= '今天上海的天氣真好！我的心情非常高興！如果去旅遊的話我會非常興奮！和你一起去旅遊我會更加幸福！' data2= '今天上海天氣真差,非常討厭下雨,把

【機器學習】使用Python的自然語言工具包（NLTK）對Reddit新聞標題進行情感分析

讓我們使用Reddit API獲取新聞標題並執行情感分析在我上一篇文章中，使用Python進行K-Means聚類，我們只是抓取了一些預編譯資料，但是對於這篇文章，我想更深入地瞭解一些實時資料。使用Reddit API，我們可以從各種新聞subreddit獲得成千上萬的

基於LDA對電商商品評論進行情感分析

1、專案背景：現在大眾在進行網購之前都會先看下相關商品的評論，包括好評與差評，再綜合衡量，最後才決定是否會購買相關的物品。甚至有的消費者已經不看商品的詳情秒數頁而是直接看評論，然後決定是否下單。商品評論已經是使用者決策最為核心的考量因素了。在本專案中要根據

Sentiment Analysis with Recurrent Neural Networks in TensorFlow 利用TensorFlow迴歸神經網路進行情感分析 Pluralsigh

Sentiment Analysis with Recurrent Neural Networks in TensorFlow 中文字幕利用TensorFlow迴歸神經網路進行情感分析中文字幕Sentiment Analysis with Recurrent

科學蹭熱點：用python獲取熱門微博評論並進行情感分析

在我埋頭學習mysql、scrapy、django準備下一波吹水的時候，有人說，你去爬下老薛的微博呀，還能蹭個熱點，這讓勤(mo)奮(mo)學(kou)習(jiao)的我停下了寄幾敲程式碼的手。然後我趕緊去關注了一下最近老薛的新聞…在感受了劇情的複雜和案情的撲朔迷離之後…我默默地學習瞭如

在centos linux下用django搭建web服務，提供api對句子進行情感分析

在centos linux下搭建web服務這兩天因為實驗室和小米的專案需要我搭建一個web服務返回產品評論的情感極性概率，我一個伺服器小白只好從零摸索搭建伺服器，遇到了很多無從下手的問題，計算機真的令人崩潰2333，寫個部落格記錄一下。使用到的工具：

利用500萬條微博語料對微博評論進行情感分析

最近身邊的人都在談論一件事：10月8日中午的一條微博，引發了一場微博的軒然大波。導致微博癱瘓的原因是全球超人氣偶像明星鹿晗發了一條“大家好，給大家介紹一下，這是我女朋友@關曉彤”。這條微博並@關曉彤。資料分析，可以在這裡自取！截止目前，鹿晗的這條微博已經被轉發1

Word2vec進行中文情感分析

相關推薦