用WordNet實現中文情感分析

阿新 • • 發佈：2018-12-30

1. 分析

中文的情感分析可以用詞林做，詞林有一大類（Ｇ類）對應心理活動，但是相對於wordnet還是太簡單了．因此使用nltk+wordnet的方案，如下：

1) 中文分詞：結巴分詞

3) 情感分析：wordnet的sentiwordnet元件

2. 程式碼

# encoding=utf-8
import jieba
import sys
import codecs

reload(sys)

import nltk
from nltk.corpus import wordnet as wn
from nltk.corpus import sentiwordnet as swn

sys.setdefaultencoding('utf8')

def doSeg(filename) :
    f = open(filename, 'r+')
    file_list = f.read()
    f.close()

    seg_list = jieba.cut(file_list)

    stopwords = []  
    for word in open("./stop_words.txt", "r"):  
        stopwords.append(word.strip()) 

    ll = []
    for seg in seg_list :
        if (seg.encode("utf-8") not in stopwords and seg != ' ' and seg != '' and seg != "\n" and seg != "\n\n"):
            ll.append(seg)
    return ll

def loadWordNet():
    f = codecs.open("./cow-not-full.txt", "rb", "utf-8")
    known = set()
    for l in f:
        if l.startswith('#') or not l.strip():
            continue
        row = l.strip().split("\t")
        if len(row) == 3:
            (synset, lemma, status) = row 
        elif len(row) == 2:
            (synset, lemma) = row 
            status = 'Y'
        else:
            print "illformed line: ", l.strip()
        if status in ['Y', 'O' ]:
            if not (synset.strip(), lemma.strip()) in known:
                known.add((synset.strip(), lemma.strip()))
    return known

def findWordNet(known, key):
    ll = [];
    for kk in known:
        if (kk[1] == key):
             ll.append(kk[0])
    return ll

def id2ss(ID):
    return wn._synset_from_pos_and_offset(str(ID[-1:]), int(ID[:8]))

def getSenti(word):
    return swn.senti_synset(word.name())

if __name__ == '__main__' :
    known = loadWordNet()
    words = doSeg(sys.argv[1])

    n = 0
    p = 0
    for word in words:
      ll = findWordNet(known, word)
      if (len(ll) != 0):
          n1 = 0.0
          p1 = 0.0
          for wid in ll:
              desc = id2ss(wid)
              swninfo = getSenti(desc)
              p1 = p1 + swninfo.pos_score()
              n1 = n1 + swninfo.neg_score()
          if (p1 != 0.0 or n1 != 0.0):
              print word, '-> n ', (n1 / len(ll)), ", p ", (p1 / len(ll))
          p = p + p1 / len(ll)
          n = n + n1 / len(ll)
    print "n", n, ", p", p

3. 待解決的問題

1) 結巴分詞與wordnet chinese中的詞不能一一對應
結巴分詞雖然可以匯入自定義的詞典，但仍有些結巴分出的詞，在wordnet找不到對應詞義，比如＂太后＂，＂童子＂，還有一些組合詞如＂很早已前＂，＂黃山＂等等．大多是名詞，需要進一步＂學習＂．
臨時的解決方案是：將其當作＂專有名詞＂處理

2) 一詞多義／一義多詞
無論是情感分析，還是語義分析，中文或者英文，都需要解決詞和義的對應問題.
臨時的解決方案是：找到該詞的所有語義，取其平均的情感值．另外，結巴也可判斷出詞性作為進一步參考．

3) 語義問題
語義問題是最根本的問題，一方面需要分析句子的結構，另外也和內容也有關，尤其是長文章，經常會使用＂先抑後揚＂＂對比分析＂，這樣就比較難以判斷感情色彩了．

4. 參考

用WordNet實現中文情感分析

1. 分析中文的情感分析可以用詞林做，詞林有一大類（Ｇ類）對應心理活動，但是相對於wordnet還是太簡單了．因此使用nltk+wordnet的方案，如下： 1) 中文分詞：結巴分詞 3) 情感分析：wordnet的sentiwordn

中文情感分析 glove+LSTM

load .get reat return 左右 strip() 加載 models pyplot 最近嘗試了一下中文的情感分析。主要使用了Glove和LSTM。語料數據集采用的是中文酒店評價語料 1、首先是訓練Glove，獲得詞向量（這裏是用的300d）。這一步使用的是

中文情感分析語料庫【下載】

轉自部落格：https://blog.csdn.net/noter16/article/details/75340354 http://blog.leanote.com/post/doubleseven/%E4%B8%AD%E6%96%87%E6%83%85%E6%84%9F%E5%88%86%

Word2vec進行中文情感分析

''' Chinese sentiment analysis ''' from sklearn.cross_validation import train_test_split from gensim.models.word2vec import Word2Vec import numpy

snownlp中文情感分析[正負面sentiments/相似度sim]

安裝 pip install snownlp 導包 from snownlp import SnowNLP # 載入情感分析模組 from snownlp import sentiment 匯入資料集 text=pd.read_excel("./自然語言文字.xls

樸素貝葉斯分類器簡單實現文字情感分析

樸素貝葉斯的一般過程： ① 收集資料：可以使用任何方法。 ② 準備資料：需要數值型或者布林型資料。 ③ 分析資料：有大量特徵時，繪製特徵作用不大，此時使用直方圖效果更好。 ④ 訓練演算法：計算不同的獨立特徵的條件概率。 ⑤ 測試演算法：計算錯誤率。 ⑥ 使用演算法：一個常見

用mysql實現oracle的分析函式

最近資料中心環境切換，源資料儲存在oracle11g裡，新環境要mysql5.7，由於很多的sql語句用到了oracle的分析函式，而mysql對此暫無很好的支援，所以做了以下的轉化，作為標記，有錯誤的地方，希望大家指正。一。準備工作 1.資料表準備 oracle的sc

R語言中文情感分析包:cnSentimentR

R語言中文情感分析. 該包使用jiebaR分詞, svm[e1071]進行分類; 主要的函式:cnsr.predict, cnsr.train, cnsr.prepare, cnsr.topic.word, cnsr.keyword

[Linux]用Clang實現程式碼靜態分析

1.按轉Clang sudo apt-get install Clang 2.編寫測試程式 memleak.c #include<stdio.h> #include<stdlib.h> int main() { int *mem

中文情感分析——snownlp類庫原始碼註釋及使用

最近發現了snownlp這個庫，這個類庫是專門針對中文文字進行文字挖掘的。主要功能：中文分詞（Character-Based Generative Model）詞性標註（TnT 3-gram 隱馬）情感分析（現在訓練資料主要是買賣東西時的評價，所以對其他的一些可能效果不是很好，待

NLP之情感分析：基於python程式設計(jieba庫)實現中文文字情感分析(得到的是情感評分)

NLP之情感分析：基於python程式設計(jieba庫)實現中文文字情感分析(得到的是情感評分) 輸出結果 1、測試物件 data1= '今天上海的天氣真好！我的心情非常高興！如果去旅遊的話我會非常興奮！和你一起去旅遊我會更加幸福！' data2= '今天上海天氣真差,非常討厭下雨,把

【API進階之路】幫公司省下20萬調研費！如何巧用情感分析API實現使用者偏好調研

摘要：自從學習API後，彷彿解鎖了新技能，可別小看了一個小小的API介面，用好了都是能力無窮。這不，用情感分析API來做使用者偏好調研，沒想到這麼一個小創意給公司省了20萬調研費用。上次藉著高考熱點整出一個刷屏的互動遊戲之後，我連續被各業務部門請了一週的午飯了，今天運營部，明天品牌部，後天市場部…心裡暗搓搓

【spring源碼學習】spring的遠程調用實現源碼分析

數據編碼方式 ria date 技術 color nbsp mvc err 【一】spring的遠程調用提供的基礎類（1）org.springframework.remoting.support.RemotingSupport ===>spring提供實現的遠程調

深度學習情感分析（隨機梯度下降代碼實現）

隨機梯度下降 exp utf8 ret .get bsp 這一理論 body 1.代碼沒有引入深度學習包，實現了簡單的隨機梯度下降算法。 2.理論較簡單。 # coding:utf8 # Author:Chaz import sys,time import numpy

python使用jieba實現中文文檔分詞和去停用詞

分享圖片 lac lena idt center cut inpu span code 分詞工具的選擇：　　現在對於中文分詞，分詞工具有很多種，比如說：jieba分詞、thulac、SnowNLP等。在這篇文檔中，筆者使用的jieba分詞，並且基於python3環境，選擇

用LabVIEW實現U3數據采集卡的時域分析信號處理

ans 屬於劃分占空比 tex 及其數據采集分享 proc 信號特征值以一個數值表示信號的某些時域特征，是對測試信號最簡單直觀的時域描述。在測試系統中往往用一些模擬儀表來指示信號的特征值。將測試信號采集到計算機後，在測試VI中進行信號特征值處理，並在測試VI前面板上

LR--用棧實現移進--歸約分析(demo)

1.考慮文法 $E->E+E$ $E->E*E$ $E->id$ 2.最右推導不難看出，這個文法是而二義的，所以有多個最右推導 3.移進歸約用一個棧存文法符號，用輸入快取區儲存要分析的輸入串，用$標記棧底 #include<iostream> #inc

改進的中科院分詞系統NLPIR程式碼（加入使用者詞典，去停用詞，檔案讀寫）+情感分析字典包+工具包+論文包

NLPIR分詞，加入使用者詞典，去停用詞，檔案讀寫等原始碼下載地址優化的分詞系統程式碼原始碼下載地址 NLPIR分詞系統優化的分詞系統程式碼以下是核心程式碼完整程式碼可以直接執行分詞，點我跳轉 public cl

[原始碼和文件分享]基於Python實現的論壇帖子情感分析

一、課程專案 Scuinfo文字分類分析二、專案類容爬取川大匿名社群SCUinfo在一段時間內的帖子，對其進行情感分類分析，包括情緒分類（積極，消極），帖子內容關聯分析等。三、個人工作完成報告 3.1 工作概述負責資料收集、預處理以及簡單的情感分析 3.2 爬蟲方

基於LVD、貝葉斯模型演算法實現的電商行業商品評論與情感分析案例

一、專案需求現在大家進行網購，在購物之前呢，肯定會看下相關商品的評論，看下好評和差評，然後再綜合衡量，最後才會決定是否購買相關的商品。對一個指定商品，生產商，賣家，買家認同該商品的哪些優點/不認同

用WordNet實現中文情感分析

1. 分析

2. 程式碼

3. 待解決的問題

4. 參考

相關推薦