wordcloud詞雲分析及詞頻統計繪圖
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Date : 2017-10-18 17:52:25
# @Author : awakeljw ([email protected])
# @Link : http://blog.csdn.net/awakeljw/
# @Version : $Id$
from wordcloud import WordCloud
import jieba
import PIL
import matplotlib.pyplot as plt
import numpy as np
from collections import Counter
import matplotlib
from pylab import mpl
mpl.rcParams['font.sans-serif'] = ['SentyTang'] # 指定預設字型
mpl.rcParams['axes.unicode_minus'] = False
matplotlib.rc('xtick', labelsize=14)
matplotlib.rc('ytick', labelsize=14)
def wordcloudplot(txt):
path='字型檔案'
# path=unicode(path, 'utf8').encode('gb18030')
alice_mask = np.array(PIL.Image.open('圖片檔案'))
wordcloud = WordCloud(font_path=path,
background_color="white",
margin=5, width=1800, height=800,mask=alice_mask,max_words=2000,max_font_size=60,random_state=42)
wordcloud = wordcloud.generate(txt)
wordcloud.to_file('輸出檔案' )
plt.imshow(wordcloud)
plt.axis("off")
plt.show()
rem = [',','、','。','的','和','\u3000','圖','串','“','”',' ','與','是','端','在','中','了','\n']
def main():
a=[]
f=open(r'I:\tensorflow\ciyun\paper.txt','r',encoding='gb18030').read()
words=list(jieba.cut(f))
tongji = Counter(words).most_common(20)
d = {key: value for (key, value) in tongji}
for i in list(d.keys()):
if i in rem:
d.pop(i)
print (d)
label = list(d.keys())
y = list(d.values())
idx = np.arange(len(y))
plt.barh(idx,y)
plt.yticks(idx+0.4,label)
plt.xlabel('出現次數',fontsize = 20,labelpad = 5)
plt.ylabel('關鍵詞',fontsize= 20,labelpad = 5)
plt.title('渦流發生器對激波串振盪的控制',fontsize= 25)
plt.savefig('輸出詞頻圖示')
#plt.show()
#繪製pie chart on polar axis
N = len(d)
theta = np.arange(0.0, 2*np.pi,2*np.pi/N)
radii = y
width = np.pi/6
ax = plt.subplot(111,projection='polar')
bars = ax.bar(theta, radii, width = width, bottom = 0.0)
plt.xticks(theta+np.pi/12,label)
for r, bar in zip(radii, bars):
bar.set_facecolor(plt.cm.viridis(r / 10.))
bar.set_alpha(0.5)
plt.savefig('輸出pie極座標圖')
plt.show()
for word in words:
if len(word)>1:
a.append(word)
txt=r' '.join(a)
wordcloudplot(txt)#輸出詞雲
if __name__=='__main__':
main()
1.安裝wordcloud,jieba
http://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud下載對應的python版本,在cmd中輸入pip install I:/wordcloud-1.3.2-cp35-cp35m-win_amd64.whl安裝即可
jieba:pip install jieba
2.修改字型檔案
找到python安裝位置:C:\Anaconda3\Lib\site-packages\matplotlib\mpl-data\fonts\ttf新增自己下載的中文字型,
刪除個人使用者下的.matplotlib檔案
3.新增字型檔案和圖片
4.更改程式碼中的檔案和圖片路徑
5.執行除錯
結果展示
相關推薦
wordcloud詞雲分析及詞頻統計繪圖
#!/usr/bin/env python # -*- coding: utf-8 -*- # @Date : 2017-10-18 17:52:25 # @Author : awakeljw ([email protected]) # @Li
python資料探勘課程 十三.WordCloud詞雲配置過程及詞頻分析
一. 安裝WordCloud 在使用WordCloud詞雲之前,需要使用pip安裝相應的包。 pip install WordCloud pip install jieba 其中WordCloud是詞雲,ji
python爬蟲——京東評論、jieba分詞、wordcloud詞雲統計
nbsp cnblogs code utf-8 col type callback 結果 處理 接上一章,抓取京東評論區內容。 url=‘https://club.jd.com/comment/productPageComments.action?callback=fetc
Ubuntu的中文是哪種字型?python的詞雲分析和 三國演義人物出場統計
Ubuntu的預設中文是哪種呢? fc-list :lang=zh 用這個命令查看出來 NotoSerifCJK-Bold.ttc 為什麼要知道這個呢? 來看一塊python3程式碼 import jieba import wordcloud f = op
[Python微信開發] 一.itchat入門知識及微信自動回覆、微信簽名詞雲分析
轉自: https://blog.csdn.net/Eastmount/article/details/79618039 最近準備學習微信小程式開發,偶然間看到了python與微信互動的介面itchat,簡單學習了下,感覺還挺有意思的,故寫了篇基礎文章供大家學習。it
Python 詞雲分析周傑倫《晴天》
保存 ron 語言 痛徹心扉 分析 near spa sim img 一、前言滿天星辰的夜晚,他們相遇了、、、夏天的時候,她慢慢的接近他,關心他,為他付出一切;秋天的時候,兩個人終於如願的在一起,分享一切快樂的時光但終究是快樂時光短暫,因為傑倫必須出國深造,兩人面臨了要分隔
python 制作wordcloud詞雲
ont ima plot 完成 .com span 文件 help 來源 pip install wordcloud 需要用到numpy pillow matplotlib 安裝完成以後 wordcloud_cli --text in.txt --imagefile
詞雲分析《天龍八部》人物出現次數
出現次數 標題 http 春秋 mar -s pen image 背景圖片 一.需要的三方庫 1.安裝詞雲: pip install wordcloud 2.安裝結巴 pip install jieba 3.安裝matplotlib pip install ma
詞雲分析的進一步理解
豆瓣電影 豆瓣評論分析: 1). 獲取豆瓣最新上映的所有電影的前10頁評論資訊; 2). 清洗資料; 3). 分析每個電影評論資訊分析繪製成詞雲, 儲存為png圖片,檔名為: 電影名.png; import requests from bs4 import Beautifu
電影評論詞雲分析
需求:將豆瓣電影的評論爬取出來,用詞雲的方式對其進行分析 步驟分析: 1). 分析網站的原始碼 2). 通過url獲取電影名和電影id 3). 獲取指定的電影的評論 4). 資料的清洗,去除一些不需要的資訊 5). 進行詞雲的分析 分析網站的原始碼 通過原始碼分析,豆瓣電影是靠
wordcloud(詞雲)
問題:我們在爬取文字文字,如:爬取彈幕展示,需要展示在一張圖片上時,可以運用詞雲模組來實現 from wordcloud import WordCloud from scipy.misc import imread # 初始化詞雲 color_mask = imread("backgroun.
Spark環境安裝部署及詞頻統計例項
Spark是一個高效能的分散式計算框架,由於是在記憶體中進行操作,效能比MapReduce要高出很多. 具體的我就不介紹了,直接開始安裝部署並進行例項測試 首先在官網下載http://spark.ap
加深詞雲分析
豆瓣評論分析: 1). 獲取豆瓣最新上映的所有電影的前10頁評論資訊; 2). 清洗資料; 3). 分析每個電影評論資訊分析繪製成詞雲, 儲存為png圖片,檔名為: 電影名.png; import requests from bs4 import Beautif
Python入門之電影詞雲分析
需求:將豆瓣電影的評論爬取出來,用詞雲的方式對其進行分析 步驟分析: 1). 分析網站的原始碼 2). 通過url獲取電影名和電影id 3). 獲取指定的電影的評論 4). 資料的清洗,去除一些不需要的資訊 5). 進行詞雲的分析 分析網站的原始碼 通過原始碼分
Python 資料視覺化:WordCloud 詞雲的構建
WordCloud 官方文件:https://amueller.github.io/word_cloud/index.html WordCloud GitHub 地址:https://github.com/amueller/word_cloud Python非常重要的一個視覺化庫,wordclou
詞雲分析之英文
from pyecharts import WordCloud import jieba import re import nltk with open(r'F:\演算法\others\merry.txt', 'r', encoding='utf-8') as f: text = f.r
python 爬取豆瓣電影評論,並進行詞雲展示及出現的問題解決辦法
本文旨在提供爬取豆瓣電影《我不是藥神》評論和詞雲展示的程式碼樣例 1、分析URL 2、爬取前10頁評論 3、進行詞雲展示 1、分析URL 我不是藥神 短評 第一頁url https://movie.douban.com/subject/26752088/comments?start=0&limit=2
Python爬取豆瓣電影的短評資料並進行詞雲分析處理
前言 對於爬蟲很不陌生,而爬蟲最為經典的案例就是爬取豆瓣上面的電影資料了,今天小編就介紹一下如果爬取豆瓣上面電影影評,以《我不是藥神》為例。 基本環境配置 版本:Python3.6 系統:Windows 本人對於Python學習建立了一個小小的學習圈子,為各位提供了
NO.16——Pathon爬取楊超越新浪微博資料做詞雲分析
看到網上充斥著很多詞雲分析的資料,今天心血來潮,也嘗試下詞雲分析。最近熱火的《創造101》,楊超越小姐姐一直在風口浪尖,因此這裡借用小姐姐的微博資料做分析。一、準備工具 作詞雲分析主要用到兩個工具: jieba,俗稱結巴,中文分詞工具;wordclo
從安卓手機ROOT提取微信聊天記錄到利用Python進行詞雲分析全過程
剛剛來到了2018年,正值女票生日將近。想想這一年來我倆的聊天記錄也不少(匯出後一看十個月的微信文字聊天記錄將近8萬條 ^-^),於是就有了將我們的聊天記錄匯出來製作成詞雲,或者分析一下她說的最多的一句話是什麼?還打算做個預測模型,輸入一個句子然後讓模型預測下是她說的還是我說的,哈哈,想想還有點小激