wordcloud詞雲分析及詞頻統計繪圖

阿新 • • 發佈：2019-02-12

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Date    : 2017-10-18 17:52:25
# @Author  : awakeljw ([email protected])
# @Link    : http://blog.csdn.net/awakeljw/
# @Version : $Id$


from wordcloud import WordCloud
import jieba
import PIL
import matplotlib.pyplot as plt
import numpy as np
from collections import 
 Counter
import matplotlib
from pylab import mpl
mpl.rcParams['font.sans-serif'] = ['SentyTang'] # 指定預設字型
mpl.rcParams['axes.unicode_minus'] = False  
matplotlib.rc('xtick', labelsize=14)
matplotlib.rc('ytick', labelsize=14)
def wordcloudplot(txt):
    path='字型檔案'
#    path=unicode(path, 'utf8').encode('gb18030') 

    alice_mask = np.array(PIL.Image.open('圖片檔案'))
    wordcloud = WordCloud(font_path=path, 
                          background_color="white",   
                          margin=5, width=1800, height=800,mask=alice_mask,max_words=2000,max_font_size=60,random_state=42) 
    wordcloud = wordcloud.generate(txt)
    wordcloud.to_file('輸出檔案' 
)
    plt.imshow(wordcloud)
    plt.axis("off")
    plt.show()

rem = ['，','、','。','的','和','\u3000','圖','串','“','”',' ','與','是','端','在','中','了','\n']    
def main():
    a=[]
    f=open(r'I:\tensorflow\ciyun\paper.txt','r',encoding='gb18030').read()
    words=list(jieba.cut(f))
    tongji = Counter(words).most_common(20)

    d = {key: value for (key, value) in tongji}  

    for i in list(d.keys()):
        if i in rem:
            d.pop(i) 
    print (d)
    label = list(d.keys())
    y = list(d.values())
    idx = np.arange(len(y))
    plt.barh(idx,y)
    plt.yticks(idx+0.4,label) 
    plt.xlabel('出現次數',fontsize = 20,labelpad = 5)
    plt.ylabel('關鍵詞',fontsize= 20,labelpad = 5)
    plt.title('渦流發生器對激波串振盪的控制',fontsize= 25)
    plt.savefig('輸出詞頻圖示')
    #plt.show()
    #繪製pie chart on polar axis
    N = len(d)
    theta = np.arange(0.0, 2*np.pi,2*np.pi/N)
    radii = y
    width = np.pi/6
    ax = plt.subplot(111,projection='polar')
    bars = ax.bar(theta, radii, width = width, bottom = 0.0)
    plt.xticks(theta+np.pi/12,label)
    for r, bar in zip(radii, bars):
        bar.set_facecolor(plt.cm.viridis(r / 10.))
        bar.set_alpha(0.5)

    plt.savefig('輸出pie極座標圖')
    plt.show()

    for word in words:
        if len(word)>1:
            a.append(word)
    txt=r' '.join(a)
    wordcloudplot(txt)#輸出詞雲

if __name__=='__main__':
    main()

1.安裝wordcloud，jieba
http://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud下載對應的python版本，在cmd中輸入pip install I:/wordcloud-1.3.2-cp35-cp35m-win_amd64.whl安裝即可
jieba：pip install jieba
2.修改字型檔案
找到python安裝位置：C:\Anaconda3\Lib\site-packages\matplotlib\mpl-data\fonts\ttf新增自己下載的中文字型，
刪除個人使用者下的.matplotlib檔案
3.新增字型檔案和圖片
4.更改程式碼中的檔案和圖片路徑
5.執行除錯

結果展示

這裡寫圖片描述

wordcloud詞雲分析及詞頻統計繪圖

#!/usr/bin/env python # -*- coding: utf-8 -*- # @Date : 2017-10-18 17:52:25 # @Author : awakeljw ([email protected]) # @Li

python資料探勘課程十三.WordCloud詞雲配置過程及詞頻分析

一. 安裝WordCloud 在使用WordCloud詞雲之前，需要使用pip安裝相應的包。 pip install WordCloud pip install jieba 其中WordCloud是詞雲，ji

python爬蟲——京東評論、jieba分詞、wordcloud詞雲統計

nbsp cnblogs code utf-8 col type callback 結果處理接上一章，抓取京東評論區內容。 url=‘https://club.jd.com/comment/productPageComments.action?callback=fetc

Ubuntu的中文是哪種字型？python的詞雲分析和三國演義人物出場統計

Ubuntu的預設中文是哪種呢？ fc-list :lang=zh 用這個命令查看出來 NotoSerifCJK-Bold.ttc 為什麼要知道這個呢？來看一塊python3程式碼 import jieba import wordcloud f = op

[Python微信開發] 一.itchat入門知識及微信自動回覆、微信簽名詞雲分析

轉自： https://blog.csdn.net/Eastmount/article/details/79618039 最近準備學習微信小程式開發，偶然間看到了python與微信互動的介面itchat，簡單學習了下，感覺還挺有意思的，故寫了篇基礎文章供大家學習。it

Python 詞雲分析周傑倫《晴天》

保存 ron 語言痛徹心扉分析 near spa sim img 一、前言滿天星辰的夜晚，他們相遇了、、、夏天的時候，她慢慢的接近他，關心他，為他付出一切；秋天的時候，兩個人終於如願的在一起，分享一切快樂的時光但終究是快樂時光短暫，因為傑倫必須出國深造，兩人面臨了要分隔

python 制作wordcloud詞雲

ont ima plot 完成 .com span 文件 help 來源 pip install wordcloud 需要用到numpy pillow matplotlib 安裝完成以後 wordcloud_cli --text in.txt --imagefile

詞雲分析《天龍八部》人物出現次數

出現次數標題 http 春秋 mar -s pen image 背景圖片一.需要的三方庫 1.安裝詞雲: 　　pip install wordcloud 2.安裝結巴　　pip install jieba 3.安裝matplotlib 　　pip install ma

詞雲分析的進一步理解

豆瓣電影豆瓣評論分析: 1). 獲取豆瓣最新上映的所有電影的前10頁評論資訊； 2). 清洗資料； 3). 分析每個電影評論資訊分析繪製成詞雲，儲存為png圖片，檔名為: 電影名.png; import requests from bs4 import Beautifu

電影評論詞雲分析

需求：將豆瓣電影的評論爬取出來，用詞雲的方式對其進行分析步驟分析： 1). 分析網站的原始碼 2). 通過url獲取電影名和電影id 3). 獲取指定的電影的評論 4). 資料的清洗，去除一些不需要的資訊 5). 進行詞雲的分析分析網站的原始碼通過原始碼分析，豆瓣電影是靠

wordcloud(詞雲）

問題：我們在爬取文字文字，如：爬取彈幕展示，需要展示在一張圖片上時，可以運用詞雲模組來實現 from wordcloud import WordCloud from scipy.misc import imread # 初始化詞雲 color_mask = imread("backgroun.

Spark環境安裝部署及詞頻統計例項

Spark是一個高效能的分散式計算框架，由於是在記憶體中進行操作，效能比MapReduce要高出很多．具體的我就不介紹了，直接開始安裝部署並進行例項測試首先在官網下載http://spark.ap

加深詞雲分析

豆瓣評論分析: 1). 獲取豆瓣最新上映的所有電影的前10頁評論資訊； 2). 清洗資料； 3). 分析每個電影評論資訊分析繪製成詞雲，儲存為png圖片，檔名為: 電影名.png; import requests from bs4 import Beautif

Python入門之電影詞雲分析

需求：將豆瓣電影的評論爬取出來，用詞雲的方式對其進行分析步驟分析： 1). 分析網站的原始碼 2). 通過url獲取電影名和電影id 3). 獲取指定的電影的評論 4). 資料的清洗，去除一些不需要的資訊 5). 進行詞雲的分析分析網站的原始碼通過原始碼分

Python 資料視覺化：WordCloud 詞雲的構建

WordCloud 官方文件：https://amueller.github.io/word_cloud/index.html WordCloud GitHub 地址：https://github.com/amueller/word_cloud Python非常重要的一個視覺化庫，wordclou

詞雲分析之英文

from pyecharts import WordCloud import jieba import re import nltk with open(r'F:\演算法\others\merry.txt', 'r', encoding='utf-8') as f: text = f.r

python 爬取豆瓣電影評論，並進行詞雲展示及出現的問題解決辦法

本文旨在提供爬取豆瓣電影《我不是藥神》評論和詞雲展示的程式碼樣例 1、分析URL 2、爬取前10頁評論 3、進行詞雲展示 1、分析URL 我不是藥神短評第一頁url https://movie.douban.com/subject/26752088/comments?start=0&limit=2

Python爬取豆瓣電影的短評資料並進行詞雲分析處理

前言對於爬蟲很不陌生，而爬蟲最為經典的案例就是爬取豆瓣上面的電影資料了，今天小編就介紹一下如果爬取豆瓣上面電影影評，以《我不是藥神》為例。基本環境配置版本：Python3.6 系統：Windows 本人對於Python學習建立了一個小小的學習圈子，為各位提供了

NO.16——Pathon爬取楊超越新浪微博資料做詞雲分析

看到網上充斥著很多詞雲分析的資料，今天心血來潮，也嘗試下詞雲分析。最近熱火的《創造101》，楊超越小姐姐一直在風口浪尖，因此這裡借用小姐姐的微博資料做分析。一、準備工具作詞雲分析主要用到兩個工具： jieba,俗稱結巴，中文分詞工具；wordclo

從安卓手機ROOT提取微信聊天記錄到利用Python進行詞雲分析全過程

剛剛來到了2018年，正值女票生日將近。想想這一年來我倆的聊天記錄也不少（匯出後一看十個月的微信文字聊天記錄將近8萬條 ^-^）,於是就有了將我們的聊天記錄匯出來製作成詞雲，或者分析一下她說的最多的一句話是什麼？還打算做個預測模型，輸入一個句子然後讓模型預測下是她說的還是我說的，哈哈，想想還有點小激

wordcloud詞雲分析及詞頻統計繪圖

結果展示

相關推薦