爬取資料分析——將豆瓣電影top250以詞雲的方式展現

阿新 • • 發佈：2020-07-14

根據爬取到的豆瓣top250電影資訊，根據一句話概述，首先使用jieba分詞工具進行分詞，再使用wordcloud進行詞雲展示

# -*- codeing = utf-8 -*-
# @Time : 2020/7/14 0:11
# @Author: 小菜菜最菜
# @File : testCloud.py
# @Software : PyCharm

import jieba
from matplotlib import pyplot as plt
from wordcloud import WordCloud
from PIL import Image   # 圖片處理
import numpy as np      # 矩陣運算
import sqlite3

# 這裡已將資料儲存在movie.db中，儲存方法可見前面部落格，使用的資料庫為sqlite3
conn = sqlite3.connect('movie.db')
cur = conn.cursor()
sql = 'select instroduction from movie250'
data = cur.execute(sql)
text = ""
for item in data:
    text = text + item[0]
cur.close()
conn.close()
print(text)
print('-----------------')


# 分詞
cut = jieba.cut(text)
string = ' '.join(cut)
print(len(string))


# 畫圖
img = Image.open(r'./static/assets/img/tree.jpg')
img_array = np.array(img)# 圖片轉化為陣列
wc = WordCloud(
    background_color='white',
    mask = img_array,
    font_path = "msyh.ttc"
)
wc.generate_from_text(string)



#繪製圖片
fig = plt.figure(1)
plt.imshow(wc)
plt.axis('off')   # 是否顯示座標軸
# plt.show()    # 顯示生成的詞雲圖片


# 輸出詞雲圖片到檔案
plt.savefig(r'.\static\assets\img\word.jpg',dpi=500)

生成的詞雲圖片為：

爬取資料分析——將豆瓣電影top250以詞雲的方式展現

根據爬取到的豆瓣top250電影資訊，根據一句話概述，首先使用jieba分詞工具進行分詞，再使用wordcloud進行詞雲展示

python資料視覺化豆瓣電影top250資料分析

第一篇文章裡已經通過寫python爬蟲程式獲取到了豆瓣電影Top250有關的資料，這裡對儲存在Excel裡的電影資訊進行資料分析和視覺化。

使用requests庫爬取豆瓣電影Top250相關資料

使用基本的requests庫和re庫爬取豆瓣電影Top250 目錄re庫豆瓣電影top250電影天堂 re庫

Python3.8 爬取豆瓣電影TOP250 練手爬蟲

1 #!/usr/bin/env python 2 # encoding=utf-8 3 import requests 4 import re 5 import codecs 6 from bs4 import BeautifulSoup

Jsoup爬取愛奇藝高分電影排行榜資料

原文地址：xeblog.cn/articles/27 Jsoup簡介 Jsoup官網：jsoup.org/ jsoup 是一款Java 的HTML解析器，可直接解析某個URL地址、HTML文字內容。它提供了一套非常省力的API，可通過DOM，CSS以及類似於jQuery的操作方法

Python爬取並分析全國新樓盤資料

Python爬取並分析全國新樓盤資料一、選題背景 Q:為什麼選擇選擇此題？隨著網路的迅速發展，全球資訊網成為大量資訊的載體，如何有效地提取並利用這些資訊成為一個巨大的挑戰

Python爬蟲實戰，爬取A股公司資料，簡單分析A股公司並生成詞雲

前言利用Python爬取並簡單分析A股公司資料。讓我們愉塊地開始吧~ 開發工具 Python版本：3.6.4

python3爬取資料至mysql的方法

本文例項為大家分享了python3爬取資料至mysql的具體程式碼，供大家參考，具體內容如下

Python爬取資料並寫入MySQL資料庫的例項

首先我們來爬取 http://html-color-codes.info/color-names/ 的一些資料。按 F12 或 ctrl+u 審查元素，結果如下:

Python3實現的爬蟲爬取資料並存入mysql資料庫操作示例

本文例項講述了Python3實現的爬蟲爬取資料並存入mysql資料庫操作。分享給大家供大家參考，具體如下：

Python大資料之從網頁上爬取資料的方法詳解

本文例項講述了Python大資料之從網頁上爬取資料的方法。分享給大家供大家參考，具體如下：

C#簡單爬取資料（.NET使用HTML解析器NSoup和正則兩種方式匹配資料）

一、獲取資料想弄一個數據庫，由於需要一些人名，所以就去百度一下，然後發現了360圖書館中有很多人名

Python實現爬取並分析電商評論

　　現如今各種APP、微信訂閱號、微博、購物網站等網站都允許使用者發表一些個人看法、意見、態度、評價、立場等資訊。針對這些資料，我們可以利用情感分析技術對其進行分析，總結出大量的有價值資訊。例如對商品評論

提升scrapy爬取資料的效率

方法： - 在配置檔案中進行相關的配置即可:(預設還有一套setting) #1 增加併發：

Python爬取資料並實現視覺化程式碼解析

這次主要是爬了京東上一雙鞋的相關評論：將資料儲存到excel中並可視化展示相應的資訊

Python 爬蟲 - 豆瓣電影Top250

from bs4 import BeautifulSoup#網頁解析，獲取資料 import re#正則表示式，進行文字匹配

Python 爬蟲儲存SQLite - 豆瓣電影Top250

from bs4 import BeautifulSoup#網頁解析，獲取資料 import re#正則表示式，進行文字匹配

python爬取資料並可視化展現

#將excel中的資料進行讀取分析 import openpyxl import matplotlib.pyplot as pit #資料統計用的

scrapy與selenium結合爬取資料(爬取動態網站)的示例程式碼

scrapy框架只能爬取靜態網站。如需爬取動態網站，需要結合著selenium進行js的渲染，才能獲取到動態載入的資料。

通過Python的requests庫爬取資料並儲存為csv檔案

目錄一、選擇資料來源三、整體程式碼實現 4、總結同時推薦前面作者另外兩個系列文章：