Python爬蟲，帶你製作高逼格的資料聚合雲圖

阿新 • • 發佈：2020-11-30

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

以下文章來源於搜狗網作者：python漲薪研究所

( 想要學習Python？Python學習交流群：1039649593，滿足你的需求，資料都已經上傳群檔案流，可以自行下載！還有海量最新2020python學習資料。 )

一時興起，想用Python爬爬自己的部落格，通過資料聚合，製作高逼格的雲圖(對詞彙出現頻率視覺上的展示)，看看最近我到底寫了啥文章。

一、直接上幾張我的部落格資料的雲圖

1.1 爬取文章的標題的聚合

1.2 爬取文章的摘要的聚合

1.3 爬取文章的標題+摘要的聚合

我最近寫了SpringCloud系列教程，還有一些微服務架構方面，從雲圖上看，基本吻合。你若不信，可以進我的部落格看看，資料還是非常準確的

二、技術棧

開發工具: pycharm

爬蟲技術：bs64、requsts、jieba

分析工具：wordArt

三、爬蟲構架設計

整個爬蟲架構非常簡單：

爬取我的部落格：https://mp.csdn.net/console/article

獲取資料

將資料用“結巴”庫，分詞。

將得到的資料在在artword上製作雲圖。

將製作出來的雲圖展示給使用者。

四、具體實現

先根據部落格地址爬去資料：

url = 'http://blog.csdn.net/forezp'   titles=set()   

def download(url):   
    if url is None:   
        return None   
    try:   
        response = requests.get(url, headers={   
            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36 
',   
        })   
        if (response.status_code == 200):   
            return response.content   
        return None   
    except:   
        return None

解析標題

def parse_title(html):   
    if html is None:   
        return None   
    soup = BeautifulSoup(html, "html.parser")   
    links = soup.find_all('a', href=re.compile(r'/forezp/article/details'))   
    for link in links:   

        titles.add(link.get_text())

解析摘要：

def parse_descrtion(html):   
    if html is None:   
        return None   
    soup=BeautifulSoup(html, "html.parser")   
    disciptions=soup.find_all('div',attrs={'class': 'article_description'})   
    for link in disciptions:   

        titles.add(link.get_text())

用“結巴”分詞，”激8”分詞怎麼用，看這裡：https://github.com/fxsjy/jieba/

def jiebaSet():   
    strs=''   
    if titles.__len__()==0:   
        return   
    for item in titles:   
        strs=strs+item;   

    tags = jieba.analyse.extract_tags(strs, topK=100, withWeight=True)   
    for item in tags:   
        print(item[0] + '\t' + str(int(item[1] * 1000)))

因為資料比較少，所以我直接列印在控制檯，並把它複製下來，更好的方法是存在MongoDB中。
製作雲圖：

用 artword線上工具，地址：https://wordart.com

首先：

匯入從控制檯複製過來的資料：

令人尷尬的是，這個網站在繪製圖的時候不支援中文，需要你從c:/windows/fonts下選擇一個支援中文的字型，mac 使用者從windows拷下資料夾也可以，或者在網上下。

然後點選Visulize就可以生成高逼格的雲圖了。講解完畢，有什麼需要改進的請大家留言。

Python爬蟲，帶你製作高逼格的資料聚合雲圖

一、直接上幾張我的部落格資料的雲圖

二、技術棧

三、爬蟲構架設計

四、具體實現

Python爬蟲，帶你製作高逼格的資料聚合雲圖

用Python製作高逼格數學動畫manim

圖文並茂，帶你認識 JVM 執行時資料區

python爬蟲- 爬取幽默笑話網站，帶你一起笑翻天

講了這麼多關於python爬蟲，今天帶你回顧ython爬蟲知識

不到100行程式碼，精簡貪吃蛇，帶你入門python

你說要你想玩爬蟲，但你說你不懂Python正則表示式，我信你個鬼，那你還不來看看？

看完這份高併發實戰筆記，帶你走入華為18級大牛眼中的並行世界

使用 Python爬蟲-- 一鍵下載B站視訊，讓你瞭解B站程式碼資料

從零到熟悉，帶你掌握Python len() 函式的使用

【Python爬蟲】新發現一個高質量跳舞視訊網站爬一下試試，男生都喜歡

手摸手，帶你探究Javascript非同步程式設計

圖文並茂，帶你瞭解SQL更新的過程

java面試題——對於多型你是怎麼理解的呢？不一樣的角度，帶你重新看java

DevExpress Winforms介面開發，帶你瞭解Visual Studio Palette Editor！

Wireshark抓包，帶你快速入門

python爬蟲，狂爬各種導航網站並分類

YApi——手摸手，帶你在Win10環境下安裝YApi視覺化介面管理平臺

拓展python爬蟲，男生都喜歡的爬蟲案例！

Python爬蟲，京東商品詳情爬取！

Python爬蟲，帶你製作高逼格的資料聚合雲圖

一、直接上幾張我的部落格資料的雲圖

二、技術棧

三、爬蟲構架設計

四、具體實現

相關推薦