爬取嗶哩嗶哩彈幕製作詞雲

阿新 • • 發佈：2018-11-16

爬取嗶哩嗶哩的彈幕，http://comment.bilibili.com/6315651.xml

需要知道cid,可以F12,F5重新整理，找cid，找到之後拼接url

也可以寫程式碼，解析response獲取cid,然後再拼接

使用requests或者urllib都可以

我是用requests，請求該連結獲取到xml檔案

程式碼：獲取xml

def get_data():
    res = requests.get('http://comment.bilibili.com/6315651.xml')
    res.encoding = 'utf8'
    with open('gugongdanmu.xml', 'a', encoding='utf8') as f:
        f.writelines(res.text)

解析xml,

def analyze_xml():
    f1 = open("gugongdanmu.xml", "r", encoding='utf8')
    f2 = open("tanmu2.txt", "w", encoding='utf8')
    count = 0
    # 正則匹配解決xml的多餘的字元
    dr = re.compile(r'<[^>]+>', re.S)
    while 1:
        line = f1.readline()
        if not line:
            break
        pass
        # 匹配到之後用空代替
        dd = dr.sub('', line)
        # dd = re.findall(dr, line)
        count = count+1
        f2.writelines(dd)
    print(count)

去掉無用的字元和數字，找出所有的漢字

def analyze_hanzi():

    f1 = open("tanmu2.txt", "r", encoding='utf8')
    f2 = open("tanmu3.txt", "w",  encoding='utf8')
    count = 0
    # dr = re.compile(r'<[^>]+>',re.S)
    # 所有的漢字[一-龥]
    dr = re.compile(r'[一-龥]+',re.S)
    while 1:
        line = f1.readline()
        if not line:
            break
        pass
        # 找出無用的符號和數字
        # dd = dr.sub('',line)
        dd = re.findall(dr, line)
        count = count+1
        f2.writelines(dd)
    print(count)
    # pattern = re.compile(r'[一-龥]+')

使用jieba分詞，生成詞雲

def show_sign():

    content = read_txt_file()
    segment = jieba.lcut(content)
    words_df = pd.DataFrame({'segment': segment})

    stopwords = pd.read_csv("stopwords.txt", index_col=False, quoting=3, sep=" ", names=['stopword'], encoding='utf-8')
    words_df = words_df[~words_df.segment.isin(stopwords.stopword)]
    print(words_df)
    print('-------------------------------')
    words_stat = words_df.groupby(by=['segment'])['segment'].agg(numpy.size)
    words_stat = words_stat.to_frame()
    words_stat.columns = ['計數']
    words_stat = words_stat.reset_index().sort_values(by=["計數"], ascending=False)

    # 設定詞雲屬性
    color_mask = imread('ciyun.png')
    wordcloud = WordCloud(font_path="simhei.ttf",  # 設定字型可以顯示中文
                          background_color="white",  # 背景顏色
                          max_words=1000,  # 詞雲顯示的最大詞數
                          mask=color_mask,  # 設定背景圖片
                          max_font_size=100,  # 字型最大值
                          random_state=42,
                          width=1000, height=860, margin=2,
                          # 設定圖片預設的大小,但是如果使用背景圖片的話,                                                   # 那麼儲存的圖片大小將會按照其大小儲存,margin為詞語邊緣距離
                          )

    # 生成詞雲, 可以用generate輸入全部文字,也可以我們計算好詞頻後使用generate_from_frequencies函式
    word_frequence = {x[0]: x[1] for x in words_stat.head(1000).values}
    print(word_frequence)
    # for key,value in word_frequence:
    #     write_txt_file(word_frequence)
    word_frequence_dict = {}
    for key in word_frequence:
        word_frequence_dict[key] = word_frequence[key]

    wordcloud.generate_from_frequencies(word_frequence_dict)
    # 從背景圖片生成顏色值
    image_colors = ImageColorGenerator(color_mask)
    # 重新上色
    wordcloud.recolor(color_func=image_colors)
    # 儲存圖片
    wordcloud.to_file('output.png')
    plt.imshow(wordcloud)
    plt.axis("off")
    plt.show()

執行程式，結果：

統計的結果

完成！

pip的換源，原來的太慢，然後將你自己沒有庫裝上

爬取嗶哩嗶哩彈幕製作詞雲

爬取嗶哩嗶哩的彈幕，http://comment.bilibili.com/6315651.xml 需要知道cid,可以F12,F5重新整理，找cid，找到之後拼接url 也可以寫程式碼，解析response獲取cid,然後再拼接使用requests或者u

爬取bilibili彈幕製作詞雲

最近有部劇的片花看的很燃，正好我又是主演的fans，於是手癢忍不住把該片的彈幕爬取下來做個詞雲玩一玩。看到裡面得“cid=16496518&aid=9979006&pre_ad=0”了麼，其中的cid那就是我們要找的彈幕入口，開啟http

【Python3爬蟲】我爬取了七萬條彈幕，看看RNG和SKT打得怎麼樣

一、寫在前面　　直播行業已經火熱幾年了，幾個大平臺也有了各自獨特的“彈幕文化”，不過現在很多平臺直播比賽時的彈幕都基本沒法看的，主要是因為網路上的噴子還是挺多的，尤其是在觀看比賽的時候，很多彈幕不是噴選手就是噴戰隊，如果看了這種彈幕，真是讓比賽減分不少。　　　　但和別的平臺

爬取拉鉤崗位資訊生成圖表和詞雲

1.環境準備 py版本：python3.6.7 需要使用的包列表檔案： requirements.txt certifi==2018.10.15 chardet==3.0.4 cycler==0.10.0 idna==2.7 jieba==0.39 kiwisolver==1.0.1

爬取簡書網30日熱門得到詞雲

這幾天在看《從零開始學python網路爬蟲》，裡面有一章是爬取簡書網7天熱門，不過我在開啟簡述網七天熱門的時候發現壓根就只有一頁（可能連一頁都不到。。。），之後感覺不夠難度就改而選擇爬取30天熱門。 1.連結分析首先，簡書網30天熱門的第一個連結是：https://www.jianshu.

爬取簡書網30日熱門得到詞雲續

前面所使用的jieba分詞中，是自行收集一些不重要的詞進行過濾的，效率不是很高，並且帶有比較大的主觀性（算是優點，也算是缺點）。本次則改為使用中文停用詞表來過濾一些詞語。程式碼相對於上一節來說變化的主要是analysis.py 中的analysis函式。程式碼大致如下： import

Python爬取豆瓣電影的短評資料並進行詞雲分析處理

前言對於爬蟲很不陌生，而爬蟲最為經典的案例就是爬取豆瓣上面的電影資料了，今天小編就介紹一下如果爬取豆瓣上面電影影評，以《我不是藥神》為例。基本環境配置版本：Python3.6 系統：Windows 本人對於Python學習建立了一個小小的學習圈子，為各位提供了

1] python 爬取微信好友個性簽名，生成詞雲

在Anaconda下完成，參考https://blog.csdn.net/zhonglixianyun/article/details/78229782結果圖：1. 需要的庫 numpy， os， itchat, wordcloud, jieba, 1) 安裝itchat

Python爬取《三國演義》並且製作詞雲

前提廢話之前關注了一個python的公眾號，每天都會推送文章，每次看都會看到他有使用wordcloud這個庫來生成好看的詞雲，於是乎，我就學習了jieba分詞和wordcloud詞雲。這裡給win系統的小夥伴提示下，如果你的pip install w

用python 抓取B站視頻評論，制作詞雲

port mil query 雲圖 ges cal 爬取 close hid python 作為爬蟲利器，與其有很多強大的第三方庫是分不開的，今天說的爬取B站的視頻評論，其實重點在分析得到的評論化作嵌套的字典，在其中取出想要的內容。層層嵌套，眼花繚亂，分析時應細致！步驟分為

10分鐘教你用Python玩轉微信之抓取好友個性簽名製作詞雲

01 前言+展示各位小夥伴我又來啦。今天帶大家玩點好玩的東西，用Python抓取我們的微信好友個性簽名，然後製作詞雲。怎樣，有趣吧~好了，下面開始幹活。我知道你們還是想先看看效果的。後臺登入：詞雲： 02 環境準備 Python版本：3.6.0系統平臺：W

嗶哩嗶哩彈幕api查詢

嗶哩嗶哩彈幕api查詢以那年那兔那些事為例：由於B站彈幕庫一次只能顯示一千條，要進行輿論分析要進行所有的彈幕分析，所以先找一找有沒有可以利用的api 開啟網頁F12開啟開發者模式點到network頁面，什麼都沒有，沒關係，ctrl+R重新整理一下頁面就有了。這麼多東西怎

【爬蟲工具】嗶哩嗶哩外掛姬（bilibili-plugin）

完整原文（含原始碼）：http://exp-blog.com/2018/09/09/pid-2223/ （轉載請註明出處，僅供分享學習，嚴禁用於商業用途）宣告寫這個外掛純粹是出於學習目的，此博文主要作用是功能展示之後會圍繞這個外掛，寫一個系

嗶哩嗶哩動畫(BiliBili) v5.33.3去廣告版

嗶哩嗶哩彈幕網(http://www.bilibili.tv) – 國內知名的視訊彈幕網站，擁有網際網路上最及時動漫新番，最棒的ACG氛圍，最有創意的Up主，常被動漫迷們暱稱為bilibili，”B站”。嗶哩嗶哩動畫是來自嗶哩嗶哩彈幕網的官方手機客戶端，網站視訊來自使用者創作或搬運，不同

Python爬取B站彈幕的思路和流程

做nlp專案，除了各大電商評論和微博資料，彈幕分析對於輿論和該視訊的推廣都是有幫助的，下面主要說說這麼從B站爬取彈幕。過程很簡單，我們來看看： 1. 首先，bilibili的彈幕是在xml檔案裡，每個視訊都有其對應的cid和aid，我們取到cid中的數字放入http://comment

鬥魚彈幕資料爬取

鬥魚彈幕資料抓取主要參考鬥魚的文件 dev-bbs.douyutv.com/forum.php?m… 建立連線通過socket與彈幕伺服器建立連線第三方接入彈幕伺服器列表： IP 地址： openbarrage.douyutv.com 埠： 8601 複製程式碼傳送訊息協

2018-9-21 嗶哩嗶哩筆試程式設計題

22娘和33娘接到了小電視君的扭蛋任務：一共有兩臺扭蛋機，編號分別為扭蛋機2號和扭蛋機3號，22娘使用扭蛋機2號，33娘使用扭蛋機3號。扭蛋機都不需要投幣，但有一項特殊能力：扭蛋機2號：如果塞x（x範圍為>=0正整數）個扭蛋進去，然後就可以扭到2x+1個

嗶哩嗶哩2019.9.21筆試題——扭蛋機（堆的思想解決）

一、題目：扭蛋機甲乙倆人剛開始都沒有蛋，甲扭2號機，乙扭3號機。（1）扭蛋機的規則： 2號扭蛋機：2x+1 3號扭蛋機：2x+2 eg: 如果甲剛開始沒有蛋，扭一下2號機，獲得2*0+1=1顆蛋。

嗶哩嗶哩2018.9.21筆試紅茶

題目描述大小姐每天要喝m的量的紅茶，而且每天要把m的量分成兩次來喝。女僕長手裡有很多杯不同量的紅茶。輸出所有滿足m的量的紅茶組合方案，並且按照組合中的第一杯紅茶排序輸出。輸入輸出：第一行代表紅

嗶哩嗶哩2018.9.21筆試小A最多會新認識多少人

題目描述小A參加一個n人的活動，每個人都有一個編號（0<=i<=n-1），其中有m對相互認識，在活動中兩個人可以通過互相都認識都認識的一個人介紹認識。現在問活動結束後，小A最多會新認識多少人？輸入: 第一行是聚會人數n 第二行是小A的編號a 接下

爬取嗶哩嗶哩彈幕製作詞雲

相關推薦