1. 程式人生 > 程式設計 >爆雷,抖音視訊被曝,我連夜爬了微博評論,結果。。。

爆雷,抖音視訊被曝,我連夜爬了微博評論,結果。。。

昨天娛樂圈又又又爆雷了,lixiaolu 和 pg1 的抖音視訊瘋傳網路,看來嫂子就要成內子了。

警告:本教程僅用作學習交流,請勿用作商業盈利,違者後果自負!如本文有侵犯任何組織集團公司的隱私或利益,請告知聯絡刪除!!!

挺好的,這很 pg1 啊

今天我們作為純正的吃瓜群眾,怎麼能不來圍觀下呢,還是到娛樂聖地“微博”搞起,不管它裡面到底有多少xujia流量,反正我估計罵人的流量不會太假,啊哈哈哈哈

我們使用的爬取工具還是前面文章提到的微博輪子,具體的使用方法可以檢視這裡

輪子文章

而我們爬取的微博就是“娛樂有飯”最新發的那個視訊,如果你還沒看,建議在飯前觀看!

我們先來簡單看下這篇微博下的盛況吧

親情演繹型

哈哈,說過要飯前觀看嘍

暴躁粗口型

說實在的,出不出娛樂圈和我們瓜民有啥關係?

淡定吃瓜型

沒事兒,生活那麼平淡,不來點瓜怎麼過的去呢

詩情畫意型

騷年,要是在唐朝,你肯定賽過李太白啊!

最後,一圖勝千言,看盡人間百態

不過這麼看,畢竟只能看到一小部分,下面就通過微博輪子,抓取該微博下所有的評論,看看廣大群眾們的吃瓜能量。

我們通過程式,可以成功抓取對應的評論資訊,並得到一個 csv 檔案,裡面的內容如下

接下來就是通過 jieba 做分詞,然後生成詞雲

import jieba
import pandas as pd
from wordcloud import WordCloud
import numpy as np
from PIL import Image


font = r'C:\Windows\Fonts\FZSTK.TTF'
STOPWORDS = {"回覆",} def wordcloud(file,name,pic=None): df = pd.read_csv(file,usecols=[1]) df_copy = df.copy() df_copy['comment'] = df_copy['comment'].apply(lambda x: str(x).split()) # 去掉空格 df_list = df_copy.values.tolist() comment = jieba.cut(str(df_list),cut_all=False) words = ' '
.join(comment) img = Image.open(pic) img_array = np.array(img) wc = WordCloud(width=2000,height=1800,background_color='white',font_path=font,mask=img_array,stopwords=STOPWORDS,contour_width=3,contour_color='steelblue') wc.generate(words) wc.to_file(name + '.png') if __name__ == '__main__': wordcloud("1572486436comment.csv","lixiaolu2",'xinsui.jpg') 複製程式碼

我們得到詞雲圖如下

可以看到,在評論的高頻詞彙中,孩子佔比還是蠻高的,確實,無論如何孩子都是無辜的,事情到了這個地步,保護好孩子才是最重要的。至於到底是做嫂子還是做內子,who care?

最後我又開啟了亮哥的微博,心疼,保重!