爆雷,抖音視訊被曝,我連夜爬了微博評論,結果。。。
阿新 • • 發佈:2019-12-31
昨天娛樂圈又又又爆雷了,lixiaolu 和 pg1 的抖音視訊瘋傳網路,看來嫂子就要成內子了。
警告:本教程僅用作學習交流,請勿用作商業盈利,違者後果自負!如本文有侵犯任何組織集團公司的隱私或利益,請告知聯絡刪除!!!
挺好的,這很 pg1 啊
今天我們作為純正的吃瓜群眾,怎麼能不來圍觀下呢,還是到娛樂聖地“微博”搞起,不管它裡面到底有多少xujia流量,反正我估計罵人的流量不會太假,啊哈哈哈哈
我們使用的爬取工具還是前面文章提到的微博輪子,具體的使用方法可以檢視這裡
而我們爬取的微博就是“娛樂有飯”最新發的那個視訊,如果你還沒看,建議在飯前觀看!
我們先來簡單看下這篇微博下的盛況吧
親情演繹型
哈哈,說過要飯前觀看嘍
暴躁粗口型
說實在的,出不出娛樂圈和我們瓜民有啥關係?
淡定吃瓜型
沒事兒,生活那麼平淡,不來點瓜怎麼過的去呢
詩情畫意型
騷年,要是在唐朝,你肯定賽過李太白啊!
最後,一圖勝千言,看盡人間百態
不過這麼看,畢竟只能看到一小部分,下面就通過微博輪子,抓取該微博下所有的評論,看看廣大群眾們的吃瓜能量。
我們通過程式,可以成功抓取對應的評論資訊,並得到一個 csv 檔案,裡面的內容如下
接下來就是通過 jieba 做分詞,然後生成詞雲
import jieba
import pandas as pd
from wordcloud import WordCloud
import numpy as np
from PIL import Image
font = r'C:\Windows\Fonts\FZSTK.TTF'
STOPWORDS = {"回覆",}
def wordcloud(file,name,pic=None):
df = pd.read_csv(file,usecols=[1])
df_copy = df.copy()
df_copy['comment'] = df_copy['comment'].apply(lambda x: str(x).split()) # 去掉空格
df_list = df_copy.values.tolist()
comment = jieba.cut(str(df_list),cut_all=False)
words = ' ' .join(comment)
img = Image.open(pic)
img_array = np.array(img)
wc = WordCloud(width=2000,height=1800,background_color='white',font_path=font,mask=img_array,stopwords=STOPWORDS,contour_width=3,contour_color='steelblue')
wc.generate(words)
wc.to_file(name + '.png')
if __name__ == '__main__':
wordcloud("1572486436comment.csv","lixiaolu2",'xinsui.jpg')
複製程式碼
我們得到詞雲圖如下
可以看到,在評論的高頻詞彙中,孩子佔比還是蠻高的,確實,無論如何孩子都是無辜的,事情到了這個地步,保護好孩子才是最重要的。至於到底是做嫂子還是做內子,who care?
最後我又開啟了亮哥的微博,心疼,保重!