Python爬蟲爬取Bilibili彈幕過程解析

阿新 • • 發佈：2020-01-09

先來思考一個問題，B站一個視訊的彈幕最多會有多少？

比較多的會有2000條吧，這麼多資料，B站肯定是不會直接把彈幕和這個視訊綁在一起的。

也就是說，有一個視訊地址為https://www.bilibili.com/video/av67946325，你如果直接去requests.get這個地址，裡面是不會有彈幕的，回想第一篇說到的攜程非同步載入資料的方式，B站的彈幕也一定是先載入當前視訊的介面，然後再非同步填充彈幕的。

接下來我們就可以開啟火狐瀏覽器(平常可以火狐谷歌控制檯都使用，因為谷歌裡面因為外掛被攔截下來的包在火狐可以抓到，同理谷歌也是)的控制檯來觀察網路請求了。

經過仔細排查之後，我找到了一個請求xml的，它後面跟了一個oid，檢視它的響應內容之後可以發現它就是彈幕檔案。

它的響應時間98毫秒，遠超其它幾個響應，所以說如果把彈幕直接放在視訊頁面，使用者體驗一定會很差。

找到彈幕了，爬取它很容易，但是我們想要是爬取固定av號視訊的彈幕，而不是說隨意去找一個oid來爬取彈幕，這樣我們都不知道爬下來的彈幕是哪個視訊的。

接下來我們就可以複製oid的117784982值，去視訊頁面搜尋看看了，通過視訊來獲得它的oid再來爬xml彈幕就很方便了。

這次用了谷歌瀏覽器，在裡面通過搜尋oid果然搜尋到相關的資料了。

其中cid是彈幕對應的id，aid對應視訊av號。

先把這個頁面爬取下來。

# encoding: utf-8

import requests

headers = {
  'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/69.0.3497.100 Safari/537.36','Accept': 'text/html','Cookie': "_uuid=1DBA4F96-2E63-8488-DC25-B8623EFF40E773841infoc; buvid3=FE0D3174-E871-4A3E-877C-A4ED86E20523155831infoc; LIVE_BUVID=AUTO8515670521735348; sid=l765gx48; DedeUserID=33717177; DedeUserID__ckMd5=be4de02fd64f0e56; SESSDATA=cf65a5e0%2C1569644183%2Cc4de7381; bili_jct=1e8cdbb5755b4ecd0346761a121650f5; CURRENT_FNVAL=16; stardustvideo=1; rpdid=|(umY))|ukl~0J'ulY~uJm)kJ; UM_distinctid=16ce0e51cf0abc-02da63c2df0b4b-5373e62-1fa400-16ce0e51cf18d8; stardustpgcv=0606; im_notify_type_33717177=0; finger=b3372c5f; CURRENT_QUALITY=112; bp_t_offset_33717177=300203628285382610"

}
resp = requests.get('https://www.bilibili.com/video/av67946325',headers=headers)
print(resp.text)

拿到了內容我們就要從中解析彈幕id了，對於這種規則紊亂的網頁，我們就不能用上一篇中Bs4解析了，而是使用正則表示式。

正則表示式最簡單的使用方式其實就是直接match。

re.search(匹配規則,文字).group()

觀察這裡的內容，我們大致的匹配規則就有了。

cid={目標}&aid=av號

117784982就是我們的目標。

av_id = '67946325'
resp = requests.get('https://www.bilibili.com/video/av'+av_id,headers=headers)
match_rule = r'cid=(.*?)&aid'
oid = re.search(match_rule,resp.text).group().replace('cid=','').replace('&aid','')
print('oid='+oid)

先根據av號拿到視訊頁面，然後解析視訊頁面拿到oid，最後用oid去請求xml彈幕檔案。

xml_url = 'https://api.bilibili.com/x/v1/dm/list.so?oid='+oid
resp = requests.get(xml_url,headers=headers)
print(resp)

這樣我們就完成B站彈幕爬蟲了。

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支援我們。

Python爬蟲爬取Bilibili彈幕過程解析

先來思考一個問題，B站一個視訊的彈幕最多會有多少？比較多的會有2000條吧，這麼多資料，B站肯定是不會直接把彈幕和這個視訊綁在一起的。

python爬蟲爬取筆趣網小說網站過程圖解

首先：文章用到的解析庫介紹 BeautifulSoup： Beautiful Soup提供一些簡單的、python式的函式用來處理導航、搜尋、修改分析樹等功能。

Python爬蟲爬取部落格實現視覺化過程解析

原始碼： from pyecharts import Bar import re import requests num=0 b=[] for i in range(1,11): link=\'https://www.cnblogs.com/echoDetected/default.html?page=\'+str(i)

記一次python 爬蟲爬取深圳租房資訊的過程及遇到的問題

為了分析深圳市所有長租、短租公寓的資訊，爬取了某租房公寓網站上深圳區域所有在租公寓資訊，以下記錄了爬取過程以及爬取過程中遇到的問題：

Bilibili 爬取歷史彈幕

查詢歷史彈幕 https://api.bilibili.com/x/v2/dm/history 時返回的是 ProtoBuf 格式的資料，需要用 protoc 和 google.protobuf 解析。

Python scrapy增量爬取例項及實現過程解析

這篇文章主要介紹了Python scrapy增量爬取例項及實現過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python爬蟲爬取煎蛋網圖片程式碼例項

這篇文章主要介紹了Python爬蟲爬取煎蛋網圖片程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

python爬蟲爬取幽默笑話網站

爬取網站為：http://xiaohua.zol.com.cn/youmo/ 檢視網頁機構，爬取笑話內容時存在如下問題：

python協程gevent案例爬取鬥魚圖片過程解析

分析分析網站尋找需要的網址用谷歌瀏覽器摁F12開啟開發者工具，然後開啟鬥魚顏值分類的頁面，如圖：

python爬蟲爬取監控教務系統的思路詳解

這幾天考了大大小小几門課，教務系統又沒有成績通知功能，為了急切想知道自己掛了多少門，於是我寫下這個指令碼。

Python爬蟲爬取電影票房資料及圖表展示操作示例

本文例項講述了Python爬蟲爬取電影票房資料及圖表展示操作。分享給大家供大家參考，具體如下：

Python爬蟲爬取、解析資料操作示例

本文例項講述了Python爬蟲爬取、解析資料操作。分享給大家供大家參考，具體如下：

Python爬蟲爬取杭州24時溫度並展示操作示例

本文例項講述了Python爬蟲爬取杭州24時溫度並展示操作。分享給大家供大家參考，具體如下：

Python爬蟲爬取百度搜索內容程式碼例項

這篇文章主要介紹了Python爬蟲爬取百度搜索內容程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python爬蟲爬取新聞資訊案例詳解

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

Python爬蟲爬取糗事百科段子例項分享

大家好，前面入門已經說了那麼多基礎知識了，下面我們做幾個實戰專案來挑戰一下吧。那麼這次為大家帶來，Python爬取糗事百科的小段子的例子。

Python爬蟲爬取微信朋友圈

接下來，我們將實現微信朋友圈的爬取。如果直接用 Charles 或 mitmproxy 來監聽微信朋友圈的介面資料，這是無法實現爬取的，因為資料都是被加密的。而 Appium 不同，Appium 作為一個自動化測試工具可以直接模擬 App

python爬蟲-爬取百度圖片

python爬蟲-爬取百度圖片（轉） #!/usr/bin/python# coding=utf-8# 作者:Y0010026# 建立時間:2018/12/16 16:16# 檔案:spider_04.py# IDE:PyCharm# 爬取百度圖片（GET方式爬取Ajax資料）import urllib2url = \'http:/

Python爬蟲爬取中國古詩詞網上的名句

執行截圖： 1 import requests 2 from lxml import etree 3 from urllib import request 4 5 # 全域性變數（請求頭+檔案IO物件）

python爬蟲爬取網頁資料並解析資料

1.網路爬蟲的基本概念網路爬蟲（又稱網路蜘蛛，機器人），就是模擬客戶端傳送網路請求，接收請求響應，一種按照一定的規則，自動地抓取網際網路資訊的程式。

Python爬蟲爬取Bilibili彈幕過程解析

相關推薦