1. 程式人生 > >Python爬蟲為何可以這麽叼?爬取百度雲盤資源!並保存到自己雲盤

Python爬蟲為何可以這麽叼?爬取百度雲盤資源!並保存到自己雲盤

源碼下載 表達 har .cn bdb 裏的 image AC 賬號登錄

技術分享圖片

技術分享圖片

點擊它,再點擊右邊的【Cookies】就可以看到請求頭裏的 cookie 情況。

cookie分析

技術分享圖片

技術分享圖片

除了上面說到的兩個 cookie ,其他的請求頭參數可以參照手動轉存時抓包的請求頭。這兩個 cookie 預留出來做參數的原因是 cookie 都是有生存周期的,過期了需要更新,不同的賬號登錄也有不同的 cookie 。

參數分析

接下來分析參數,點擊【Cookies】右邊的【Params】查看參數情況。如下:

技術分享圖片

技術分享圖片

技術分享圖片

爬取shareid、from、filelist,發送請求轉存到網盤

技術分享圖片

以上面這個資源鏈接為例(隨時可能被河蟹,但是沒關系,其他鏈接的結構也是一樣的),我們先用瀏覽器手動訪問,F12 打開控制臺先分析一下源碼,看看我們要的資源信息在什麽地方。控制臺有搜索功能,直接搜 “shareid”。

定位到4個shareid,前三個與該資源無關,是其他分享資源,最後一個定位到該 html 文件的最後一個標簽塊裏。雙擊後可以看到格式化後的 js 代碼,可以發現我們要的信息全都在裏邊。如下節選:

技術分享圖片

技術分享圖片

可以看到這兩行

技術分享圖片

技術分享圖片

yunData.FILEINFO 結構如下,你可以將它復制粘貼到json.cn裏,可以看得更清晰。

技術分享圖片

清楚了這三個參數的位置,我們就可以用正則表達式進行提取了。代碼如下:

技術分享圖片

技術分享圖片

爬取到了這三個參數,就可以調用之前的 transfer 方法進行轉存了。.

進群:125240963即可獲取源碼下載地址哦!

技術分享圖片

Python爬蟲為何可以這麽叼?爬取百度雲盤資源!並保存到自己雲盤