1. 程式人生 > >小白福利貼:18個Python爬蟲實戰案例(已開源)

小白福利貼:18個Python爬蟲實戰案例(已開源)

加qq群813622576或vx:tanzhouyiwan免費獲取Python視訊教程以及各類PDF!

爬蟲小工具

  • downloader.py:檔案下載小助手

一個可以用於下載圖片、視訊、檔案的小工具,有下載進度顯示功能。稍加修改即可新增到自己的爬蟲中。

動態示意圖:

乾貨|18個Python爬蟲實戰案例(已開源)

爬蟲實戰

1、biqukan.py:《筆趣看》盜版小說網站,爬取小說工具

第三方依賴庫安裝:

pip3 install beautifulsoup4

使用方法:

python biqukan.py

2、video_downloader:愛奇藝等主流視訊網站的VIP視訊破解助手(暫只支援PC和手機線上觀看VIP視訊!)

感謝Python3二維碼生成器作者:https://github.com/sylnsfar/qrcode

編譯好的軟體下載連線:https://pan.baidu.com/s/1bqSTNJL 密碼:p8bs

解壓密碼:cuijiahua.com

無需Python3環境,在Windows下,解壓即用!軟體使用方法

原始碼可檢視video_downloader,執行原始碼需要搭建Python3環境,並安裝相應第三方依賴庫:

video_downloader資料夾下,安裝第三方依賴庫:

pip3 install -r requirements.txt

使用方法:

python movie_downloader.py

執行環境:

  • Windows, Python3

  • Linux, Python3

  • Mac, Python3

3、baiduwenku.py:百度文庫word文章爬取

4、shuaia.py:爬取《帥啊》網,帥哥圖片

第三方依賴庫安裝:

pip3 install requests beautifulsoup4

5、daili.py:構建代理IP池

6、carton:使用Scrapy爬取《火影忍者》漫畫

程式碼可以爬取整個《火影忍者》漫畫所有章節的內容,儲存到本地。更改地址,可以爬取其他漫畫。儲存地址可以在settings.py中修改。

動漫網站:http://comic.kukudm.com/

7、hero.py:《王者榮耀》推薦出裝查詢小助手

網頁爬取已經會了,想過爬取手機APP裡的內容嗎?

8、financical.py: 財務報表下載小助手

爬取的資料存入資料庫會嗎?《跟股神巴菲特學習炒股之財務報表入庫(MySQL)》也許能給你一些思路。

動態示意圖:

乾貨|18個Python爬蟲實戰案例(已開源)

9、one_hour_spider:一小時入門Python3網路爬蟲。

原理說明:

本次實戰內容有:

  • 網路小說下載(靜態網站)-biqukan

  • 優美桌布下載(動態網站)-unsplash

  • 愛奇藝VIP視訊下載

10、douyin.py:抖音App視訊下載

抖音App的視訊下載,就是普通的App爬取。

11、douyin_pro:抖音App視訊下載(升級版)

抖音App的視訊下載,新增視訊解析網站,支援無水印視訊下載,使用第三方平臺解析。

12、douyin_pro_2:抖音App視訊下載(升級版2)

抖音App的視訊下載,新增視訊解析網站,支援無水印視訊下載,通過url解析,無需第三方平臺。

乾貨|18個Python爬蟲實戰案例(已開源)

13、geetest.py:GEETEST驗證碼破解

爬蟲最大的敵人之一是什麼?沒錯,驗證碼!Geetest作為提供驗證碼服務的行家,市場佔有率還是蠻高的。遇到Geetest提供的滑動驗證碼怎麼破?授人予魚不如授人予漁,接下來就為大家呈現本教程的精彩內容。

動態示意圖:

乾貨|18個Python爬蟲實戰案例(已開源)

14、12306.py:用Python搶火車票簡單程式碼

可以自己慢慢豐富,蠻簡單,有爬蟲基礎很好操作,沒有原理說明。

15、baiwan:百萬英雄輔助答題

效果圖:

乾貨|18個Python爬蟲實戰案例(已開源)

功能介紹:

  • 伺服器端,使用Python(baiwan.py)通過抓包獲得的介面獲取答題資料,解析之後通過百度知道搜尋介面匹配答案,將最終匹配的結果寫入檔案(file.txt)。

  • 手機抓包不會的朋友,可以看下我的早期手機APP抓包教程。

  • Node.js(app.js)每隔1s讀取一次file.txt檔案,並將讀取結果通過socket.io推送給客戶端(index.html)。

  • 親測答題延時在3s左右。

  • 宣告:沒做過後端和前端,花了一天時間,現學現賣弄好的,javascript也是現看現用,百度的程式,除錯除錯而已。可能有很多用法比較low的地方,用法不對,請勿見怪,有大牛感興趣,可以自行完善。

16、Netease:根據歌單下載網易雲音樂

效果圖:

乾貨|18個Python爬蟲實戰案例(已開源)

功能介紹:根據music_list.txt檔案裡的歌單的資訊下載網易雲音樂,將自己喜歡的音樂進行批量下載。

17、bilibili:B站視訊和彈幕批量下載

使用說明:

python bilibili.py -d 貓 -k 貓 -p 10

三個引數:

-d 儲存視訊的資料夾名

-k B站搜尋的關鍵字

-p 下載搜尋結果前多少頁