Python爬蟲實戰之研招專業目錄抓取

阿新 • • 發佈：2020-10-12

今天給大家分享一個實戰專案，利用 Scrapy 框架抓取研招網的招生目錄資訊。包括各個招生單位的所有招生專業資訊以及考試課程資訊等，最終效果如下。（相關原始碼等資源，可關注公眾號：手把手教你學程式設計，回覆yanzhao，即可獲取）

首先給大家簡單介紹下Scrapy框架以及它的安裝。Scrapy是適用於Python的一個快速、高層次的螢幕抓取和web抓取框架，用於抓取web站點並從頁面中提取結構化的資料，整體架構如下：

主要的元件及其作用如下：

引擎(Scrapy Engine)：框架的核心，用於整個系統的資料流處理,觸發事務等；

排程器(Scheduler)：用於接受引擎傳送的請求,壓入佇列中,並在引擎再次請求時返回.可以看成是網址的優先佇列,由它決定下一個要抓取的網址是什麼，去除重複的網址；

下載器(Downloader)：用於下載網頁內容,並將網頁內容返回給蜘蛛，Scrapy下載器建立在twisted這個高效的非同步模型上；

爬蟲(Spiders)：用於從響應的結果中提取使用者想要的資訊，即所謂的實體Item。使用者也可以從中提取出網址,讓Scrapy繼續抓取下一個網址；

專案管道(Pipeline)：負責處理爬蟲從網頁中抽取的實體，主要是持久化實體例如儲存到資料庫中、驗證實體的有效性、清除不需要的資訊；
下載器中介軟體(Downloader Middlewares)：位於Scrapy引擎和下載器之間的框架，用於處理Scrapy引擎與下載器之間的請求及響應；

爬蟲中介軟體

(Spider Middlewares)：介於Scrapy引擎和爬蟲之間的框架，用於處理蜘蛛的響應輸入和請求輸出。

排程中介軟體(SchedulerMiddewares)：介於Scrapy引擎和排程之間的中介軟體，從Scrapy引擎傳送到排程的請求和響應。

這些元件是如何協同工作的呢？Scrapy執行流程如下：

引擎從排程器中取出一個網址用於接下來的頁面抓取；
引擎把URL封裝成一個請求(Request)傳給下載器；
下載器把資源下載下來，並封裝成響應包(Response)傳給Spider；
爬蟲解析Response內容，解析出實體（Item）,則交給實體管道進行進一步的處理；解析出連結（URL）,則把URL交給排程器等待抓取；

Python標準庫中預設並不包含Scrapy框架，需要自己安裝，Windows下Scrapy的安裝如下：

安裝wheel

pip install wheel

安裝twisted（建議離線安裝）

pip install twisted

安裝pywin32

pip install pywin32

安裝scrapy

pip install scrapy

注意：twisted線上安裝經常會失敗，建議離線安裝，此外，也可以藉助第三方軟體如Anaconda直接安裝scrapy,會自動下載安裝相關包。

研招網碩士招生目錄分析

Python爬蟲實戰之研招專業目錄抓取

今天給大家分享一個實戰專案，利用 Scrapy 框架抓取研招網的招生目錄資訊。包括各個招生單位的所有招生專業資訊以及考試課程資訊等，最終效果如下。（相關原始碼等資源，可關注公眾號：手把手教你學程式設計

python爬蟲實戰之爬取任意百度圖片（升級版）

技術標籤：python的學習之旅python百度爬蟲 python爬蟲實戰之爬取任意百度圖片（升級版）

Python爬蟲實戰：自動化登入網站，爬取商品資料

前言隨著網際網路時代的到來，人們更加傾向於網際網路購物。某東又是電商行業的巨頭，在某東平臺中有很多商家資料。今天帶大家使用python+selenium工具獲取這些公開的商家資料

Python爬蟲實戰，openpyxl模組學習，爬取房價資訊並簡單的資料分析

前言利用Python爬取房價資訊並進行簡單的資料分析 Ok，讓我們開始吧~~~ 開發工具

Python爬蟲實戰，requests+xlwt模組，爬取螺螄粉商品資料（附原始碼）

前言今天給大家介紹的是Python爬取螺螄粉商品資料，在這裡給需要的小夥伴們程式碼，並且給出一點小心得。

Python爬蟲實戰，requests+openpyxl模組，爬取手機商品資訊資料（附原始碼）

前言今天給大家介紹的是Python爬取手機商品資訊資料，在這裡給需要的小夥伴們程式碼，並且給出一點小心得。

Python爬蟲實戰詳解：爬取圖片之家

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Python爬蟲實戰案例之爬取喜馬拉雅音訊資料詳解

前言喜馬拉雅是專業的音訊分享平臺，彙集了有聲小說,有聲讀物,有聲書,FM電臺,兒童睡前故事,相聲小品,鬼故事等數億條音訊，我最喜歡聽民間故事和德雲社相聲集，你呢？

Python爬蟲實戰，DecryptLogin模組，Python模擬登入之生成QQ個人專屬報告

前言這次我們藉助自己開源的DecryptLogin庫做一件有趣的事，生成QQ個人專屬報告。

爬蟲實戰之Scrapy模擬登陸

想爬取網站資料？先登入網站！對於大多數大型網站來說，想要爬取他們的資料，第一道門檻就是登入網站。下面請跟隨我的步伐來學習如何模擬登陸網站。

python爬蟲開發之Beautiful Soup模組從安裝到詳細使用方法與例項

python爬蟲模組Beautiful Soup簡介簡單來說，Beautiful Soup是python的一個庫，最主要的功能是從網頁抓取資料。官方解釋如下： Beautiful Soup提供一些簡單的、python式的函式用來處理導航、搜尋、修改分析樹等功能

python爬蟲開發之Request模組從安裝到詳細使用方法與例項全解

python爬蟲模組Request的安裝在cmd中，使用如下指令安裝requests： pip install requests

python爬蟲開發之urllib模組詳細使用方法與例項全解

爬蟲所需要的功能，基本上在urllib中都能找到，學習這個標準庫，可以更加深入的理解後面更加便利的requests庫。

python爬蟲開發之PyQuery模組詳細使用方法與例項全解

python爬蟲模組PyQuery簡介 PyQuery庫也是一個非常強大又靈活的網頁解析庫，如果你有前端開發經驗的，都應該接觸過jQuery,那麼PyQuery就是你非常絕佳的選擇，PyQuery 是 Python 仿照 jQuery 的嚴格實現。語法與 jQue

python爬蟲開發之selenium模組詳細使用方法與例項全解

python爬蟲模組selenium簡介 selenium主要是用來做自動化測試，支援多種瀏覽器，爬蟲中主要用來解決JavaScript渲染問題。

python爬蟲開發之使用python爬蟲庫requests，urllib與今日頭條搜尋功能爬取搜尋內容例項

使用python爬蟲庫requests，urllib爬取今日頭條街拍美圖程式碼均有註釋 import re,json,requests,os

python爬蟲開發之使用Python爬蟲庫requests多執行緒抓取貓眼電影TOP100例項

使用Python爬蟲庫requests多執行緒抓取貓眼電影TOP100思路：檢視網頁原始碼抓取單頁內容

python爬蟲例項之獲取動漫截圖

引言之前有些無聊（呆在家裡實在玩的膩了），然後就去B站看了一些python爬蟲視訊，沒有進行基礎的理論學習，也就是直接開始實戰，感覺跟背公式一樣的進行爬蟲，也算行吧，至少還能爬一些東西，hhh。我今天來分享一

【python爬蟲實戰】使用Selenium webdriver採集山東招考資料

目錄 1、目標 2、Selenium webdriver說明 2.1 為什麼使用webdriver 2.2 webdriver支援瀏覽器 2.3 配置與使用說明

Python 爬蟲乾貨之urllib庫

1. 小試牛刀怎樣扒網頁呢？其實就是根據URL來獲取它的網頁資訊，雖然我們在瀏覽器中看到的是一幅幅優美的畫面，但是其實是由瀏覽器解釋才呈現出來的，實質它是一段HTML程式碼，加 JS、CSS，如果把網頁比作一個人，