邊學邊敲邊記之爬蟲系列(四)：Scrapy框架搭建

阿新 • • 發佈：2018-11-29

這裡寫圖片描述

一、前言

今天給大家分享的是，Python裡的爬蟲框架Scrapy學習，包含python虛擬環境的搭建、虛擬環境的使用、Scrapy安裝方法詳解、Scrapy基本使用、Scrapy專案目錄及內容基本介紹，let’s go！

二、Python爬蟲框架Scrapy簡介

# 維基百科看Scrapy
'''
Scrapy（SKRAY -pee）是一個免費和開源 網路爬行 框架 Python編寫的。最初設計用於Web抓取，它還可
以用於使用API或作為通用Web爬網程式提取資料。它目前由網路抓取開發和服務公司Scrapinghub Ltd.維護
。
Scrapy專案體系結構是圍繞“Spider”構建的，它們是自包含的爬蟲，可以獲得一組指令。遵循其他框架的精
神，不重複自己的框架，例如Django，它允許開發人員重用他們的程式碼，從而更容易構建和擴充套件大型爬行項
目。Scrapy還提供了一個Web爬行shell，開發人員可以使用它來測試他們對站點行為的假設。
(英譯漢有點尷尬！真的想學，還是好好看上面的幫助文件吧)
'''

三、看程式碼，邊學邊敲邊記

1.新建一個虛擬環境

下面操作之前你需要準備好：
(1) 你的python版本是3.x，最好系統裡只有一個python環境,後面所有學習筆記都基於py3的。
(2)python環境裡先安裝virtualenv模組，基本方法pip install virtualenv 。
(3)選擇好虛擬環境的安裝目錄(我選的是H盤目錄下的env資料夾，建議你選的目錄路徑裡最好不要有中文)。

PS H:\env\> virtualenv spiderenv
Using base prefix 'c:\\users\\82055\\appdata\\local\\ 
programs\\python\\python36'
New python executable in H:\env\spiderenv\Scripts\python.exe
Installing setuptools, pip, wheel...done.
注： 如果系統中有兩個python環境（py2和py3）,新建基於py3的虛擬環境方法
virtualenv -python=你的Python3安裝目錄(精確到python.exe) spiderenv(虛擬環境名稱)

安裝完成後再自己選擇的目錄下會多出一個資料夾(虛擬環境)，我這裡為H：\env\spiderenv,後面所有爬蟲學習過程中需要的模組、介面都將pip

(安裝)在裡面。

2.開啟虛擬環境，安裝Scrapy框架

進入到目錄H:\env\spiderenv\Scripts(我的虛擬環境目錄)，按住shift+滑鼠右鍵，開啟powershell或者cmd(如果是powershell就先輸入cmd)，再輸入activate，進入虛擬環境，你會發現在路徑前面多了一個括號裡面是你的虛擬環境名稱，表示你進入了虛擬環境。具體看下面：

# 注：開啟powershell 的可以參照下面操作
PS H:\env\spiderenv\Scripts> cmd
Microsoft Windows [版本 10.0.17134.112]
(c) 2018 Microsoft Corporation。保留所有權利。

H:\env\spiderenv\Scripts>activate
(spiderenv) H:\spiderenv\Scripts>

安裝scrapy模組(下面操作都是在虛擬環境下)：
方法一：直接pip安裝(最簡單，安裝慢，可能出錯)

pip install scrapy

方法二：輪子(wheel)安裝(比較簡單，安裝速度還可以，基本不出錯)
點選這裡下載scrapy的.whl檔案，然後移動到你的虛擬環境目錄下(比如我的就移動到H:\env\spiderenv\Scripts),

pip install Scrapy-1.5.1-py2.py3-none-any.whl

方法三：豆瓣源安裝(比較簡單，安裝速度快，方便，推薦)

pip install -i https://pypi.douban.com/simple/  scrapy

3.快速進入虛擬環境方法

安裝virtualenvwrapper模組，用於管理我們所建的虛擬環境

# windows下安裝方法
 pip install virtualenvwrapper-win
# 其他環境下安裝
 pip install virtualenvwrapper

安裝完成後，開啟控制面板 - >系統 -> 高階系統設定 - > 環境變數 -> 系統變數 -> 新建，在新建系統環境變數對話方塊中輸入如下

變數名：WORKON_HOME
變數值：你的虛擬環境安裝目錄
比如：我的虛擬環境spiderenv安裝在H:\env目錄下，我的變數值就為：H：\env\
注：變數值最後一定要以 \ 結尾，不然可能不會產生效果。

workon新建過程
在上面設定完成後，我們在cmd執行下面命令，即可簡單快速進入虛擬環境：

PS C:\Users\82055\Desktop> cmd
Microsoft Windows [版本 10.0.17134.112]
(c) 2018 Microsoft Corporation。保留所有權利。

C:\Users\82055\Desktop>workon

Pass a name to activate one of the following virtualenvs:
==============================================================================
spiderenv

C:\Users\82055\Desktop>workon spiderenv
(spiderenv) C:\Users\82055\Desktop>
# 註釋：成功進入，退出虛擬環境命令為 ： deactivate

4.建立一個基於Scrapy框架的專案

# 進入到自己的專案存放目錄
(spiderenv) H:\env>cd H:\spider_project

# 使用scrapy命令建立一個新工程
(spiderenv) H:\spider_project>scrapy startproject spider_bole_blog

New Scrapy project 'spider_bole_blog', using template directory 'h:\\env\\spiderenv\\
lib\\site-packages\\scrapy\\templates\\project', created in:
    H:\spider_project\spider_bole_blog
# 提示建立網站爬蟲命令
You can start your first spider with:
    cd spider_bole_blog
    scrapy genspider example example.com

建立成功後文件目錄結構：

spider_bole_blog/
    spider_bole_blog/
            spiders/
                __init__.py
            __init__.py
            items.py
            pipelines.py
            settings.py
    scrapy.cfg

目錄功能基本介紹:

spider_bole_blog/: 該專案的python模組。之後我們將在此加入程式碼。
spider_bole_blog/spiders/: 放置spider程式碼的目錄。
spider_bole_blog/items.py: 專案中的item檔案。
spider_bole_blog/pipelines.py: 專案中的pipelines檔案。
spider_bole_blog/settings.py: 專案的設定檔案。
scrapy.cfg: 專案的配置檔案。

建立一個jobbole(伯樂線上)的爬蟲專案檔案：

# 進入專案檔案
(spiderenv) H:\spider_project>cd spider_bole_blog

# 執行命令，建立一個基於Srapy的伯樂線上的爬蟲
(spiderenv) H:\spider_project\spider_bole_blog>scrapy genspider jobbole blog.jobbole.com

Created spider 'jobbole' using template 'basic' in module:
  spider_bole_blog.spiders.jobbole

執行完成後會在專案的spiders目錄下多出一個jobbole.py檔案，檔案內容如下：

# -*- coding: utf-8 -*-        
# 編碼
import scrapy
# 匯入scrapy包

#繼承scrapy.Spider的 JobboleSpider 爬蟲類
class JobboleSpider(scrapy.Spider):

    # 用於區別Spider。 該名字必須是唯一的，您不可以為不同的Spider設定相同的名字。
    name = 'jobbole'

    # 允許下載(訪問)域
    allowed_domains = ['blog.jobbole.com']

    # 包含了Spider在啟動時進行爬取的url列表。
    # 因此，第一個被獲取到的頁面將是其中之一。
    # 後續的URL則從初始的URL獲取到的資料中提取。
    start_urls = ['http://blog.jobbole.com/']

    # 是spider的一個方法。
    # 被呼叫時，每個初始URL完成下載後生成的 Response 物件將會作為唯一的引數傳遞給該函式。
    # 該方法負責解析返回資料(response data)，提取資料(生成item)以及生成需要進一步處理的URL
    # 的 Request 物件。
    def parse(self, response):
        pass

四、後言

今天講的東西涵蓋面還比較廣，特別是虛擬環境管理這塊，virtualenvwrapper還有很多命令，很實用，後面會慢慢給大家提及，大家也可以自己百度、谷歌查一下，另外，Scrapy模組今天也算正式開始，go on!

歡迎大家關注微信公眾號：極簡XksA,獲取Python/Java/前端等學習資源！

邊學邊敲邊記之爬蟲系列(四)：Scrapy框架搭建

一、前言

二、Python爬蟲框架Scrapy簡介

三、看程式碼，邊學邊敲邊記

1.新建一個虛擬環境

2.開啟虛擬環境，安裝Scrapy框架

3.快速進入虛擬環境方法

4.建立一個基於Scrapy框架的專案

四、後言

邊學邊敲邊記之爬蟲系列(四)：Scrapy框架搭建

邊學邊敲邊記之爬蟲系列(九)：Item+Pipeline資料儲存

邊學邊敲邊記之爬蟲系列(三)：url去重策略及實現

python之爬蟲的入門06------scrapy框架

python爬蟲（四）---scrapy框架之騰訊招聘專案實戰

網路結構解讀之inception系列四：Inception V3

python爬蟲十一：scrapy框架爬取天氣，存入資料庫

爬蟲系列5：scrapy動態頁面爬取的另一種思路

VSTO之旅系列(四)：建立Word解決方案

邊學邊敲邊記爬蟲系列(六)：CSS選擇器實戰訓練

python爬蟲基礎（13：Scrapy框架之架構流程與目錄）

《零基礎入門學習Python》第063講：論一隻爬蟲的自我修養11：Scrapy框架之初窺門徑

從零開始學Android自定義View之動畫系列——屬性動畫（3）

四：RF框架appium工具之xpath定位

Python爬蟲系列 - 初探：爬取旅遊評論

SDN控制器之OVN實驗四：配置OVN負載均衡器

scrapy爬蟲框架（一）：scrapy框架簡介

Python爬蟲系列 - 初探：爬取新聞推送

SDUT-3361_資料結構實驗之圖論四：迷宮探索

SDUT-3361_數據結構實驗之圖論四：迷宮探索

邊學邊敲邊記之爬蟲系列(四)：Scrapy框架搭建

一、前言

二、Python爬蟲框架Scrapy簡介

三、看程式碼，邊學邊敲邊記

1.新建一個虛擬環境

2.開啟虛擬環境，安裝Scrapy框架

3.快速進入虛擬環境方法

4.建立一個基於Scrapy框架的專案

四、後言

相關推薦