scrapy簡單入門及例項講解（一）

阿新 • • 發佈：2018-12-09

初識Scrapy

Scrapy是一個用於Web網站抓取的應用框架，輸出的結構化資料可以廣泛用於各類程式，比如：資料探勘、資料處理、資料存檔等

儘管Scrapy是為Web抓取設計的，但也可以用於從API中提取資料

通過一個例項認識spider

為了快速認識Scrapy的使用，我們來看一個最簡單的爬蟲程式碼

import scrapy

class VqqSpider(scrapy.Spider):
    name="vqq_spider"

    start_urls=["https://v.qq.com/"]

    def parse(self, response) 
:
        for item in response.xpath('//div[contains(@class, "figure_detail")]/strong/a'):
            yield {
                "title": item.xpath('./@title').extract_first(),
                "href": item.xpath('./@href').extract_first()
            }

把這些程式碼存到一個文字檔案中，比如：vqq_spider.py，然後用runspider命令來執行這個程式

scrapy runspider vqq_spider.py -o data.json

當抓取結束後，我們會看到一個叫做data.json的檔案，你可以用文字編輯器來開啟這個檔案，其中的內容如下

[{
        "title": "93天！滴滴100萬懸賞金到賬 打撈隊：更新裝置",
        "href": "//v.qq.com/x/cover/en115zjpqaip73q/g1428tfr3eh.html"
    },
    {
        "title": "",
        "href": "//v.qq.com/x/cover/278n2ax690efzwm/c0781k6a8pr.html" 

    },
    {
        "title": "王珞丹走紅毯被粉絲單膝跪地求婚 嚇到連連後退",
        "href": "//v.qq.com/x/page/d0781ipg0vq.html"
    },
    {
        "title": "圍觀潮音小哥哥起床：排練辛苦周震南起床氣爆發？",
        "href": "//v.qq.com/x/cover/ftdfm7cu9kd60n6/l0027th6cf1.html"
    },
    {
        "title": "S.H.E新歌超大回憶殺！還原Selina燒傷事故現場",
        "href": "//v.qq.com/x/cover/ffjb4l090uellgu/p07791knw4u.html"
    },
    {
        "title": "你吃過連果肉都是血紅色的蘋果嗎？這5種奇葩水果，一般人都沒見過",
        "href": "//v.qq.com/x/page/f0778qibc6i.html"
    },
    {
        "title": "《如懿傳》獨家花絮 貴妃原來是後宮的學霸",
        "href": "//v.qq.com/x/page/h002763rmog.html"
    },
    ...
]

剛剛發生了什麼

當你執行scrapy runspider vqq_spider.py這個命令，Scrapy會通過它的抓取引擎尋找vqq_spider.py中定義的Spider類
爬蟲從你定義的start_urls為起點來構造請求，然後呼叫預設回撥方法parse，把response物件作為引數
在parse回撥函式中，我們使用xpath提取視訊連結元素，yield一個python字典物件包含視訊標題和地址

在這裡我們會看到，Scrapy的核心是計劃和非同步處理，也就是說，Scrapy不會停下等待前一次的處理結束，而是直接傳送下一次的請求，當前一次的請求完成時會通過回撥來處理。

這可以極大的加快我們的抓取速度，當然，Scrapy也給了你配置這些東西的方法，你可以配置兩次下載之間的延遲、對每個IP或域名的同時請求限制、甚至使用auto-throttling extension(自動限制擴充套件)來自動限制

下期預告

下一步，我們將帶領大家完成Scrapy安裝、專案建立和Spider編寫

scrapy簡單入門及例項講解（一）

初識Scrapy Scrapy是一個用於Web網站抓取的應用框架，輸出的結構化資料可以廣泛用於各類程式，比如：資料探勘、資料處理、資料存檔等儘管Scrapy是為Web抓取設計的，但也可以用於從API中提取資料通過一個例項認識spider 為了快速認識S

Scrapy簡單入門及例項講解

Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架。其可以應用在資料探勘，資訊處理或儲存歷史資料等一系列的程式中。其最初是為了頁面抓取 (更確切來說, 網路抓取 )所設計的，也可以應用在獲取API所返回的資料(例如 Amazon Associa

Scrapy簡單入門及例項講解與安裝

Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架。其可以應用在資料探勘，資訊處理或儲存歷史資料等一系列的程式中。其最初是為了頁面抓取 (更確切來說, 網路抓取 )所設計的，也可以應用在獲取API所返回的資料(例如 Amazon Associate

Android 依賴注入： Dagger 2 例項講解（一）

本文原創，轉載請註明出處：http://blog.csdn.net/zjbpku 關於Dagger，在之前的博文（Android 依賴注入：Dagger 例項講解（Demo下載））中已有介紹，本文說的Dagger 2主要是由Google技術人員參與開發的，當然包括Sq

dbus例項講解（一）：初次見面

http://blog.csdn.net/fmddlmyy/archive/2008/12/23/3585730.aspx 網上有不少介紹dbus的文章。本文的目標是補充一些簡單的例子。 1、dbus是什麼東西？網上有一篇叫“D-Bus Tutorial”的文章，流傳較廣。不少介紹dbus的資料，都引用

Scrapy簡單入門及實例講解

頁面 scheduler r12 images ide api 系列允許初始原文地址：https://www.cnblogs.com/kongzhagen/p/6549053.html github地址：https://github.com/zhu-xb/scrapy

區塊鏈的共識算法及分叉的通俗講解（一）

一段過大關系動物 .net 公式廣播安全 user 作者：林冠宏 / 指尖下的幽靈掘金：https://juejin.im/user/587f0dfe128fe100570ce2d8 博客：http://www.cnblogs.com/linguanh

從零開始Rtklib解讀篇-簡單的程式設計理論和演算法及結構分析（一）

Rtklib一直開源，資源比較容易找到，功能也非常強大。因為專業有點相關，但是之前不用這個平臺，一直未能好好沉下心來學習，然而學到用時方恨少。這個系列也算是自己的一個小小的總結吧，因為我對VS、對Rtklib、對演算法的理解也比較淺，很多內容未必正確，寫的時候也不一定非常有條理，不當之處，還請指出並

RxJava 2.x 教程及原始碼揭祕（一）入門理解及基本操作符

目錄前言 Rxjava的介紹 Rxjava的優勢 Rxjava是觀察者模式 Rxjava是裝飾者模式 Observable Rxjava的操作符 subScribeOn與observeOn切換執行緒其他操作符補充前言 &nbs

DataGrip使用入門-安裝及資料來源管理（一）

最近看到一款資料庫客戶端工具，DataGrip，是大名鼎鼎的JetBrains公司出品的，就是那個出品Intellij IDEA的公司。DataGrip是一款資料庫管理客戶端工具，方便連線到資料庫伺服器，執行sql、建立表、建立索引以及匯出資料等。之前試用的客戶端工具是dbvi

項目中遇到的某些問題及解決辦法（一）

sql () 輸入包含查看定位管理器顯示分布式開發簡介該博文記錄了一些平時在工作中遇到的問題及解決辦法，某些問題有解決辦法，某些問題暫時沒有解決辦法，如果有大神知道的，請多多指點。如果某些問題有更好的解決辦法，也請指教。正文 1、在一個方

android入門 — 多線程（一）

xtend 分享調用管理 ava 導致 ui線程 rec thread 　　android中的一些耗時操作，例如網絡請求，如果不能及時響應，就會導致主線程被阻塞，出現ANR，非常影響用戶體驗，所以一些耗時的操作，我們會想辦法放在子線程中去完成。　　android的U

多種排序算法的思路和簡單代碼的實現（一）

insert i++ 前後端分享 size quicksort 執行判斷 clas 就自己簡單的理解了一些排序算法（JAVA）思路和代碼分享給大家：歡迎大家進行交流。直接插入排序，折半插入排序，冒泡排序，快速排序 1 public class Sort { 2

Linux進程相關的內容及命令小結（一）

進程 linux概念：進程，一個活動的程序實體的副本，擁有生命周期，一個進程可能包含一個或多個執行流；進程的創建進程：每個進程的組織結構是一致的；內核在正常啟動並且全面接管硬件資源之後，會創建一個Init的進程；而這個名叫init的進程負責用戶空間的進程管理； CentOS5及以前：SysV In

新手必會：商業智能BI入門專業詞匯（一）

操作數讀者模式分析工具重新實現資源框架計算機程序　　進入任何一個行業，都必須經歷的就是了解該行業的相關專業詞匯，尤其是IT行業。如果專業詞匯都不懂幾個，勢必會影響後續的深入學習。在我們每周三的公開課裏已經有或多或少提及到關於商業智能BI入門的一些專業詞匯，

NFS服務安裝及自動掛載（一）

nfs autofs 網絡文件系統環境：server: xuexi.com(rhel6.5)client: study.com(rhel6.5)NFS:Network File System即網絡文件系統，NFS允許一個系統在網絡上與他人共享目錄和文件，通過使用NFS用戶和程序像訪問

c#串口通信講解（一）（winform、wpf）

定義 cep 回調 true comm ive get exc pre 串口操作需要註意的幾點如下： 1、如果是USB轉串口；則需要安裝USB轉串口驅動，附件有此驅動。 2、串口打開狀態最好不要直接插拔串口，可能會導致中控板或者串口線燒壞。 3、使用串口調試工具CEIWEI

FPGA軟硬協同設計學習筆記及基礎知識（一）

擴展性產生新的 pll 多個分配每次調用 span 一、FPGA軟件硬件協同定義：軟件：一般以軟件語言來描述，類似ARM處理器的嵌入式設計。硬件定義如FPGA，裏面資源有限但可重配置性有許多優點，新的有動態可充配置技術。

web前端開發過程遇到的問題及解決方式（一）

樣式優先級語句前端 port web前端開發 css樣式重復 fun clas 1. CSS樣式優先級問題 1 <style> 2 3 .className input(可換其他元素){ 4 5 type:val !importa

MongoDB復制集成員及架構介紹（一）

bit not -o 服務復制誤操作存儲帶來影響 MongoDB復制集介紹 MongoDB支持在多個機器中通過異步復制達到提供了冗余，增加了數據的可用性。MongoDB有兩種類型的復制，第一種是同於MySQL的主從復制模式（MongoDB已不再推薦此方案）；第二

scrapy簡單入門及例項講解（一）

初識Scrapy

通過一個例項認識spider

剛剛發生了什麼

下期預告

相關推薦