python爬蟲學習筆記(二十八)-Scrapy 框架爬取JS生成的動態頁面

阿新 • • 發佈：2020-07-21

問題

有的頁面的很多部分都是用JS生成的，而對於用scrapy爬蟲來說就是一個很大的問題，因為scrapy沒有JS engine，所以爬取的都是靜態頁面，對於JS生成的動態頁面都無法獲得

官網 http://splash.readthedocs.io/en/stable/

解決方案

利用第三方中介軟體來提供JS渲染服務： scrapy-splash 等
利用webkit或者基於webkit庫

Splash是一個Javascript渲染服務。它是一個實現了HTTP API的輕量級瀏覽器，Splash是用Python實現的，同時使用Twisted和QT。Twisted（QT）用來讓服務具有非同步處理能力，以發揮webkit的併發能力

安裝

pip安裝scrapy-splash庫

 pip install scrapy-splash

scrapy-splash使用的是Splash HTTP API，所以需要一個splash instance，一般採用docker執行splash，所以需要安裝docker
安裝docker, 安裝好後執行docker
拉取映象

 docker pull scrapinghub/splash

用docker執行scrapinghub/splash

docker run -p 8050:8050 scrapinghub/splash

配置splash服務（以下操作全部在settings.py）:
1. 使用splash解析，要在配置檔案中設定splash伺服器地址：
```
SPLASH_URL = 'http://192.168.99.100:8050/' 
```
1. 將splash middleware新增到DOWNLOADER_MIDDLEWARE中
```
DOWNLOADER_MIDDLEWARES = {
'scrapy_splash.SplashCookiesMiddleware': 723,
'scrapy_splash.SplashMiddleware': 725,
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
}
 
```
1. Enable SplashDeduplicateArgsMiddleware
```
SPIDER_MIDDLEWARES = {
  'scrapy_splash.SplashDeduplicateArgsMiddleware': 100
}
```
這個中介軟體需要支援cache_args功能; 它允許通過不在磁碟請求佇列中多次儲存重複的Splash引數來節省磁碟空間。如果使用Splash 2.1+，則中介軟體也可以通過不將這些重複的引數多次傳送到Splash伺服器來節省網路流量
1. 配置訊息佇列所使用的過濾類
```
DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'
```
1. 配置訊息佇列需要使用的類
```
HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'
```

樣例

import scrapy
from scrapy_splash import SplashRequest


class DoubanSpider(scrapy.Spider):
    name = 'douban'

    allowed_domains = ['douban.com']


def start_requests(self):
    yield SplashRequest('https://movie.douban.com/typerank?type_name=劇情&type=11&interval_id=100:90', args={'wait': 0.5})


def parse(self, response):
    print(response.text)

python爬蟲學習筆記(二十八)-Scrapy 框架爬取JS生成的動態頁面

問題有的頁面的很多部分都是用JS生成的，而對於用scrapy爬蟲來說就是一個很大的問題，因為scrapy沒有JS engine，所以爬取的都是靜態頁面，對於JS生成的動態頁面都無法獲得

python爬蟲學習筆記(二十五)-Scrapy框架 Middleware

1. Spider 下載中介軟體(Middleware) Spider 中介軟體(Middleware) 下載器中介軟體是介入到 Scrapy 的 spider 處理機制的鉤子框架，您可以新增程式碼來處理髮送給 Spiders 的 response 及 spider 產生的 item 和 req

python爬蟲學習筆記(二十四)-Scrapy框架圖片管道的使用

1. 介紹 Scrapy提供了一個 item pipeline ，來下載屬於某個特定專案的圖片，比如，當你抓取產品時，也想把它們的圖片下載到本地。

python爬蟲學習筆記(二十九)-Scrapy 框架-分散式

1. 介紹scrapy-redis框架 scrapy-redis 一個三方的基於redis的分散式爬蟲框架，配合scrapy使用，讓爬蟲具有了分散式爬取的功能。

python爬蟲學習筆記(二十二)-Scrapy框架案例實現

爬取小說 spider import scrapy from xiaoshuo.items import XiaoshuoItem class XiaoshuoSpiderSpider(scrapy.Spider):

python爬蟲學習筆記(二十三)-Scrapy框架 CrawlSpider

1. CrawlSpiders 原理圖 sequenceDiagram start_urls ->>排程器: 初始化url 排程器->>下載器: request

學習筆記二十八：SQLMap使用手冊

當sqlmap拿到這樣一串url http://192.168.136.131/sqlmap/mysql/get_int.php?id=1 時，它會做以下幾步：

python入門學習篇二十八

執行緒 # 一個程序裡面至少要有一個執行緒，主程序裡面的執行緒稱為主執行緒，其他程序中的執行緒稱為子執行緒

python爬蟲學習筆記之Beautifulsoup模組用法詳解

本文例項講述了python爬蟲學習筆記之Beautifulsoup模組用法。分享給大家供大家參考，具體如下：

python爬蟲學習筆記之pyquery模組基本用法詳解

本文例項講述了python爬蟲學習筆記之pyquery模組基本用法。分享給大家供大家參考，具體如下：

設計模式學習筆記（十八）：直譯器模式

1 概述 1.1 引言直譯器模式是一種使用頻率較低但是學習難度較大的設計模式，用於描述如何使用面嚮物件語言構成一個簡單的語言直譯器。某些情況下可能需要自定義一個新語言，這種語言具有自己的文法規則，這時可以使

python介面自動化（二十八） requests超時重試方法（由於連線方在一段時間後沒有正確答覆或連線的主機沒有反應，連線嘗試失敗）

前言 “由於連線方在一段時間後沒有正確答覆或連線的主機沒有反應，連線嘗試失敗”，這是經常遇到的問題requests.exceptions.ConnectionError: HTTPSConnectionPool(host=\'www.github.com\', port=443):

python爬蟲學習筆記（更新中）

requests庫簡單介紹 import requests r = requests.get("url") /* r=requests.get(url,params=Node,**kwargs)

HDL/FPGA學習筆記二十一：verilog 中的可綜合與不可綜合

一、什麼是綜合? Verilog HDL或VHDL都只是一種硬體的描述語言，並且允許在不同的抽象層次上對電路進行建模。VerilogHDL側重於電路級，可以在門級和暫存器傳輸級（RTL）描述硬體，也可以在演算法級對硬體加以

【Linux學習筆記（十八）】之壓縮，打包 zip,gz, bz2, tar,tar.gz, tar.bz2

技術標籤：Linux學習筆記linuxzip 本文章由公號【開發小鴿】釋出！歡迎關注！！！

C#學習（二十八）——ManualResetEvent的理解和使用

技術標籤：C#學習c# 1、C#ManualResetEvent和AutoResetEvent使用筆記一、兩者區別 1.ManualResetEvent 呼叫一次Set()後將允許恢復所有被阻塞執行緒。需手動在呼叫WaitOne()之後呼叫Reset()重置訊號量狀態為非終

機器學習筆記（十八）——BP神經網路（異或問題）

本部落格僅用於個人學習，不用於傳播教學，主要是記自己能夠看得懂的筆記（

學習筆記二十：Mssql手注之延時型盲注

延時函式WAITFOR DELAY WAITFOR是SQL Server中Transact-SQL提供的一個流程控制語句。它的作用就是等待特定時間，然後繼續執行後續的語句。它包含一個引數DELAY，用來指定等待的時間。如果將該語句成功注入後，會造成

學習筆記二十四：盲注的快速獲取資料之DNSlog注入

用DNS的log功能來突破盲注速度慢的限制。技術說明： DNSlog注⼊屬於帶外通訊的⼀種，英⽂：Out of Band，簡稱：OOB。我們之前的注⼊都是在同⼀個通道上⾯的，⽐如我們之前的聯合查詢注⼊，都是做HTTP請求，然後得

學習筆記二十七：SQLMap注入MySQL

在拿到一個網站後若是想知道它是否存在注入漏洞，那麼我們就可以拿出Vega掃描器對該網站進行漏洞掃描，通過工具掃描和手工注入來確定它是否存在注入漏洞。

python爬蟲學習筆記(二十八)-Scrapy 框架 爬取JS生成的動態頁面

問題

解決方案

安裝

樣例

相關推薦

python爬蟲學習筆記(二十八)-Scrapy 框架爬取JS生成的動態頁面