scrapy爬蟲框架setting模塊解析

阿新 • • 發佈：2017-11-15

ocs 不用依賴 cookies received over ade maximum ole

平時寫爬蟲的時候並不需要設置setting裏所有的參數，今天心血來潮，花了點時間查了一下setting模塊創建後自動寫入的所有參數的含義，記錄一下。

模塊相關說明信息

# -*- coding: utf-8 -*-

# Scrapy settings for new_center project
#
# For simplicity, this file contains only settings considered important or
# commonly used. You can find more settings consulting the documentation:
#
#     http://doc.scrapy.org/en/latest/topics/settings.html
#     http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html
#     http://scrapy.readthedocs.org/en/latest/topics/spider-middleware.html

項目名字和爬蟲模塊說明，引擎根據這個信息找到爬蟲

BOT_NAME = ‘new_center‘  # 項目名字

SPIDER_MODULES = [‘new_center.spiders‘]
NEWSPIDER_MODULE = ‘new_center.spiders‘

瀏覽器的USER_AGENT，可以自定義偽裝。

# Crawl responsibly by identifying yourself (and your website) on the user-agent
#USER_AGENT = ‘new_center (+http://www.yourdomain.com)‘

是否遵守robots協議，默認是遵守的，可以改成False或將其註釋

# Obey robots.txt rules
ROBOTSTXT_OBEY = True

設置scrapy爬蟲最大的並發請求數量，默認是16

# Configure maximum concurrent requests performed by Scrapy (default: 16)
#CONCURRENT_REQUESTS = 32

設置對訪問同一個網站進行請求的延時時間，默認是0.

# Configure a delay for requests for the same website (default: 0)
# See http://scrapy.readthedocs.org/en/latest/topics/settings.html#download-delay
# See also autothrottle settings and docs
#DOWNLOAD_DELAY = 3
# The download delay setting will honor only one of:

設置對每個網站和每個IP的最大並發請求數量，兩個最好只設置一個，如果都設置，則按照限制IP生效。

#CONCURRENT_REQUESTS_PER_DOMAIN = 16
#CONCURRENT_REQUESTS_PER_IP = 16

設置是否禁用cookie，目前默認是可用的，去掉註釋則禁用

# Disable cookies (enabled by default)
#COOKIES_ENABLED = False

設置是否可遠程登錄控制臺，目前默認是可以的，去掉註釋則禁用

# Disable Telnet Console (enabled by default)
#TELNETCONSOLE_ENABLED = False

用來設置請求頭，一般不用，因為請求頭可以動態設置

# Override the default request headers:
#DEFAULT_REQUEST_HEADERS = {
#   ‘Accept‘: ‘text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8‘,
#   ‘Accept-Language‘: ‘en‘,
#}

是否開啟使用爬蟲spider的中間件,默認不啟用，解除註釋後啟用，後面的數字代表優先級，數字越小，優先級越高

# Enable or disable spider middlewares
# See http://scrapy.readthedocs.org/en/latest/topics/spider-middleware.html
#SPIDER_MIDDLEWARES = {
#    ‘new_center.middlewares.NewCenterSpiderMiddleware‘: 543,
#}

是否開啟爬蟲下載器的中間件,默認不啟用，解除註釋後啟用

# Enable or disable downloader middlewares
# See http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html
#DOWNLOADER_MIDDLEWARES = {
#    ‘new_center.middlewares.MyCustomDownloaderMiddleware‘: 543,
#}

是否禁用爬蟲擴展，默認禁用，解除註釋後將None改成數字，如500，擴展的優先級一般不重要，因為他們並不相互依賴，多個擴展的value值可以寫相同。

# Enable or disable extensions
# See http://scrapy.readthedocs.org/en/latest/topics/extensions.html
#EXTENSIONS = {
#    ‘scrapy.extensions.telnet.TelnetConsole‘: None,
#}

是否開啟管道，默認關閉，開啟則解除註釋

# Configure item pipelines
# See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.html
#ITEM_PIPELINES = {
#    ‘new_center.pipelines.NewCenterPipeline‘: 300,
#}

設置自動限速，根據Scrapy服務器及爬取的網站的負載自動限制爬取速度，默認關閉，開啟需解除註釋。

# Enable and configure the AutoThrottle extension (disabled by default)
# See http://doc.scrapy.org/en/latest/topics/autothrottle.html
#AUTOTHROTTLE_ENABLED = True  # 自動限速的開關
# The initial download delay  
#AUTOTHROTTLE_START_DELAY = 5  # 初始下載延時
# The maximum download delay to be set in case of high latencies
#AUTOTHROTTLE_MAX_DELAY = 60  # 最大下載延時
# The average number of requests Scrapy should be sending in parallel to
# each remote server
#AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0
# Enable showing throttling stats for every response received:
#AUTOTHROTTLE_DEBUG = False

啟用和配置HTTP緩存

# Enable and configure HTTP caching (disabled by default)
# See http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings
#HTTPCACHE_ENABLED = True
#HTTPCACHE_EXPIRATION_SECS = 0
#HTTPCACHE_DIR = ‘httpcache‘
#HTTPCACHE_IGNORE_HTTP_CODES = []
#HTTPCACHE_STORAGE = ‘scrapy.extensions.httpcache.FilesystemCacheStorage‘

scrapy爬蟲框架setting模塊解析

ocs 不用依賴 cookies received over ade maximum ole 平時寫爬蟲的時候並不需要設置setting裏所有的參數，今天心血來潮，花了點時間查了一下setting模塊創建後自動寫入的所有參數的含義，記錄一下。模塊相關說明信息 # -

新手必備：大數據框架Hadoop主要模塊解析

分布式應用數據的分布之間中間一起資料評估業務 roc hadoop Common: 包括Hadoop常用的工具類，由原來的Hadoop core部分更名而來。主要包括系統配置工具Configuration、遠程過程調用RPC、序列化機制和Hadoop抽象文件系

Python 和 Scrapy 爬蟲框架部署

python scrapy 爬蟲框架 Scrapy 是采用Python 開發的一個快速可擴展的抓取WEB 站點內容的爬蟲框架。安裝依賴 yum install gcc gcc-c++ openssl mysql mysql-server libffi* libxml* libxml2 l

Scrapy 爬蟲框架入門案例詳解

tin mon setting 爬蟲框架 finished perror project 原因 create 歡迎大家關註騰訊雲技術社區-博客園官方主頁，我們將持續在博客園為大家推薦技術精品文章哦~ 作者：崔慶才 Scrapy入門本篇會通過介紹一

scrapy爬蟲框架

cnblogs logs spi down 方式 ges htm width sched downloader：負責下載html頁面 spider：負責爬取頁面內容，我們需要自己寫爬取規則 srapy提供了selector，獲取的方式有xpath，css，正則，extr

scrapy爬蟲框架實例之一

獲取名稱返回工程 ima 1-57 response lines star 　　本實例主要通過抓取慕課網的課程信息來展示scrapy框架抓取數據的過程。　1、抓取網站情況介紹　　抓取網站：http://www.imooc.com/course/list 　

python爬蟲—使用scrapy爬蟲框架

pywin32 rip for 鏈接是把 ror sdn 成功 repl 問題1.使用scrapy框架，使用命令提示符pip命令下載scrapy後，卻無法使用scrapy命令，出現scrapy不是內部或外部命令。也不是可運行的程序解決：一開始，我是把python安裝在

Python之Scrapy爬蟲框架安裝及簡單使用

intern 原理 seda api release linux發行版 3.5 pic www 題記：早已聽聞python爬蟲框架的大名。近些天學習了下其中的Scrapy爬蟲框架，將自己理解的跟大家分享。有表述不當之處，望大神們斧正。一、初窺Scrapy Scrapy是

2017.07.26 Python網絡爬蟲之Scrapy爬蟲框架

返回 scripts http ref select 文本 lang bsp str 1.windows下安裝scrapy：cmd命令行下：cd到python的scripts目錄，然後運行pip install 命令然後pycharmIDE下就有了Scrapy：

SSH框架分模塊開發

hit led XML schema tab 原本 lap cat 開啟 ------------------siwuxie095 SSH 框架分模塊開發 1、在 Spring 核心配置文件中配置多個內容

python爬蟲之requests模塊

.post 過大 form表單提交 www xxxxxx psd method date .com 一. 登錄事例 a. 查找汽車之家新聞標題鏈接圖片寫入本地 import requests from bs4 import BeautifulSoup import

Python時間模塊之Time模塊解析

可選去掉說明協調 all strong haml repr ecs 在我們平常的代碼中，經常需要和時間打交道。在Python中，與時間處理相關的模塊有：time、datetime以及calendar。學會計算時間，對程序的調優非常重要，可以在程序中狂打時間戳，來具體判

python2.X與python3.X爬蟲常用的模塊變化對應

lib req lencod jar pan erro 變化 size -s python2 python3 import urllib2 import urllib.request,urllib.error import urllib.request,url

Typescript和Node模塊解析策略

div nod 一級目錄 exp pos ack express code blog 一般我們在模塊化編碼時，總會導入其它模塊，通常我們使用如下語法： import { A } from ‘./a‘; // ES6語法 import { A } from ‘a‘; var

TPFrame框架robot模塊重磅來襲

image baidu 驗證 oss 技術分享插件 ces color don 經過幾天的努力，基本功能版已經完成，有待大家驗證... robot插件主要的功能是幫助我們寫部分代碼的基本，目前階段已經實現後臺curd數據管理的基本操作，更多功能待續... 1、首先下載ro

爬蟲之request模塊

nsh ## 網頁基於 mark chrome 汽車 int tex 爬蟲之request模塊 request簡介 #介紹：使用requests可以模擬瀏覽器的請求，比起之前用到的urllib，requests模塊的api更加便捷（本質就是封裝了urllib3） #註意

爬蟲-Beautiful Soup模塊

parse 方法 xml html 字符串但是特殊則表達式 ttr 推薦閱讀目錄一介紹二基本使用三遍歷文檔樹四搜索文檔樹五修改文檔樹六總結一介紹 Beautiful Soup 是一個可以從HTML或XML文件中提取數據的Pyt

python3 爬蟲之requests模塊使用總結

swd rom 一個 http 寫入 delet pen req 狀態碼 Requests 是第三方模塊，如果要使用的話需要導入。Requests也可以說是urllib模塊的升級版，使用上更方便。這是使用urllib的例子。 import urllib.request

webpack-Module Resolution（模塊解析）

上下文件路徑 -c tex -a onf 順序查找 href 構建模塊解析(Module Resolution) resolver 是一個庫(library)，用於幫助找到模塊的絕對路徑。一個模塊可以作為另一個模塊的依賴模塊，然後被後者引用，如下： i

Scrapy爬蟲框架第一講(Linux環境)

配置文件如何解決成了文件路徑 selenium linux 文件權限 vmw 1、What is Scrapy? 答：Scrapy是一個使用python語言（基於Twistec框架）編寫的開源網絡爬蟲框架，其結構清晰、模塊之間的耦合程度低，具有較強的擴張性，能滿足

scrapy爬蟲框架setting模塊解析

相關推薦