淺談基於Python的Scrapy爬蟲入門

阿新 • • 發佈：2018-03-29

Python爬蟲教程 Python內容講解

（一）內容分析

　　接下來創建一個爬蟲項目，以圖蟲網為例抓取裏面的圖片。在頂部菜單“發現”“標簽”裏面是對各種圖片的分類，點擊一個標簽，比如“Python視頻課程”，網頁的鏈接為：http://www.codingke.com/Python視頻課程/，我們以此作為爬蟲入口，分析一下該頁面：

　　打開頁面後出現一個個的圖集，點擊圖集可全屏瀏覽圖片，向下滾動2頁面會出現更多的圖集，沒有頁碼翻頁的設置。Chrome右鍵“檢查元素”打開開發者工具，檢查頁面源碼，內容部分如下：

　　<divclass="content">

　　<divclass="widget-gallery">

　　<ulclass="pagelist-wrapper">

　　<liclass="gallery-item...

　　可以判斷每一個li.gallery-item是一個圖集的入口，存放在ul.pagelist-wrapper下，div.widget-gallery是一個容器，如果使用xpath選取應該是：//div[@class=”widget-gallery”]/ul/li，按照一般頁面的邏輯，在li.gallery-item下面找到對應的鏈接地址，再往下深入一層頁面抓取圖片。

　　但是如果用類似Postman的HTTP調試工具請求該頁面，得到的內容是：

　　<divclass="content">

　　<divclass="widget-gallery"></div>

　　</div>

　　也就是並沒有實際的圖集內容，因此可以斷定頁面使用了Ajax請求，只有在瀏覽器載入頁面時才會請求圖集內容並加入div.widget-gallery中，通過開發者工具查看XHR請求地址為：

　　http://www.codingke.com/Python視頻課程/posts?page=1&count=20&order=weekly&before_timestamp=

　　參數很簡單，page是頁碼，count是每頁圖集數量，order是排序，before_timestamp為空，圖蟲因為是推送內容式的網站，因此before_timestamp應該是一個時間值，不同的時間會顯示不同的內容，這裏我們把它丟棄，不考慮時間直接從最新的頁面向前抓取。

　　請求結果為JSON格式內容，降低了抓取難度，結果如下：

　　{

　　"postList":[

　　{

　　"post_id":"15624611",

　　"type":"multi-photo",

　　"url":"http://www.codingke.com/",

　　"site_id":"443122",

　　"author_id":"443122",

　　"published_at":"2017-10-2818:01:03",

　　"excerpt":"10月18日",

　　"favorites":4052,

　　"comments":353,

　　"rewardable":true,

　　"parent_comments":"165",

　　"rewards":"2",

　　"views":52709,

　　"title":"微風不燥秋意正好",

　　"image_count":15,

　　"images":[

　　{

　　"img_id":11585752,

　　"user_id":443122,

　　"title":"",

　　"excerpt":"",

　　"width":5016,

　　"height":3840

　　{

　　"img_id":11585737,

　　"user_id":443122,

　　"title":"",

　　"excerpt":"",

　　"width":3840,

　　"height":5760

　　...

　　"title_image":null,

　　"tags":[

　　{

　　"tag_id":131,

　　"type":"subject",

　　"tag_name":"人像",

　　"event_type":"",

　　"vote":""

　　{

　　"tag_id":564,

　　"type":"subject",

　　"tag_name":"美女",

　　"event_type":"",

　　"vote":""

　　}

　　"favorite_list_prefix":[],

　　"reward_list_prefix":[],

　　"comment_list_prefix":[],

　　"cover_image_src":"http://www.codingke.com/Python視頻課程/",

　　"is_favorite":false

　　}

　　"siteList":{...},

　　"following":false,

　　"coverUrl":"http://www.codingke.com/Python視頻課程/",

　　"tag_name":"美女",

　　"tag_id":"564",

　　"url":"https://tuchong.com/tags/%E7%BE%8E%E5%A5%B3/",

　　"more":true,

　　"result":"SUCCESS"

　　}

　　根據屬性名稱很容易知道對應的內容含義，這裏我們只需關心postlist這個屬性，它對應的一個數組元素便是一個圖集，圖集元素中有幾項屬性我們需要用到：

　　url：單個圖集瀏覽的頁面地址

　　post_id：圖集編號，在網站中應該是唯一的，可以用來判斷是否已經抓取過該內容

　　site_id：作者站點編號，構建圖片來源鏈接要用到

　　title：標題

　　excerpt：摘要文字

　　type：圖集類型，目前發現兩種，一種multi-photo是純照片，一種text是文字與圖片混合的文章式頁面，兩種內容結構不同，需要不同的抓取方式，本例中只抓取純照片類型，text類型直接丟棄

　　tags：圖集標簽，有多個

　　image_count：圖片數量

　　images：圖片列表，它是一個對象數組，每個對象中包含一個img_id屬性需要用到

　　根據圖片瀏覽頁面分析，基本上圖片的地址都是這種格式：https://photo.tuchong.com/{site_id}/f/{img_id}.jpg，很容易通過上面的信息合成。

　　（二）創建項目

　　進入cmder命令行工具，輸入workonscrapy進入之前建立的虛擬環境，此時命令行提示符前會出現(Scrapy)標識，標識處於該虛擬環境中，相關的路徑都會添加到PATH環境變量中便於開發及使用。

　　輸入scrapystartprojecttuchong創建項目tuchong

　　進入項目主目錄，輸入scrapygenspiderphototuchong.com創建一個爬蟲名稱叫photo(不能與項目同名)，爬取tuchong.com域名（這個需要修改，此處先輸個大概地址），的一個項目內可以包含多個爬蟲

　　經過以上步驟，項目自動建立了一些文件及設置，目錄結構如下：

　　(PROJECT)

　　│scrapy.cfg

　　│

　　└─tuchong

　　│items.py

　　│middlewares.py

　　│pipelines.py

　　│settings.py

　　│init.py

　　│

　　├─spiders

　　││photo.py

　　││init.py

　　││

　　│└─pycache

　　│init.cpython-36.pyc

　　│

　　└─pycache

　　settings.cpython-36.pyc

　　init.cpython-36.pyc

　　scrapy.cfg：基礎設置

　　items.py：抓取條目的結構定義

　　middlewares.py：中間件定義，此例中無需改動

　　pipelines.py：管道定義，用於抓取數據後的處理

　　settings.py：全局設置

　　spidersphoto.py：爬蟲主體，定義如何抓取需要的數據
技術分享圖片

　　（三）主要代碼

　　items.py中創建一個TuchongItem類並定義需要的屬性，屬性繼承自scrapy.Field值可以是字符、數字或者列表或字典等等：

　　importscrapy

　　classTuchongItem(scrapy.Item):

　　post_id=scrapy.Field()

　　site_id=scrapy.Field()

　　title=scrapy.Field()

　　type=scrapy.Field()

　　url=scrapy.Field()

　　image_count=scrapy.Field()

　　images=scrapy.Field()

　　tags=scrapy.Field()

　　excerpt=scrapy.Field()

　　...

　　這些屬性的值將在爬蟲主體中賦予。

　　spidersphoto.py這個文件是通過命令scrapygenspiderphototuchong.com自動創建的，裏面的初始內容如下：

　　importscrapy

　　classPhotoSpider(scrapy.Spider):

　　name=‘photo‘

　　allowed_domains=[‘tuchong.com‘]

　　start_urls=[‘http://tuchong.com/‘]

　　defparse(self,response):

　　pass

　　爬蟲名name，允許的域名allowed_domains（如果鏈接不屬於此域名將丟棄，允許多個），起始地址start_urls將從這裏定義的地址抓取（允許多個）

　　函數parse是處理請求內容的默認回調函數，參數response為請求內容，頁面內容文本保存在response.body中，我們需要對默認代碼稍加修改，讓其滿足多頁面循環發送請求，這需要重載start_requests函數，通過循環語句構建多頁的鏈接請求，修改後代碼如下：

　　importscrapy,json

　　from..itemsimportTuchongItem

　　classPhotoSpider(scrapy.Spider):

　　name=‘photo‘

　　#allowed_domains=[‘tuchong.com‘]

　　#start_urls=[‘http://tuchong.com/‘]

　　defstart_requests(self):

　　url=‘https://tuchong.com/rest/tags/%s/posts?page=%d&count=20&order=weekly‘;

　　#抓取10個頁面，每頁20個圖集

　　#指定parse作為回調函數並返回Requests請求對象

　　forpageinrange(1,11):

　　yieldscrapy.Request(url=url%(‘美女‘,page),callback=self.parse)

　　#回調函數，處理抓取內容填充TuchongItem屬性

　　defparse(self,response):

　　body=json.loads(response.body_as_unicode())

　　items=[]

　　forpostinbody[‘postList‘]:

　　item=TuchongItem()

　　item[‘type‘]=post[‘type‘]

　　item[‘post_id‘]=post[‘post_id‘]

　　item[‘site_id‘]=post[‘site_id‘]

　　item[‘title‘]=post[‘title‘]

　　item[‘url‘]=post[‘url‘]

　　item[‘excerpt‘]=post[‘excerpt‘]

　　item[‘image_count‘]=int(post[‘image_count‘])

　　item[‘images‘]={}

　　#將images處理成{img_id:img_url}對象數組

　　forimginpost.get(‘images‘,‘‘):

　　img_id=img[‘img_id‘]

　　url=‘https://photo.tuchong.com/%s/f/%s.jpg‘%(item[‘site_id‘],img_id)

　　item[‘images‘][img_id]=url

　　item[‘tags‘]=[]

　　#將tags處理成tag_name數組

　　fortaginpost.get(‘tags‘,‘‘):

　　item[‘tags‘].append(tag[‘tag_name‘])

　　items.append(item)

　　returnitems

　　經過這些步驟，抓取的數據將被保存在TuchongItem類中，作為結構化的數據便於處理及保存。

　　前面說過，並不是所有抓取的條目都需要，例如本例中我們只需要type=”multi_photo類型的圖集，並且圖片太少的也不需要，這些抓取條目的篩選操作以及如何保存需要在pipelines.py中處理，該文件中默認已創建類TuchongPipeline並重載了process_item函數，通過修改該函數只返回那些符合條件的item，代碼如下：

　　...

　　defprocess_item(self,item,spider):

　　#不符合條件觸發scrapy.exceptions.DropItem異常，符合條件的輸出地址

　　ifint(item[‘image_count‘])<3:

　　raiseDropItem("美女太少:"+item[‘url‘])

　　elifitem[‘type‘]!=‘multi-photo‘:

　　raiseDropItem("格式不對:"++item[‘url‘])

　　else:

　　print(item[‘url‘])

　　returnitem

　　...

　　當然如果不用管道直接在parse中處理也是一樣的，只不過這樣結構更清晰一些，而且還有功能更多的FilePipelines和ImagePipelines可供使用，process_item將在每一個條目抓取後觸發，同時還有open_spider及close_spider函數可以重載，用於處理爬蟲打開及關閉時的動作。

　　註意：管道需要在項目中註冊才能使用，在settings.py中添加：

　　ITEM_PIPELINES={

　　‘tuchong.pipelines.TuchongPipeline‘:300,#管道名稱:運行優先級(數字小優先)

　　}

　　另外，大多數網站都有反爬蟲的Robots.txt排除協議，設置ROBOTSTXT_OBEY=True可以忽略這些協議，是的，這好像只是個君子協定。如果網站設置了瀏覽器UserAgent或者IP地址檢測來反爬蟲，那就需要更高級的Scrapy功能，本文不做講解。

　　（四）運行

　　返回cmder命令行進入項目目錄，輸入命令：

　　scrapycrawlphoto

　　終端會輸出所有的爬行結果及調試信息，並在最後列出爬蟲運行的統計信息，例如：

　　[scrapy.statscollectors]INFO:DumpingScrapystats:

　　{‘downloader/request_bytes‘:491,

　　‘downloader/request_count‘:2,

　　‘downloader/request_method_count/GET‘:2,

　　‘downloader/response_bytes‘:10224,

　　‘downloader/response_count‘:2,

　　‘downloader/response_status_count/200‘:2,

　　‘finish_reason‘:‘finished‘,

　　‘finish_time‘:datetime.datetime(2017,11,27,7,20,24,414201),

　　‘item_dropped_count‘:5,

　　‘item_dropped_reasons_count/DropItem‘:5,

　　‘item_scraped_count‘:15,

　　‘log_count/DEBUG‘:18,

　　‘log_count/INFO‘:8,

　　‘log_count/WARNING‘:5,

　　‘response_received_count‘:2,

　　‘scheduler/dequeued‘:1,

　　‘scheduler/dequeued/memory‘:1,

　　‘scheduler/enqueued‘:1,

　　‘scheduler/enqueued/memory‘:1,

　　‘start_time‘:datetime.datetime(2017,11,27,7,20,23,867300)}

　　主要關註ERROR及WARNING兩項，這裏的Warning其實是不符合條件而觸發的DropItem異常。

　　（五）保存結果

　　大多數情況下都需要對抓取的結果進行保存，默認情況下item.py中定義的屬性可以保存到文件中，只需要命令行加參數-o{filename}即可：

　　scrapycrawlphoto-ooutput.json#輸出為JSON文件

　　scrapycrawlphoto-ooutput.csv#輸出為CSV文件

　　註意：輸出至文件中的項目是未經過TuchongPipeline篩選的項目，只要在parse函數中返回的Item都會輸出，因此也可以在parse中過濾只返回需要的項目

　　如果需要保存至數據庫，則需要添加額外代碼處理，比如可以在pipelines.py中process_item後添加:

　　...

　　defprocess_item(self,item,spider):

　　...

　　else:

　　print(item[‘url‘])

　　self.myblog.add_post(item)#myblog是一個數據庫類，用於處理數據庫操作

　　returnitem

　　...

　　為了在插入數據庫操作中排除重復的內容，可以使用item[‘post_id’]進行判斷，如果存在則跳過。

淺談基於Python的Scrapy爬蟲入門

Python爬蟲教程 Python內容講解（一）內容分析　　接下來創建一個爬蟲項目，以圖蟲網為例抓取裏面的圖片。在頂部菜單“發現”“標簽”裏面是對各種圖片的分類，點擊一個標簽，比如“Python視頻課程”，網頁的鏈接為：http://www.codingke.com/Python視頻課程/，我們以

淺談基於Python的Scrapy爬蟲入門

淺談基於Python的Scrapy爬蟲入門

淺談基於Prism的軟件系統的架構設計

創客集結號淺談基於創客教育培養創客教師的八大建議

淺談基於WOPI協議實現跨瀏覽器的Office線上編輯解決方案

淺談基於VCS+VVR+GCO組合的資料容災方案

淺談基於機器學習的智慧運維

淺談基於 NTP 的反射和放大攻擊

淺談基於Selenium的Web自動化測試框架

淺談基於隨機性演算法的素數判定

淺談基於JavaScript的DDOS攻擊

淺談基於過程與基於物件

淺談基於simhash的文字去重原理

一隻簡單的網路爬蟲（基於linux C/C++）————淺談併發（IO複用）模型

反射入門-淺談反射用途_根據Ado遊標對象創建list集合

淺談SQL優化入門：3、利用索引

Java入門淺談

入門淺談-產品經理與眾不同的思維方式和“職業病”

淺談分散式鎖--基於快取（Redis，memcached，tair）實現篇

淺談分散式鎖--基於Zookeeper實現篇

淺談分散式鎖--基於資料庫實現篇

淺談基於Python的Scrapy爬蟲入門

相關推薦