Python爬蟲框架Scrapy實例（二）

阿新 • • 發佈：2017-10-06

head sports spi 工作目錄 http 鏈接進入效果 tex

目標任務：使用Scrapy框架爬取新浪網導航頁所有大類、小類、小類裏的子鏈接、以及子鏈接頁面的新聞內容，最後保存到本地。

大類小類如下圖所示：

技術分享

點擊國內這個小類，進入頁面後效果如下圖（部分截圖）：

技術分享

查看頁面元素，得到小類裏的子鏈接如下圖所示：

技術分享

有子鏈接就可以發送請求來訪問對應新聞的內容了。

首先創建scrapy項目

# 創建項目
scrapy startproject sinaNews
# 創建爬蟲
scrapy genspider sina "sina.com.cn"

一、根據要爬取的字段創建item文件：

# -*- coding: utf-8 -*-

import scrapy
 
import sys
reload(sys)
sys.setdefaultencoding("utf-8")


class SinanewsItem(scrapy.Item):
    # 大類的標題和url
    parentTitle = scrapy.Field()
    parentUrls = scrapy.Field()

    # 小類的標題和子url
    subTitle = scrapy.Field()
    subUrls = scrapy.Field()

    # 小類目錄存儲路徑
    subFilename = scrapy.Field()

     
# 小類下的子鏈接
    sonUrls = scrapy.Field()

    # 文章標題和內容
    head = scrapy.Field()
    content = scrapy.Field()

二、編寫spiders爬蟲文件

# -*- coding: utf-8 -*-

import scrapy
import os
from sinaNews.items import SinanewsItem
import sys
reload(sys)
sys.setdefaultencoding("utf-8")


class SinaSpider(scrapy.Spider):
    name  
= "sina"
    allowed_domains = ["sina.com.cn"]
    start_urls = [‘http://news.sina.com.cn/guide/‘]
      
    def parse(self, response):
        items= []
        # 所有大類的url 和 標題
        parentUrls = response.xpath(‘//div[@id="tab01"]/div/h3/a/@href‘).extract()
        parentTitle = response.xpath(‘//div[@id="tab01"]/div/h3/a/text()‘).extract()

        # 所有小類的ur 和 標題
        subUrls  = response.xpath(‘//div[@id="tab01"]/div/ul/li/a/@href‘).extract()
        subTitle = response.xpath(‘//div[@id="tab01"]/div/ul/li/a/text()‘).extract()

        #爬取所有大類
        for i in range(0, len(parentTitle)):
            # 指定大類目錄的路徑和目錄名
            parentFilename = "./Data/" + parentTitle[i]

            #如果目錄不存在，則創建目錄
            if(not os.path.exists(parentFilename)):
                os.makedirs(parentFilename)

            # 爬取所有小類
            for j in range(0, len(subUrls)):
                item = SinanewsItem()

                # 保存大類的title和urls
                item[‘parentTitle‘] = parentTitle[i]
                item[‘parentUrls‘] = parentUrls[i]

                # 檢查小類的url是否以同類別大類url開頭，如果是返回True (sports.sina.com.cn 和 sports.sina.com.cn/nba)
                if_belong = subUrls[j].startswith(item[‘parentUrls‘])

                # 如果屬於本大類，將存儲目錄放在本大類目錄下
                if(if_belong):
                    subFilename =parentFilename + ‘/‘+ subTitle[j]
                    # 如果目錄不存在，則創建目錄
                    if(not os.path.exists(subFilename)):
                        os.makedirs(subFilename)

                    # 存儲 小類url、title和filename字段數據
                    item[‘subUrls‘] = subUrls[j]
                    item[‘subTitle‘] =subTitle[j]
                    item[‘subFilename‘] = subFilename

                    items.append(item)

        #發送每個小類url的Request請求，得到Response連同包含meta數據 一同交給回調函數 second_parse 方法處理
        for item in items:
            yield scrapy.Request( url = item[‘subUrls‘], meta={‘meta_1‘: item}, callback=self.second_parse)

    #對於返回的小類的url，再進行遞歸請求
    def second_parse(self, response):
        # 提取每次Response的meta數據
        meta_1= response.meta[‘meta_1‘]

        # 取出小類裏所有子鏈接
        sonUrls = response.xpath(‘//a/@href‘).extract()

        items= []
        for i in range(0, len(sonUrls)):
            # 檢查每個鏈接是否以大類url開頭、以.shtml結尾，如果是返回True
            if_belong = sonUrls[i].endswith(‘.shtml‘) and sonUrls[i].startswith(meta_1[‘parentUrls‘])

            # 如果屬於本大類，獲取字段值放在同一個item下便於傳輸
            if(if_belong):
                item = SinanewsItem()
                item[‘parentTitle‘] =meta_1[‘parentTitle‘]
                item[‘parentUrls‘] =meta_1[‘parentUrls‘]
                item[‘subUrls‘] = meta_1[‘subUrls‘]
                item[‘subTitle‘] = meta_1[‘subTitle‘]
                item[‘subFilename‘] = meta_1[‘subFilename‘]
                item[‘sonUrls‘] = sonUrls[i]
                items.append(item)

        #發送每個小類下子鏈接url的Request請求，得到Response後連同包含meta數據 一同交給回調函數 detail_parse 方法處理
        for item in items:
                yield scrapy.Request(url=item[‘sonUrls‘], meta={‘meta_2‘:item}, callback = self.detail_parse)

    # 數據解析方法，獲取文章標題和內容
    def detail_parse(self, response):
        item = response.meta[‘meta_2‘]
        content = ""
        head = response.xpath(‘//h1[@id="main_title"]/text()‘)
        content_list = response.xpath(‘//div[@id="artibody"]/p/text()‘).extract()

        # 將p標簽裏的文本內容合並到一起
        for content_one in content_list:
            content += content_one

        item[‘head‘]= head
        item[‘content‘]= content

        yield item

三、編寫pipelines文件

# -*- coding: utf-8 -*-

from scrapy import signals
import sys
reload(sys)
sys.setdefaultencoding("utf-8")

class SinanewsPipeline(object):
    def process_item(self, item, spider):
        sonUrls = item[‘sonUrls‘]

        # 文件名為子鏈接url中間部分，並將 / 替換為 _，保存為 .txt格式
        filename = sonUrls[7:-6].replace(‘/‘,‘_‘)
        filename += ".txt"

        fp = open(item[‘subFilename‘]+‘/‘+filename, ‘w‘)
        fp.write(item[‘content‘])
        fp.close()

        return item

四、settings文件的設置

# 設置管道文件
ITEM_PIPELINES = {
   ‘sinaNews.pipelines.SinanewsPipeline‘: 300,
}

執行命令

scrapy crwal sina

效果如下圖所示：

打開工作目錄下的Data目錄，顯示大類文件夾

技術分享

大開一個大類文件夾，顯示小類文件夾：

技術分享

打開一個小類文件夾，顯示文章：

技術分享

Python爬蟲框架Scrapy實例（二）

head sports spi 工作目錄 http 鏈接進入效果 tex 目標任務：使用Scrapy框架爬取新浪網導航頁所有大類、小類、小類裏的子鏈接、以及子鏈接頁面的新聞內容，最後保存到本地。大類小類如下圖所示：點擊國內這個小類，進入頁面後效果如下圖（部分截圖）

小白學 Python 爬蟲（34）：爬蟲框架 Scrapy 入門基礎（二）

人生苦短，我用 Python 前文傳送門：小白學 Python 爬蟲（1）：開篇小白學 Python 爬蟲（2）：前置準備（一）基本類庫的安裝小白學 Python 爬蟲（3）：前置準備（二）Linux基礎入門小白學 Python 爬蟲（4）：前置準備（三）Docker基礎入門小白學 Pyth

Python爬蟲實例（二）使用selenium抓取鬥魚直播平臺數據

def 獲取平臺 es2017 抓取設置 log ips driver 程序說明：抓取鬥魚直播平臺的直播房間號及其觀眾人數，最後統計出某一時刻的總直播人數和總觀眾人數。過程分析：一、進入鬥魚首頁http://www.douyu.com/directory/all 進

scrapy爬蟲框架簡單入門例項（二）

接著上一篇文章，我們已經可以用爬蟲訪問目標網站爬取頁面了，現在需要自動提交表單查詢資料，並且從頁面中篩選出每期中獎號碼儲存為json檔案匯出。首先建立一個scrapy.Item類（開啟專案資料夾下的items.py檔案）： import scrapy class SsqSpiderIte

Python - Django - ORM 實例（二）

cut 獲得 put con 修改 thead 不存在技術分享 cts 在 app01/models.py 中添加 Book 類對象表 from django.db import models # Create your models here. #

小白學 Python 爬蟲（33）：爬蟲框架 Scrapy 入門基礎（一）

小白學 Python 爬蟲（35）：爬蟲框架 Scrapy 入門基礎（三） Selector 選擇器

小白學 Python 爬蟲（36）：爬蟲框架 Scrapy 入門基礎（四） Downloader Middleware

小白學 Python 爬蟲（37）：爬蟲框架 Scrapy 入門基礎（五） Spider Middleware

小白學 Python 爬蟲（40）：爬蟲框架 Scrapy 入門基礎（七）對接 Selenium 實戰

小白學 Python 爬蟲（41）：爬蟲框架 Scrapy 入門基礎（八）對接 Splash 實戰

Hadoop作業性能指標及參數調優實例（二）Hadoop作業性能調優7個建議

optimize 自帶管理導致 10g avg merge map 設置作者:Shu, Alison Hadoop作業性能調優的兩種場景：一、用戶觀察到作業性能差，主動尋求幫助。（一）eBayEagle作業性能分析器 1. Hadoop作業性能異常指標 2.

JAVA基礎實例（二）

for bin 存在 void hset search demo 個數字 .so 1.做一個飼養員給動物餵食物的樣例體現JAVA中的面向對象思想,接口（抽象類）的用處 package com.softeem.demo; /** [email p

SpringCloud+MyBatis+Redis整合—— 超詳細實例（二）

數據庫 primary pri open nosql html batis urn hub 2、SpringCloud+MyBatis+Redis 　　redis是一種nosql數據庫，以鍵值對<key，value>的形式存儲數據，其速度相比於MySQL之類的數

python爬蟲從入門到放棄（二）之爬蟲的原理

在上文中我們說了：爬蟲就是請求網站並提取資料的自動化程式。其中請求，提取，自動化是爬蟲的關鍵！下面我們分析爬蟲的基本流程爬蟲的基本流程發起請求通過HTTP庫向目標站點發起請求，也就是傳送一個Request，請求可以包含額外的header等資訊，等待伺服器響應獲取響應內容如果伺服器能正常響應，會得到一個Resp

Python爬蟲框架Scrapy例項（二）

目標任務：使用Scrapy框架爬取新浪網導航頁所有大類、小類、小類裡的子連結、以及子連結頁面的新聞內容，最後儲存到本地。大類小類如下圖所示：點選國內這個小類，進入頁面後效果如下圖（部分截圖）：檢視頁面元素，得到小類裡的子連結如下圖所示：有子連結

Python爬蟲從入門到放棄（十三）之 Scrapy框架的命令行詳解

directory xpath idf 成了 spider i386 名稱 4.2 不同的這篇文章主要是對的scrapy命令行使用的一個介紹創建爬蟲項目 scrapy startproject 項目名例子如下： localhost:spider zhaofan$ sc

Python爬蟲實例（一）爬取百度貼吧帖子中的圖片

選擇圖片查看負責 targe mpat wid agent html headers 程序功能說明：爬取百度貼吧帖子中的圖片，用戶輸入貼吧名稱和要爬取的起始和終止頁數即可進行爬取。思路分析：一、指定貼吧url的獲取例如我們進入秦時明月吧，提取並分析其有效url如下

Python爬蟲實例（三）代理的使用

pen .sh strong list blank 寫入禁止 bsp open() 一些網站會有相應的反爬蟲措施，例如很多網站會檢測某一段時間某個IP的訪問次數，如果訪問頻率太快以至於看起來不像正常訪客，它可能就會會禁止這個IP的訪問。所以我們需要設置一些代理服務器，每隔

Python爬蟲實例（四）網站模擬登陸

opener 運行 webkit zh-cn head window targe Coding 破解一、獲取一個有登錄信息的Cookie模擬登陸下面以人人網為例，首先使用自己的賬號和密碼在瀏覽器登錄，然後通過抓包拿到cookie，再將cookie放到請求之中發送請求即可

Python爬蟲框架Scrapy實例（二）

相關推薦