scrapy爬蟲框架簡單入門例項（二）

阿新 • • 發佈：2018-11-27

接著上一篇文章，我們已經可以用爬蟲訪問目標網站爬取頁面了，現在需要自動提交表單查詢資料，並且從頁面中篩選出每期中獎號碼儲存為json檔案匯出。首先建立一個scrapy.Item類（開啟專案資料夾下的items.py檔案）：

import scrapy


class SsqSpiderItem(scrapy.Item):
    issue_num = scrapy.Field()
    red = scrapy.Field()
    blue = scrapy.Field()

我們需要爬取每期中獎號碼的期數，以及紅球陣列和藍球號；定義屬性值為scrapy.Field()。然後回到爬蟲程式碼引入這個類：

from ssq_spider.items import SsqSpiderItem

直接貼一個寫好的程式碼：

# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request, FormRequest
from ssq_spider.items import SsqSpiderItem


class SsqSpider(scrapy.Spider):
    name = 'ssq'
    allowed_domains = ['http://zst.aicai.com/ssq/']  # 爬取域名
    # start_urls = ['http://zst.aicai.com/ssq/']
    # 爬取網址,只適於不需要提交cookie的網站，因為沒法設定cookie等資訊
    scope_date = [['2012001', '2014200'], [
        '2015001', '2017200'], ['2018001', '2018130']]

    # 設定瀏覽器使用者代理
    header = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0'}

    def start_requests(self):
        # 第一次請求頁面，設定開啟cookie使其得到cookie，設定回撥函式
        return [Request('http://zst.aicai.com/ssq/', meta={'cookiejar': 1}, callback=self.parse)]

    def parse(self, response):
        print('請求頭資訊')
        print(response.request.headers)
        print('響應頭資訊')
        print(response.headers)
        print(response.status)
        print('---Cookie---')
        # 請求Cookie
        request_Cookie = response.request.headers.getlist('Cookie')
        print(request_Cookie)
        # 響應Cookie
        response_Cookie = response.headers.getlist('Set-Cookie')
        print(response_Cookie)
        print('---end---')
        # 設定提交表單資訊,對應抓包得到欄位
        for i in SsqSpider.scope_date:
            form_data = {
                'startIssue': i[0],
                'endIssue': i[1],
                'sIssue': '',
                'eIssue': '',
                'maxsize': '30',
                'openDate': '',
                'statisticsTag': '1',
                'sortTag': 'up'
            }
            # 第二次用表單post請求，攜帶Cookie、瀏覽器代理等資訊給Cookie授權
            yield FormRequest.from_response(response,
                                            url='http://zst.aicai.com/ssq/',  # 真實post地址
                                            meta={'cookiejar': response.meta[
                                                'cookiejar']},
                                            headers=self.header,
                                            formdata=form_data,
                                            callback=self.next,
                                            dont_filter=True
                                            )

    def next(self, response):
        items = SsqSpiderItem()
        print(response.css('title').extract())
        html_tr = response.css('#tdata tr:not(.tdbck)')
        for i in html_tr:
            items['issue_num'] = i.css('td:nth-child(1)::text').extract()[0]
            items['red'] = i.css('.chartBall01::text').extract()
            items['blue'] = i.css('.chartBall02::text').extract()[0]
            yield items

從response物件中用scrapy自帶的css選擇器解析提取出資料，執行命令就可以匯出json檔案：

scrapy crawl '爬蟲名稱' -o items.json

或者通過配置pipelines匯出json檔案，開啟pipelines.py：

import codecs
import os
import json


class JsonPipeline(object):
    def process_item(self, item, spider):
        base_dir = os.getcwd()
        filename = base_dir + '/ssq_item.json'
        # 開啟json檔案，以dumps的方式將一個Python資料型別列表進行json格式的編碼
        # 注意需要有一個引數ensure_ascii=False ，不然資料會直接為utf編碼的方式存入
        with codecs.open(filename, 'a') as f:
            line = json.dumps(dict(item), ensure_ascii=False) + ',\n'
            f.write(line)
        return item

接著編寫settings.py ，我們需要在Settings.py將我們寫好的pipeline新增進去，這裡只需要增加一個dict格式ITEM_PIPELINES，數字value可以自定義，數字越小的優先處理。

ITEM_PIPELINES = {
    'ssq_spider.pipelines.JsonPipeline': 300,
}

執行爬蟲就能匯出json：

scrapy crawl '爬蟲名稱'

需要注意的是，這樣匯出的json檔案格式不太嚴謹（缺少[ ]字元，程式直接讀取json檔案會報錯）；由於scrapy框架為了執行更有效率，採用的是多執行緒並行爬取，所以爬取的資料沒有順序：

強迫症表示不能忍，新建一個python檔案用來排序：

import json


def sorting_json():
    with open('./spiders/ssq_item.json', 'r', encoding='utf-8') as s_i:
        json_data = json.load(s_i, strict=False)
        # 利用issue_num欄位排序
        json_data.sort(key=lambda x: x['issue_num'], reverse=True)
        return json_data

with open('ssq.js', 'a') as s:
    n = sorting_json()
    for i, value in enumerate(n):
        if i == 0:
            s.write('var ssq_data = [')
        line = json.dumps(dict(value), ensure_ascii=False) + ',\n'
        if i == len(n) - 1:
            line = json.dumps(dict(value), ensure_ascii=False) + ']'
        s.write(line)

有了資料，就可以為所欲為了（邪魅一笑~）：

隨便用js寫了個程式碼，想看看從2012年到現在有沒有2期6個紅球完全相同的情況，可惜沒有；5個紅球相同倒是有，而且13年有相鄰的兩期5個紅球和藍球號都一樣。（被安排的明明白白……）

感慨一下，寫爬蟲其實不難，難的是反爬處理，這裡推薦一個連結：https://weibo.com/ttarticle/p/show?id=2309404125351516226870

scrapy爬蟲框架簡單入門例項（二）

接著上一篇文章，我們已經可以用爬蟲訪問目標網站爬取頁面了，現在需要自動提交表單查詢資料，並且從頁面中篩選出每期中獎號碼儲存為json檔案匯出。首先建立一個scrapy.Item類（開啟專案資料夾下的items.py檔案）： import scrapy class SsqSpiderIte

scrapy爬蟲框架簡單入門例項（一）

scrapy是一個用於爬取網站資料，提取結構性資料的python應用框架。爬取的資料一般用於資料分析，資料處理，儲存歷史資料等。scrapy的整體架構大致如下：主要包括了以下元件：引擎(Scrapy) 用來處理整個系統的資料流, 觸發事務(框架核心) 排程器(

python爬蟲"Hello World"級入門例項（二）,使用json從中國天氣網抓取資料

一、二話不說先上程式碼 python2.7版 #!/usr/bin/python2.7 #-*- coding=UTF-8 -*- import urllib import json def get_dic(url): page = urll

網路程式設計基礎【day08】：簡單socket例項（二）

本節內容 1、概述 2、socket例項 3、總結一、概述　　之前我們只是介紹了soket的概念和一些邏輯圖表，下面我們來看看，socket的客戶端和服務端到底是怎麼用的？二、socket例項 2.1 客戶端 2.1.1 客戶端程式碼邏輯圖 2.1.2 客戶端程式碼

tensorflow 入門例項（二）

import tensorflow as tf # 建立一個常量 op, 產生一個 1x2 矩陣. 這個 op 被作為一個節點 # 加到預設圖中. # # 構造器的返回值代表該常量 op 的返回值.

Quartz學習——Quartz簡單入門Demo（二）

要學習Quartz框架，首先大概瞭解了Quartz的基本知識後，在通過簡單的例子入門，一步一個腳印的走下去。下面介紹Quartz入門的示例，由於Quartz的儲存方式分為RAM和JDBC，分別對這兩種進行簡單的說明。並附上程式碼！首先需要新增Quartz

Python爬蟲框架Scrapy例項（二）

目標任務：使用Scrapy框架爬取新浪網導航頁所有大類、小類、小類裡的子連結、以及子連結頁面的新聞內容，最後儲存到本地。大類小類如下圖所示：點選國內這個小類，進入頁面後效果如下圖（部分截圖）：檢視頁面元素，得到小類裡的子連結如下圖所示：有子連結

小白學 Python 爬蟲（34）：爬蟲框架 Scrapy 入門基礎（二）

人生苦短，我用 Python 前文傳送門：小白學 Python 爬蟲（1）：開篇小白學 Python 爬蟲（2）：前置準備（一）基本類庫的安裝小白學 Python 爬蟲（3）：前置準備（二）Linux基礎入門小白學 Python 爬蟲（4）：前置準備（三）Docker基礎入門小白學 Pyth

SpringBoot入門筆記（二）IDEA下springboot專案spring+mybatis+sqlserver+log4j+簡單登入驗證攔截器的框架搭建

IDEA下springboot專案spring+mybatis+sqlserver+log4j+簡單登入驗證攔截器的框架搭建先貼一個專案的目錄結構 Attention：templates.html5是templates目錄下新建了一個html5目錄 1.專案建立這個簡單，選

scrapy爬蟲框架簡單例項

宣告：初學scrapy，總結學習內容。目錄四、測試一、安裝scrapy pip install scrapy 二、建立工程 scrapy startproject mySpider #建立scra

Asp.Net Core WebAPI入門整理（二）簡單示例

序列 open exc tor pda template ssa net found 一、Core WebAPI中的序列化使用的是Newtonsoft.Json,自定義全局配置處理： // This method gets called by the runtime.

Python遺傳演算法框架使用例項（二）多目標優化問題Geatpy for Python與Matlab的對比學習

在前面幾篇文章中，我們已經介紹了高效能Python遺傳和進化演算法框架——Geatpy的使用及一些案例。本篇就一個多目標優化例項進行展開講述，並且與使用Matlab工具箱得到相近效果進行一些對比： Geatpy已於2018.09.20更新至1.0.6版本

Elastic Job 入門教程（二）— Spring Boot框架下是實現Elastic Job 指令碼作業（Script Job）

在Elastic Job 入門教程（一）— 與Spring Boot整合這篇文章中，我們簡單介紹了Spring Boot與Elastic Job 的整合，並簡單實現了SimpleJob型別作業。本章，我

怎樣解決安裝scrapy爬蟲框架失敗的問題（圖文教程）？

下面是我安裝scrapy成功的經歷，分享給大家：安裝scrapy一般使用：pip install scrapy 是安裝不成功的，在安裝的過程中會報錯，本人的安裝過程中報錯的資訊如下： 1.第一個錯誤提示：錯誤的原因：沒有安裝Twisted Failed

爬蟲入門系列（二）：優雅的HTTP庫requests

爬蟲入門系列目錄： urllib、urllib2、urllib3、httplib、httplib2 都是和 HTTP 相關的 Python 模組，看名字就覺得很反人類，更糟糕的是這些模組在 Python2 與 Python3 中有很大的差異，如果業務程式碼要同時相容 2 和 3，寫起來

SciKit-learn快速入門教程和例項（二）

一，sklearn的常用屬性和功能繼續上次對波士頓房價預測的討論，瞭解模型的屬性和功能。 #首先匯入庫，使用的是線性迴歸 from sklearn import datasets from sklearn.linear_model import LinearRegr

scrapy的入門使用（二）

1. scrapy實現翻頁請求找到下一頁的url地址構造url地址的請求，傳遞給引擎 1.1 實現翻頁請求使用方法在獲取到url地址之後，可以通過sc

Swift教程_零基礎學習Swift完整例項（二）_swift基礎（簡單值、控制流、方法和閉包）

三、Swift基礎介紹本章將對Swift做一個簡單說明，內容取自《The Swift Programming Language》，並加之自己的理解。首先swift全域性作用域中的程式碼會被自動當做程

網頁爬蟲例項（二）-頁面出現意外錯誤

在scrapy爬蟲框架xpath中extract（）方法的使用

本案例列舉的是爬取騰訊社招中涉及到 extract（）使用的總結（1）第一種：position = job.xpath('./td[1]/a/text()')[<Selector xpath='./td[1]/a/text()' data='22989-騰訊雲虛擬化高階

scrapy爬蟲框架簡單入門例項（二）

相關推薦