2018 - Python 3.7 爬蟲之利用 Scrapy 框架獲取圖片並下載（二）

阿新 • • 發佈：2018-11-08

一、通過命令構建一個爬蟲專案

二、定義 item

未安裝 Scrapy 框架，見上一篇文章：框架安裝及配置

一、通過命令構建一個爬蟲專案

注：SinanewsSpider 為專案名

scrapy startproject SinanewsSpider

成功建立後的目錄如下：

這些檔案主要是：
scrapy.cfg: 專案配置檔案
SinanewsSpider/: 專案python模組, 程式碼將從這裡匯入
SinanewsSpider/items.py: 專案items檔案
SinanewsSpider/pipelines.py: 專案管道檔案
SinanewsSpider/settings.py: 專案配置檔案
SinanewsSpider/spiders: 放置spider的目錄

二、定義 item

編輯 settings.py 檔案，定義兩個資料存放的容器（ items 是將要裝載抓取的資料的容器）

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class SinanewsspiderItem(scrapy.Item): #定義資料項類，從scrapy.Item繼承
    # define the fields for your item here like:
    # name = scrapy.Field()
    addr = scrapy.Field()
    name = scrapy.Field()
    pass

三、啟用 pipeline 管道

編輯 settings.py 檔案，新增如下程式碼：

BOT_NAME = 'SinanewsSpider'

SPIDER_MODULES = ['SinanewsSpider.spiders']
NEWSPIDER_MODULE = 'SinanewsSpider.spiders'

ROBOTSTXT_OBEY = True

ITEM_PIPELINES = {
    'SinanewsSpider.pipelines.SinanewsspiderPipeline': 300,
}

四、編寫爬蟲 Spider

新建 SinanewsSpider.py 檔案，Scrapy 框架已經幫助我們定義好了基礎爬蟲，只需要從 scrapy.spider 繼承，並重寫相應的解析函式 parse 即可。

注：案例使用的網站是 www.xiaohuar.com

# -*- coding: utf-8 -*-
# 匯入爬蟲框架
import scrapy
# 匯入item中結構化資料模板
from SinanewsSpider.items import SinanewsspiderItem

import urllib.request
import time
import win32api,win32con
import os

class SinanewsSpider(scrapy.Spider):
    # 爬蟲名稱，唯一
    name = 'SinanewsSpider'
    # 允許訪問的域
    allowed_domains = ['xiaohuar.com']
    # 初始URL
    start_urls = [
        'http://www.xiaohuar.com/2014.html'
    ]

    def parse(self, response):
        # 獲取所有圖片的a標籤
        allPics = response.xpath('//div[@class="img"]/a')
        # 判斷檔案是否存在
        if not os.path.exists(get_desktop() + '\\TP'):
            os.mkdir(get_desktop() + '\\TP')
        for pic in allPics:
            # 分別處理每個圖片，取出名稱及地址
            item = SinanewsspiderItem()
            name = pic.xpath('./img/@alt').extract()
            # 沒有這個屬性就不取值
            if name.__len__() != 0:
                name = name[0]
            addr = pic.xpath('./img/@src').extract()
            # 沒有這個屬性就不取值
            if addr.__len__() != 0:
                addr = addr[0]
            # 沒有字首加字首
            if 'http://www.xiaohuar.com' not in addr:
                addr = 'http://www.xiaohuar.com' + addr
            # 將資料存入到資料項
            item['name'] = name
            item['addr'] = addr
            # 下載並儲存到桌面的TP資料夾中
            urllib.request.urlretrieve(addr, get_desktop() + "\\TP\\" + str(round(time.time() * 1000)) + '.jpg')
            print(addr, "下載成功")
            # 返回爬取到的資料
            yield item

# 獲得桌面路徑
def get_desktop():
    key =win32api.RegOpenKey(win32con.HKEY_CURRENT_USER,r'Software\Microsoft\Windows\CurrentVersion\Explorer\Shell Folders',0,win32con.KEY_READ)
    return win32api.RegQueryValueEx(key,'Desktop')[0]

五、執行爬蟲

scrapy crawl SinanewsSpider

六、結果檢視

2018 - Python 3.7 爬蟲之利用 Scrapy 框架獲取圖片並下載（二）

一、通過命令構建一個爬蟲專案二、定義 item 三、啟用 pipeline 管道四、編寫爬蟲 Spider 五、執行爬蟲六、結果檢視未安裝 Scrapy 框架，見上一篇文章：框架安裝及配置一、通過命令構建一個爬蟲專

2018 - Python 3.7 爬蟲之 Scrapy 框架的安裝及配置（一）

一，安裝 Python3.7 二，安裝 pip 三，安裝 pywin32 四，安裝 pyOpenSSL 五，安裝 lxml 六，安裝 zope.interface 七，安裝 twisted 八，安裝 Scrapy 九，一鍵升級所有庫，Python 3.7親測可用，建立

python爬蟲之利用scrapy框架抓取新浪天氣資料

scrapy中文官方文件：點選開啟連結Scrapy是Python開發的一個快速、高層次的螢幕抓取和web抓取框架，用於抓取web站點並從頁面中提取結構化的資料。Scrapy用途廣泛，可以用於資料探勘、監測和自動化測試，Scrapy吸引人的地方在於它是一個框架，任何人都可以根據

前端開發框架總結之利用Jtopo實現網路拓撲功能（二）

前端開發框架總結之利用Jtopo實現網路拓撲功能（二）上文我們講了一些拓撲結點生成的實際場景設計和實現思路以及一些關鍵技術細節。本文我們繼續我們的拓撲管理

零基礎寫python爬蟲之使用Scrapy框架編寫爬蟲

https://www.jb51.net/article/57183.htm 前面的文章我們介紹了Python爬蟲框架Scrapy的安裝與配置等基本資料，本文我們就來看看如何使用Scrapy框架方便快捷的抓取一個網站的內容，隨便選個小站（dmoz.org）來示例吧網

如何利用Python網絡爬蟲抓取微信朋友圈的動態（上）

Python 網絡爬蟲微信朋友圈 Python開發今天小編給大家分享一下如何利用Python網絡爬蟲抓取微信朋友圈的動態信息，實際上如果單獨的去爬取朋友圈的話，難度會非常大，因為微信沒有提供向網易雲音樂這樣的API接口，所以很容易找不到門。不過不要慌，小編在網上找到了第三方工具，它可

小白scrapy爬蟲之爬取簡書網頁並下載對應鏈接內容

tps python 分享列表 scrapy 網頁 pytho 分享圖片介紹 *準備工作：爬取的網址：https://www.jianshu.com/p/7353375213ab 爬取的內容：下圖中python庫介紹的內容列表，並將其鏈接的文章內容寫進文本文件中小

python3爬蟲之使用Scrapy框架爬取性感女神美女照片

使用Scrapy框架爬取性感女神美女照片其實很簡單哦，只需要5分鐘，爬取上萬張性感女神照片。先給大家看一下成果吧：激不激動，興不興奮，那就快來學一下吧：開始專案前需要安裝python3和Scrapy，不會的自行百度，這裡就不具體介紹了接下來是程式碼

python3爬蟲之使用Scrapy框架爬取英雄聯盟高清桌面桌布

使用Scrapy爬蟲抓取英雄聯盟高清桌面桌布開始專案前需要安裝python3和Scrapy，不會的自行百度，這裡就不具體介紹了首先，建立專案 scrapy startproject loldesk 生成專案的目錄結構首先需要定義抓取元素，在item.p

USGS-EROS項目espa-surface-reflectance中的LaSRC Version 1.3.0模塊利用vs2010編譯出windows64位版本（一）

product 發現 jpeg git clone args dcl 函數中一比較 Landsat8衛星的大氣校正目前國內有很多學者都在做，隨便百度一下就能找到很多論文，提出的算法都有各自的亮點，學術研究上都有意義。但是，問題來了，如果要真正拿出來處理任意一幅La

【Mac系統 + Python + Django】之開發一個釋出會系統【Django模型（二）】【Mac系統 + Mysql】之安裝Mysql資料庫【Python + Mysql】之用pymysql庫連線Mysql資料庫並進行增刪改查操作

上一部分給大家介紹Django的檢視。接下來繼續來了解Django框架，來看第二部分，此部分是對資料庫的操作。目錄：一、設計系統表二、admin後臺管理三、基本資料訪問(SQLite資料庫) 四、Django配置MySQL &

前端開發框架總結之利用Jtopo實現網路拓撲功能（四）

前端開發框架總結之利用Jtopo實現網路拓撲功能（四）上文我們講了拓撲容器相關的互動設計和實現思路以及一些關鍵技術細節。至此，我們已經覆蓋了結

前端開發框架總結之利用Jtopo實現網路拓撲功能（三）

前端開發框架總結之利用Jtopo實現網路拓撲功能（三）上文我們講了一些拓撲連線、拓撲文字節點相關的互動設計和實現思路以及一些關鍵技術細節。本文

前端開發框架總結之利用Jtopo實現網路拓撲功能（一）

前端開發框架總結之利用Jtopo實現網路拓撲功能（一）前言：前段時間由於專案需要實現一個網路裝置拓撲管理的

python爬蟲小試例項--爬取網頁圖片並下載

一、python安裝在python的官網下載python版本，需要下載對應版本（在計算機-屬性中檢視自己是32位作業系統還是64位作業系統），我是64位的，就下載64位對應的安裝包了（如下圖：Windows x86-64 executable installer）。官網下載地

Python網路程式設計 ---Socket模組學習之獲取遠端裝置IP（二）

1、使用內建庫函式gethostbyname()，引數為遠端裝置的主機名。新建檔案 getremotemachineinfo.py#!/usr/bin/python import socket def get_remote_machine_info(): remote

python之讀取配置文件模塊configparser（二）參數詳解

string cts open mod fix error: 註釋大於 default configparser.ConfigParser參數詳解從configparser的__ini__中可以看到有如下參數： def __init__(self, defaul

python Scrapy 從零開始學習筆記（二）

在之前的文章中我們簡單瞭解了一下Scrapy 框架和安裝及目錄的介紹，本章我們將根據 scrapy 框架實現部落格園首頁部落格的爬取及資料處理。我們先在自定義的目錄中通過命令列來構建一個 scrapy 專案目錄 scrapy startproject scrapyCnblogs 生成一下目錄

iOS 利用FFmpeg 開發音視頻流（二）

框架視頻流 -i ref image ear target bin scrip 原文地址： iOS配置FFmpeg框架(原創) 腳本文件下載地址 https://github.com/kewlbear/FFmpeg-iOS-build-script。上述博文中是直接下載

zabbix系列之使用ansible批量部署zabbix客戶端（二）

zabbix_agent ansible 批量部署客戶端 ansible ansible是新出現的自動化運維工具，基於Python開發，集合了眾多運維工具（puppet、cfengine、chef、func、fabric）的優點，實現了批量系統配置、批量程序部署、批量運行命令等功能。

2018 - Python 3.7 爬蟲之 利用 Scrapy 框架 獲取圖片並下載（二）

一、 通過命令構建一個爬蟲專案

二、定義 item

三、啟用 pipeline 管道

四、編寫爬蟲 Spider

五、執行爬蟲

六、結果檢視

相關推薦

2018 - Python 3.7 爬蟲之利用 Scrapy 框架獲取圖片並下載（二）

一、通過命令構建一個爬蟲專案