python Scrapy網路爬蟲實戰（存Json檔案以及存到mysql資料庫）

阿新 • • 發佈：2018-11-15

1-Scrapy建立新工程

在開始爬取之前，您必須建立一個新的 Scrapy 專案。 進入您打算儲存程式碼的目錄中【工作目錄】，執行下列命令，如下是我建立的一個爬取豆瓣的工程douban【儲存路徑為：C:\python27\web】:

命令： scrapy startproject douban

2-目錄如下

3--items的編寫

首先，檔案中有items.py，這個裡面這要是用來封裝爬蟲所要爬的欄位，如爬豆瓣電影，需要爬電影的ID，url，電影名稱等。

# -*- coding:utf-8 -*-
import scrapy
class MovieItem(scrapy.Item):
    rank = scrapy.Field()
    title = scrapy.Field()
    link = scrapy.Field()
    rate = scrapy.Field()
    quote = scrapy.Field()

4-spider_movie250.py 的編寫

# -*- coding:utf-8 -*-
import scrapy
from douban.items import MovieItem
class Movie250Spider(scrapy.Spider):
  # 定義爬蟲的名稱，主要main方法使用
  name = 'doubanmovie'
  allowed_domains = ["douban.com"]
  start_urls = [
    "http://movie.douban.com/top250/"
  ]
  # 解析資料
  def parse(self, response):
    items = []
    for info in response.xpath('//div[@class="item"]'):
      item = MovieItem()
      item['rank'] = info.xpath('div[@class="pic"]/em/text()').extract()
      item['title'] = info.xpath('div[@class="pic"]/a/img/@alt').extract()
      item['link'] = info.xpath('div[@class="pic"]/a/@href').extract()
      item['rate'] = info.xpath('div[@class="info"]/div[@class="bd"]/div[@class="star"]/span/text()').extract()
      item['quote'] = info.xpath('div[@class="info"]/div[@class="bd"]/p[@class="quote"]/span/text()').extract()
      items.append(item)
      yield item
    # 翻頁
    next_page = response.xpath('//span[@class="next"]/a/@href')
    if next_page:
      url = response.urljoin(next_page[0].extract())
      #爬每一頁
      yield scrapy.Request(url, self.parse)

5-編寫pipelines

# -*- coding: utf-8 -*-
import json
import codecs
#以Json的形式儲存
class JsonWithEncodingCnblogsPipeline(object):
    def __init__(self):
        self.file = codecs.open('douban.json', 'w', encoding='utf-8')
    def process_item(self, item, spider):
        line = json.dumps(dict(item), ensure_ascii=False) + "\n"
        self.file.write(line)
        return item
    def spider_closed(self, spider):
        self.file.close()

#將資料儲存到mysql資料庫
from twisted.enterprise import adbapi
import MySQLdb
import MySQLdb.cursors
class MySQLStorePipeline(object):
    #資料庫引數
    def __init__(self):
        dbargs = dict(
             host = '127.0.0.1',
             db = '資料庫名',
             user = 'root',
             passwd = 'root',
             cursorclass = MySQLdb.cursors.DictCursor,
             charset = 'utf8',
             use_unicode = True
            )
        self.dbpool = adbapi.ConnectionPool('MySQLdb',**dbargs)

    '''
    The default pipeline invoke function
    '''
    def process_item(self, item,spider):
        res = self.dbpool.runInteraction(self.insert_into_table,item)
        return item
    #插入的表，此表需要事先建好
    def insert_into_table(self,conn,item):
            conn.execute('insert into douban(rank,title,rate,qute,link) values(%s,%s,%s,%s,%s)', (
                item['rank'][0],
                item['title'][0],
                 item['rate'][0],
                 item['quote'][0],
                 item['link'][0])
                )

6-settings的編寫

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1) XXXXXXX) Chrome/70.0.3538.67 Safari/537.36'
# start MySQL database configure setting
MYSQL_HOST = '127.0.0.1'
MYSQL_DBNAME = '資料庫名'
MYSQL_USER = 'root'
MYSQL_PASSWD = 'root'
# end of MySQL database configure setting

ITEM_PIPELINES = {
    'douban.pipelines.JsonWithEncodingCnblogsPipeline': 300,
    'douban.pipelines.MySQLStorePipeline': 300,
}

7-main 的編寫

from scrapy import cmdline
cmdline.execute("scrapy crawl doubanmovie".split())

python Scrapy網路爬蟲實戰（存Json檔案以及存到mysql資料庫）

1-Scrapy建立新工程在開始爬取之前，您必須建立一個新的 Scrapy 專案。進入您打算儲存程式碼的目錄中【工作目錄】，執行下列命令，如下是我建立的一個爬取豆瓣的工程douban【儲存路徑為：C:\python27\web】: 命令： scrapy star

scrapy(網路爬蟲)———CrawlSpider（規則爬蟲）

CrawlSpider（規則爬蟲）一 .簡介：它是Spider的派生類，Spider類的設計原則是隻爬取start_url列表中的網頁，而CrawlSpider類定義了一些規則(rule)來提供跟進link的方便的機制，從爬取的網頁中獲取link並繼續爬取的工作更適合。二.建立爬

用Python寫網路爬蟲系列（三）表單處理

import urllib,urllib2 LOGIN_URL = r'http://example.webscraping.com/user/login' LOGIN_EMAIL = '[email protected]' LOGIN_PASSWORD ='q

Python 3網路爬蟲開發實戰+精通Python爬蟲框架Scrapy學習資料

《Python 3網路爬蟲開發實戰》介紹瞭如何利用Python 3開發網路爬蟲，首先介紹了環境配置和基礎知識，然後討論了urllib、requests、正則表示式、Beautiful Soup、XPath、pyquery、資料儲存、Ajax資料爬取等內容，接著通過多個案例介紹了不同場景下如何實現資料爬取，後介

Python3網路爬蟲快速入門實戰解析（一小時入門 Python 3 網路爬蟲）

一前言三爬蟲實戰優美桌布下載 1實戰背景2實戰進階3整合程式碼愛奇藝VIP視訊下載 1實戰背景2實戰升級3編寫程式碼四總結一前言強烈建議：請在電腦的陪同下，閱讀本文。本文以實戰

Python 3網路爬蟲開發實戰（崔慶才）PDF下載

Python3網路爬蟲開發實戰（崔慶才）pdf電子版百度雲盤連結: https://pan.baidu.com/s/11HganDmwugmzqSNHZ5YzBg

Python實戰（一）——Python編寫網路爬蟲

實戰內容針對不需要login的靜態網頁爬取。避免抓取登入、ajax非同步載入的內容。一、抓取程式主要模組組成 1、url管理器：管理已抓取、未抓取的url連線，避免重複、迴圈抓取 2、網頁下載器 urllib2：下載url網頁資料 3、網頁解析器

Python 爬蟲實戰（二）：使用 requests-html

分享 -html 調用交流 html 技術 python-re find 自己的 Python 爬蟲實戰（一）：使用 requests 和 BeautifulSoup，我們使用了 requests 做網絡請求，拿到網頁數據再用 BeautifulSoup 解析，就在前不久

Python網絡爬蟲實戰案例之：7000本電子書下載（2）

3.2 pytho oss 部署 .html http term ext 開發環境安裝一、前言本文是《Python開發實戰案例之網絡爬蟲》的第二部分：7000本電子書下載網絡爬蟲開發環境安裝部署。配套視頻課程詳見51CTO學院。二、章節目錄（1）Python開發環境

Python網絡爬蟲實戰案例之：7000本電子書下載（1）

批量 cad 3.2 img oss 開發批量導出 ucc 學院一、前言本文是《Python開發實戰案例之網絡爬蟲》的第一部分：7000本電子書下載網絡爬蟲完整案例演示。配套視頻課程詳見[51CTO學院] 章節目錄：（1）頁面分析1：列表頁-圖書清單（2）頁面分析2

Python網絡爬蟲實戰案例之：7000本電子書下載（3）

RoCE img http cfa ext 頁面 ffffff 分享 html 一、前言本文是《Python開發實戰案例之網絡爬蟲》的第三部分：7000本電子書下載網絡爬蟲開發實戰詳解。配套視頻課程詳見51CTO學院請添加鏈接描述。二、章節目錄 3.1 業務流程3.2

Python網絡爬蟲實戰案例之：7000本電子書下載（4）

視頻課程 3.1 剖析 src jpg -html proc 下載 blog 一、前言本文是《Python開發實戰案例之網絡爬蟲》的第四部分：7000本電子書下載網絡爬蟲-源碼框架剖析。配套視頻課程詳見：51CTO學院。二、章節目錄 3.1 requests-html文

Python網路資料爬取----網路爬蟲基礎（一）

The website is the API......(未來的資料都是通過網路來提供的，website本身對爬蟲來講就是自動獲取資料的API)。掌握定向網路資料爬取和網頁解析的基本能力。 ##Requests 庫的使用，此庫是Python公認的優秀的第三方網路爬蟲庫。能夠自動的爬取HTML頁面；自動的

Python網路爬蟲實戰

阿里雲大學：Python網路爬蟲實戰網路爬蟲（又被稱為網頁蜘蛛，網路機器人），是一種按照一定的規則，自動的抓取資訊的程式或者指令碼。網路爬蟲是網際網路上進行資訊採集的通用手段，在網際網路的各個專業方向上都是不可或缺的底層技術支撐。本課程從爬蟲基礎開始，全面介紹了Python網路爬蟲技術，

分享《Python 3網路爬蟲開發實戰》中文PDF+原始碼崔慶才著

下載： https://pan.baidu.com/s/1XNJwYJRurKN1bScroixpYA 更多資料分享：https://home.cnblogs.com/u/aitf/ 《Python 3網路爬蟲開發實戰》中文PDF+原始碼崔慶才著中文版PDF，

Python網路爬蟲實戰：抓取和分析天貓胸罩銷售資料

本文實現一個非常有趣的專案，這個專案是關於胸罩銷售資料分析的。Google曾給出了一幅世界女性胸部尺寸分佈地圖，從地圖中可以明顯看出中國大部分地區呈現綠色（表示平均胸部尺寸為A罩杯），少部分地區呈現藍色（表示平均胸部尺寸為B罩杯）現在李寧老師也來驗證一下這個

Python 3網路爬蟲開發實戰 (崔慶才)pdf

本書介紹瞭如何利用Python 3開發網路爬蟲，書中首先介紹了環境配置和基礎知識，然後討論了urllib、requests、正則表示式、Beautiful Soup、XPath、pyquery、資料儲存、Ajax資料爬取等內容，接著通過多個案例介紹了不同場景下如何實現資料爬取

python爬蟲實戰（一）

看了網上好多人寫的爬蟲，架構風格都不是很喜歡，前幾天在GitHub上翻到一個專案，主要是結構特別好，那種面向物件的風格很受我的喜歡，今天按照這種方式寫了兩個爬蟲分享給大家廢話不多說，直接上程式碼一.利用requests,BeautifulSoup庫爬

Python大型網路爬蟲專案開發實戰

1 講師簡介 2 課程簡介及特色實戰精通Scrapy爬蟲專案編寫 "Scrapy是Python的一個非常流行的爬蟲框架，使用Scrapy框架可以很方面做出大型爬蟲專案，但Scrapy框架近期才支援Python3，在Python3中使用有許多坑，

2018用Python寫網路爬蟲（視訊+原始碼+資料）

課程目標實現Python寫網路爬蟲入門適用人群資料零基礎愛好者,職場新人 ,在校大學生課程簡介 1.基本Http請求以及驗證方式分析 2.Python用於處理Html格式資料beautifulsoup模組 3.Pyhton的request

python Scrapy網路爬蟲實戰（存Json檔案以及存到mysql資料庫）

相關推薦