【scrapy】scrapy-redis 全國建築市場基本信息采集

阿新 • • 發佈：2018-03-07

redis callback ids super call connect info turn 一個

簡介

環境: python3.6

　　 scrapy 1.5

使用scrapy-redis 開發的分布式采集demo。一次簡單的例子,供初學者參考(覺得有更好的方式麻煩反饋！)

源碼地址:https://github.com/H3dg3h09/scrapy-redis-jzsc

技術分享圖片

常規目錄,存儲用的mysql，文件一起傳上去了。

static.py存放了mysql連接的類。其中寫了（網上借鑒）一個根據item來入庫的方法..非常方便了

 1 from jzsc.settings import DB
 2 import six
 3 
 4 class Db():
 5 
 6     def 
 __init__(self, host, port,user, password, db):
 7         import pymysql
 8         self._cnx = pymysql.connect(host=host, port=port, user=user, password=password, db=db, charset="utf8")
 9         self._cursor = self._cnx.cursor()
10 
11     def insert_data(self, table_name, data):
12         ‘‘‘
13 
         :param table_name: str
14         :param data: dict
15         :return: bool
16         ‘‘‘
17 
18         col_str = ‘‘
19         row_str = ‘‘
20         for key in data.keys():
21             col_str = col_str + " " + key + ","
22             row_str = "{}‘{}‘,".format(row_str,
23                                        data[key] if 
 "‘" not in data[key] else data[key].replace("‘", "\\‘"))
24             sql = "INSERT INTO {} ({}) VALUES ({}) ON DUPLICATE KEY UPDATE ".format(table_name, col_str[1:-1],
25                                                                                     row_str[:-1])
26         for (key, value) in six.iteritems(data):
27             sql += "{} = ‘{}‘, ".format(key, value if "‘" not in value else value.replace("‘", "\\‘"))
28         sql = sql[:-2]
29 
30         self._cursor.execute(sql)  # 執行SQL
31         i = self._cnx.insert_id()
32         try:
33             self._cnx.commit()  # 寫入操作
34         except AttributeError as e:
35             raise e
36         else:
37             return i
38 
39 
40     @classmethod
41     def init_db(cls):
42         host = DB.get(‘DATABASE_HOST‘, ‘‘)
43         user = DB.get(‘DATABASE_USER‘, ‘‘)
44         password = DB.get(‘DATABASE_PASSWORD‘, ‘‘)
45         db = DB.get(‘DATABASE_DB‘, ‘‘)
46         port = DB.get(‘DATABASE_PORT‘, ‘‘)
47         return cls(host=host, port=port, user=user,    
48                        password=password, db=db)
49

run.py腳本用於調試...我習慣寫一個run在pycharm裏打斷點調試用

Spider

getid用於爬取列表頁的url，然後將url存入redis供baseinfo調用

*對於分頁的處理可能比較笨..希望有朋友告訴我更優雅的方法,代碼如下:

 1 # -*- coding: utf-8 -*-
 2 from scrapy_redis.spiders import RedisSpider
 3 import redis
 4 from jzsc.settings import REDIS_URL # redis配置
 5 import logging
 6 from scrapy import FormRequest
 7 import time
 8 
 9 
10 class GetidSpider(RedisSpider):
11     name = ‘getid‘
12     redis_key = ‘getidspider:start_urls‘
13     _rds = redis.from_url(REDIS_URL, db=0, decode_responses=True)
14     custom_settings = {
15         ‘LOG_FILE‘: ‘jzsc\log\{name}_{t}.txt‘.format(name=name, t=time.strftime(‘%Y-%m-%d‘, time.localtime()))
16     }
17     form_data = {
18         ‘$reload‘: ‘0‘,
19         ‘$pgsz‘: ‘15‘,
20     }
21     page = 1
22     cookie = {}
23     max_page = 0
24     def parse(self, response):
25         hrefs = response.xpath(‘//tbody[@class="cursorDefault"]/tr/td/a/@href‘).extract()
26 
27         for href in hrefs:
28             new_url = response.urljoin(href)
29             self._rds.rpush(‘baseinfospider:start_urls‘, new_url)
30 
31             logging.log(logging.INFO, "{url}".format(url=new_url))
32 
33 
34             if not self.max_page: # 最大頁數獲取
35                 import re
36                 self.max_page = int(re.search(r‘pc:\d(.*?),‘, response.xpath(‘//a[@sf="pagebar"]‘).extract_first()).group(1))
37                 self.form_data[‘$total‘] = re.search(r‘tt:\d(.*?),‘, response.xpath(‘//a[@sf="pagebar"]‘).extract_first()).group(1)
38                 self.cookies = eval(response.headers.get(‘cookies‘, {}))
39 
40 
41             self.page += 1
42             if self.page <= self.max_page:
43                 self.form_data[‘$pg‘] = str(self.page)
44 
45                 yield FormRequest(response.url, callback=self.parse,
46                                   cookies=self.cookies,
47                                   formdata=self.form_data, dont_filter=True)

baseinfo腳本用於抽取公司基本信息:

 1     def parse(self, response):
 2         base_div = response.xpath(‘//div[@class="user_info spmtop"]‘)[0]
 3         name = base_div.xpath(‘b/text()‘).extract_first()
 4         info = base_div.xpath(‘following-sibling::table[1]/tbody/tr/td/text()‘).extract()
 5 
 6         base_item = BasicInfoItem()
 7         base_item[‘table_name‘] = ‘jz_info‘
 8         base_item[‘name‘] = name
 9         base_item[‘social_code‘] = info[0]
10         base_item[‘legal_re‘] = info[1]
11         base_item[‘com_type‘] = info[2]
12         base_item[‘province‘] = info[3]
13         base_item[‘addr‘] = info[4]
14         yield base_item
15 
16         urls_ = response.xpath(‘//ul[@class="tinyTab datas_tabs"]/li/a/@data-url‘).extract()
17         urls = {
18             ‘credential_url_‘: urls_[0],
19             ‘person_url_‘: urls_[1],
20             ‘progress_url_‘: urls_[2],
21             ‘g_behavior_url_‘: urls_[3],
22             ‘b_behavior_url_‘: urls_[4],
23             ‘blacklist_url_‘: urls_[5],
24         }
25 
26         credential_url_ = urls_[0]
27         credential_url = response.urljoin(credential_url_)
28 
29         cookies = eval(response.headers[‘cookies‘]) #這行的cookies是中間件寫進去的
30         yield Request(credential_url, callback=self.get_credential,
31                       meta={‘social_code‘: info[0], ‘urls‘: urls, ‘cookies‘:cookies},
32                       cookies=cookies, dont_filter=True)

View Code

中間件寫了一個cookie存入, 因為redis settings.py中沒有打開cookie選項

除此之外，還有隨機user-agent的中間件

 1 class JszcDownloaderUserAgentMiddleware(UserAgentMiddleware):
 2 
 3     def __init__(self, user_agent=‘‘):
 4         super(JszcDownloaderUserAgentMiddleware, self).__init__(user_agent)
 5 
 6     def process_request(self, request, spider):
 7         if not request.headers.get(‘User-Agent‘):
 8             user_agent = choice(USER_AGENTS)
 9             request.headers.setdefault(b‘User-Agent‘, user_agent)
10 
11 
12 class JszcDownloaderAutoCookieMiddleware():
13 
14     def process_response(self, request, response, spider):
15         cookies =  response.headers.get(‘Set-Cookie‘)
16         if cookies:
17             l = filter(lambda x: ‘=‘ in x, cookies.decode(‘utf8‘).split(‘;‘) )
18             coo = {}
19             for i in l:
20                 s = i.split(‘=‘)
21                 coo[s[0]] = s[1]
22 
23             response.headers[‘cookies‘] = str(coo)
24 
25         return response

Middleware

運行

#cmd中
scrapy crawl getid 
scrapy crawl baseinfo

#redis-cli中
lpush getidspider:start_urls http://jzsc.mohurd.gov.cn/dataservice/query/comp/list

*記得先運行sql文件創建庫

參考:

入庫方法: 靜覓 | Scrapy小技巧-MySQL存儲

【scrapy】scrapy-redis 全國建築市場基本信息采集

redis callback ids super call connect info turn 一個簡介環境: python3.6 　　 scrapy 1.5 使用scrapy-redis 開發的分布式采集demo。一次簡單的例子,供初學者參考(覺得有更好的方式

【MySQL】Linux創建MySQL的角色信息

user 工具選擇好的 rest upd 配置 roo cnblogs 1.進入數據庫 mysql -u root -p 輸入密碼 2.進入之後輸入： use mysql; 3.直接從連接客戶端的工具，選擇數據庫mysql->user表裏面復制

【實戰】scrapy-redis + webdriver 爬取航空網站

引言今天給大家帶來的是scrapy-redis + webdriver實戰案例。在爬蟲編寫過程中，我們經常會遇到以下的情況，想要用scrapy框架，但是因為網站的原因，還想要用webdriver，那麼要如何實現scrapy + webdriver呢？其實很簡單，大家都知道，在scrapy中，我

Python爬蟲【五】Scrapy分布式原理筆記

啟動 size inf p s 集合內存運行請求 max Scrapy單機架構在這裏scrapy的核心是scrapy引擎，它通過裏面的一個調度器來調度一個request的隊列，將request發給downloader，然後來執行request請求但是這些requ

【實戰】scrapy 爬取果殼問答！

引言學爬蟲的同學都知道，Scrapy是一個非常好用的框架，可以大大的簡化我們編寫程式碼的工作量。今天我們就從使用Scrapy爬取果殼問答。需求分析爬取果殼問答中精彩回答的標題和答案。知識點爬取資料：Scrapy 資料庫：Mongo 建立專案

【Python】Scrapy ItemLoader 處理空列表讓資料庫欄位為空值

問題描述我需要爬取某些招聘網頁上的資訊，但不是所有招聘網頁中展示的資訊都一樣，例如有些網頁上並沒有附上公司網址，而如果沒有需要在資料庫相應的欄位中賦值為空。方法一：不使用itemLoader 使用extract_first()取得列表第一個元素，預設值為‘’

【爬蟲】Scrapy 爬取excel中500個網址首頁，使用Selenium模仿使用者瀏覽器訪問，將網頁title、url、文字內容組成的item儲存至json檔案

建立含有網址首頁的excel檔案 host_tag_網站名稱_主域名_子域名.xlsx 編輯讀取excel檔案的工具類專案FileUtils 新建專案FileUtils 編輯file_utils.py # -*- coding: utf-8 -*- """

【京東】scrapy爬蟲抓取京東圖書詳情、評論

1 前期工作參考測試開啟京東圖書在console中輸入$('ul.gl-warp > li').length，結果為30，說明該頁面是js動態頁面輸入document.getElementsByClassName('page'

【Scrapy】Scrapy在Python3下報錯：“cannot import name '_win32stdio'”解決辦法

由於之前都是在Python2的環境下用的Scrapy，然後最近在用Python3的環境，今天試著用Scrapy啟動一個爬蟲的時候居然報錯。操作 scrapy crawl demo 報錯資訊 Traceback (most recent

【爬蟲】Scrapy爬蟲框架教程-- 抓取AJAX非同步載入網頁

前一段時間工作太忙一直沒有時間繼續更新這個教程，最近離職了趁著這段時間充裕趕緊多寫點東西。之前我們已經簡單瞭解了對普通網頁的抓取，今天我就給大家講一講怎麼去抓取採用Ajax非同步加的網站。工具和環境語言：python 2.7 IDE： Pycharm 瀏覽器：Ch

【Salvation】—— 項目策劃&市場分析

之間劇情大海通用系統 round 旅行平衡 log 寫在前面：這個項目是2017年，我們評選校級創新基金項目的參加作品，小組4人，我為負責人，這個項目現在已經基本完成，目前處於後期收尾階段。一、項目的目標、內容及創新之處 1、研

Docker學習筆記【三】安裝Redis

art port 再次 dock 使用 contain bash Go red 項目中使用到Redis，平常都是別人搭建的，今天試著在Google Cloud Platform 上搭建一個學習環境。 1.使用 docker pull redis 從docker hub中下載

【收集】安卓手機在市場佔比的網址查詢

網上搜集到的可以檢視安卓手機在某些時段市場上的佔比情況，相信對於app測試而言，這份內容能更有益於進行適配相關測試艾瑞頁面： http://index.iresearch.com.cn/device 資料api： http://index.irese

【雲圖】怎樣製作全國KTV查詢系統？

摘要：本文以【唱吧】531麥霸音樂節為案例，具體解讀了怎樣匯入自有資料到高德雲圖，並進行檢索和展示。最後，調起高德mobile地圖來進行路線規劃和周邊查詢。本案例能夠應用在微信開發平臺，支付寶公眾服務上。適合餐飲商家，汽車4S店，銀行，停車場等業務。因為使用高德雲圖+

【精】搭建redis cluster叢集，JedisCluster帶密碼訪問【解決當中各種坑】！

一.搭建redis單機本文搭建redis3.0版本，3.0主要增加了redis cluster叢集功能。 1.下載地址：http://download.redis.io/releases/redi

【centos7】設定Redis外網可訪問，通過java程式遠端訪問Redis

一、設定Redis外網可訪問 1、開放埠6379 firewall-cmd --zone=public --add-port=6379/tcp --permanent 我這裡的警告資訊是，埠6379已開通。檢視開放埠：firewall-cmd --zone=public -

【題目】2016年全國研究生數學建模競賽B題具有遺傳性疾病和性狀的遺傳位點分析

同學給我看了她參加競賽的題目，我一看，這不巧了嗎，我也就看看題目...... 人體的每條染色體攜帶一個DNA分子。在這條雙螺旋的長鏈中，共有約30億個鹼基對，而基因則是DNA長鏈中有遺傳效應的一些片段。在組成DNA的數量浩瀚的鹼基對（或對應的脫氧核苷酸）中，有一些特定位置

【轉】基於Redis Lua指令碼實現的分散式鎖（Java實現）

最近專案中需要用到一個分散式的鎖，考慮到基於會話節點實現的zookeeper鎖效能不夠，於是想使用redis來實現一個分散式的鎖。看了網上的幾個實現方案後，發現都不夠嚴謹。比如這篇：用Redis實現分散式鎖裡面設計的鎖有個最大的問題是鎖的超時值TTL會一直被改寫

【Docker學習】【2】執行redis

1、在桌面雙擊【Docker Quickstart Terminal】啟動終端。 2、在終端輸入：docker pull redis，拉去redis映象，預設下載最新版本的redis映象，也可以執行redis映象，如docker pull redis:x.x 3、執行

【centos7】安裝redis

1. 安裝wget工具 yum install wget 如果已經安裝了wget，可以直接跳過當前步驟. 2. 安裝epel(extra package for enterprise

【scrapy】scrapy-redis 全國建築市場基本信息采集

相關推薦