Python爬蟲入門教程 39-100 天津市科技計劃項目成果庫數據抓取 scrapy

阿新 • • 發佈：2019-02-24

格式 () extract lba 重寫動態 meta 操作 pos

爬前叨叨

緣由

今天本來沒有打算抓取這個網站的，無意中看到某個微信群有人問了一嘴這個網站，想看一下有什麽特別復雜的地方，一頓操作下來，發現這個網站除了卡慢，經常自己宕機以外，好像還真沒有什麽特殊的....

技術分享圖片

爬取網址 http://cgk.kxjs.tj.gov.cn/navigation.do

技術分享圖片
有很明顯的分頁表示

列表如下

Request URL: http://cgk.kxjs.tj.gov.cn/navigation.do
Request Method: POST

參數說明,裏面兩個比較重要的 pageNum 頁碼，numPerPage 每頁顯示的數據

trades: 
fields: 
enterprise_type: 
archive_year: 
hsql: 
searchKey: 
pageNum: 2
numPerPage: 25
date_low: 
date_high:

拼接地址

由於是POST請求，所以需要引入FormRequest 類。重寫start_requests方法，註意

yield FormRequest(url=self.start_url,callback=self.parse,formdata=data,dont_filter=True)

中dont_filter=True 不過濾重復請求。

import scrapy
from scrapy import Request,FormRequest,Selector
import time

class TjSpider(scrapy.Spider):
    name = 'Tj'
    allowed_domains = ['cgk.kxjs.tj.gov.cn']
    start_url = "http://cgk.kxjs.tj.gov.cn/navigation.do"

    def start_requests(self):
        #yield scrapy.Request(url="http://cgk.kxjs.tj.gov.cn/detail.do?id=1", callback=self.parse_detail)
        for i in range(1,73): #73
            data = {
                "trades":"",
                "fields":"",
                "enterprise_type":"",
                "archive_year":"",
                "hsql":"",
                "searchKey":"",
                "pageNum": str(i),
                "numPerPage": "25",
                "date_low":"",
                "date_high":"",
            }
            print("正在爬取{i}".format(i=i))
            yield FormRequest(url=self.start_url,callback=self.parse,formdata=data,dont_filter=True)
            time.sleep(10)

數據解析

這個步驟分為2步，第一步解析列表頁，獲取詳情頁面的鏈接，第二步獲取具體的字段，在匹配字段的時候采用字典動態更新，用來生成mongodb的字典格式。

    def parse(self, response):

        links = response.css('#Result tr td:nth-child(1)>a::attr(href)').extract()
        date = response.css('#Result tr td:nth-child(2)::text').extract()

        for item in range(len(links)):
            # yield {
            #     "link":links[item],
            #     "date":date[item]
            # }
            yield scrapy.Request(url=response.urljoin(links[0]),callback=self.parse_detail,meta={"date":date[item]})


    def parse_detail(self,response):

        trs = Selector(response).xpath("//table[@class='tab_lx003'][2]/tbody/tr")
        item = {}
        item.update({"date":response.meta["date"]})
        for tr_item in trs:
            item.update({tr_item.xpath("td[1]/text()").extract_first():tr_item.xpath("td[2]/text()").extract_first()})
        yield item
        time.sleep(3)

科技計劃項目成果數據入庫

入庫操作非常簡單了，走一遍之前的博客就可以，這個網站爬取的過程中沒有太多問題，就是總是宕機掉，采用代理IP也沒有解決，應該只是訪問速度慢的原因，建議多爬取一下。

最後，發現詳情頁，最後的id=數字是連續性的，可以直接叠代

http://cgk.kxjs.tj.gov.cn/detail.do?id=60

技術分享圖片

對付這種小數據的網站，其實采用Selenium也未嘗不可啊~~

歡迎關註，我的微信號哦~~~

技術分享圖片

Python爬蟲入門教程 39-100 天津市科技計劃項目成果庫數據抓取 scrapy

格式 () extract lba 重寫動態 meta 操作 pos 爬前叨叨緣由今天本來沒有打算抓取這個網站的，無意中看到某個微信群有人問了一嘴這個網站，想看一下有什麽特別復雜的地方，一頓操作下來，發現這個網站除了卡慢，經常自己宕機以外，好像還真沒有什麽特殊的...

Python爬蟲入門教程 4-100 美空網未登入圖片爬取

簡介上一篇寫的時間有點長了，接下來繼續把美空網的爬蟲寫完，這套教程中編寫的爬蟲在實際的工作中可能並不能給你增加多少有價值的技術點，因為它只是一套入門的教程，老鳥你自動繞過就可以了，或者帶帶我也行。爬蟲分析首先，我們已經爬取到了N多的使用者個人主頁，我通過連結拼接獲取到了 www.moko.cc/

Python爬蟲入門教程 3-100 美空網資料爬取

簡介從今天開始，我們嘗試用2篇部落格的內容量，搞定一個網站叫做“美空網”網址為：http://www.moko.cc/，這個網站我分析了一下，我們要爬取的圖片在下面這個網址 http://www.moko.cc/post/1302075.html 然後在去分析一下，我需要找到一個圖片列表

Python爬蟲入門教程 3-100 美空網數據爬取

個數 exception 意思消費時間模塊 intel insert -o switch 簡介從今天開始，我們嘗試用2篇博客的內容量，搞定一個網站叫做“美空網”網址為：http://www.moko.cc/，這個網站我分析了一下，我們要爬取的圖片在下面這個網址

Python爬蟲入門教程 2-100 妹子圖網站爬取

字典註意 while import 我們分鐘基礎便是訪問前言從今天開始就要擼起袖子，直接寫Python爬蟲了，學習語言最好的辦法就是有目的的進行，所以，接下來我將用10+篇的博客，寫爬圖片這一件事情。希望可以做好。為了寫好爬蟲，我們需要準備一個火狐瀏覽器，還

Python爬蟲入門教程 9-100 河北陽光理政投訴板塊

寫在前面之前幾篇文章都是在寫圖片相關的爬蟲，今天寫個留言板爬出，為另一套資料分析案例的教程做做準備，作為一個河北人，遵紀守法，有事投訴是必備的技能，那麼咱看看我們大河北人都因為什麼投訴過呢？今天要爬取的網站地址 http://yglz.tousu.hebne

Python爬蟲入門教程 15-100 石家莊政民互動資料爬取

寫在前面今天，咱抓取一個網站，這個網站呢，涉及的內容就是網友留言和回覆，特別簡單，但是網站是gov的。網址為 http://www.sjz.gov.cn/col/1490066682000/index.html 首先宣告，為了學習，絕無惡意抓取資訊，不管

Python爬蟲入門教程 4-100 美空網未登錄圖片爬取

表數價值圖片下載開發所有圖片 mpi focus .data data 簡介上一篇寫的時間有點長了，接下來繼續把美空網的爬蟲寫完，這套教程中編寫的爬蟲在實際的工作中可能並不能給你增加多少有價值的技術點，因為它只是一套入門的教程，老鳥你自動繞過就可以了，或者帶帶我也

Python爬蟲入門教程 5-100 27270圖片爬取

retrying ont star 都是 ram emp ret afa else 獲取待爬取頁面今天繼續爬取一個網站，http://www.27270.com/ent/meinvtupian/ 這個網站具備反爬，so我們下載的代碼有些地方處理的也不是很到位，大家重點

Python爬蟲入門教程 6-100 蜂鳥網圖片爬取之一

enter 第一步 {} status .... 一個網站分析 except rep 1. 簡介國慶假日結束了，新的工作又開始了，今天我們繼續爬取一個網站，這個網站為 http://image.fengniao.com/ ，蜂鳥一個攝影大牛聚集的地方，本教程請用來學習，

Python爬蟲入門教程 8-100 蜂鳥網圖片爬取之三

asyncio esp 分享圖片 0.10 結果 .text win int lang 啰嗦兩句前幾天的教程內容量都比較大，今天寫一個相對簡單的，爬取的還是蜂鳥，依舊采用aiohttp 希望你喜歡爬取頁面https://tu.fengniao.com/15/ 本篇教程還

Python爬蟲入門教程 10-100 圖蟲網多執行緒爬取

寫在前面經歷了一頓噼裡啪啦的操作之後，終於我把部落格寫到了第10篇，後面，慢慢的會涉及到更多的爬蟲模組，有人問scrapy 啥時候開始用，這個我預計要在30篇以後了吧，後面的套路依舊慢節奏的，所以莫著急了，100篇呢，預計4~5個月寫完，常見的反反爬後面也會寫的，還有fuck login類的內容。

Python爬蟲入門教程 10-100 圖蟲網多線程爬取

全局變量 app str tlist img exception 父類 json urn 寫在前面經歷了一頓劈裏啪啦的操作之後，終於我把博客寫到了第10篇，後面，慢慢的會涉及到更多的爬蟲模塊，有人問scrapy 啥時候開始用，這個我預計要在30篇以後了吧，後面的套路依舊慢

Python爬蟲入門教程 16-100 500px攝影師社群抓取攝影師資料

寫在前面今天要抓取的網站為 https://500px.me/ ，這是一個攝影社群，在一個攝影社群裡面本來應該爬取的是圖片資訊，可是我發現好像也沒啥有意思的，忽然覺得爬取一下這個網站的攝影師更好玩一些，所以就有了這篇文章的由來。基於上面的目的，我找了了一個不錯的頁面 https://50

Python爬蟲入門教程 12-100 半次元COS圖爬取

寫在前面今天在瀏覽網站的時候，忽然一個莫名的連結指引著我跳轉到了半次元網站 https://bcy.net/ 開啟之後，發現也沒有什麼有意思的內容，職業的敏感讓我瞬間聯想到了 cosplay ，這種網站必然會有這個的存在啊，於是乎，我準備好我的大爬蟲了。把上面的連結開啟之後

Python爬蟲入門教程 13-100 鬥圖啦表情包多執行緒爬取

寫在前面今天在CSDN部落格，發現好多人寫爬蟲都在爬取一個叫做鬥圖啦的網站，裡面很多表情包，然後瞅了瞅，各種實現方式都有，今天我給你實現一個多執行緒版本的。關鍵技術點 aiohttp ，你可以看一下我前面的文章，然後在學習一下。網站就不分析了，無非就是找到規律，拼接URL，匹配關鍵點，然後爬取。擼

Python爬蟲入門教程 13-100 鬥圖啦表情包多線程爬取

.text 入門教程地址 ESS 文件頭部 https .html 一個 mat 寫在前面今天在CSDN博客，發現好多人寫爬蟲都在爬取一個叫做鬥圖啦的網站，裏面很多表情包，然後瞅了瞅，各種實現方式都有，今天我給你實現一個多線程版本的。關鍵技術點 aiohttp ，你可以

Python爬蟲入門教程 18-100 煎蛋網XXOO圖片抓取

寫在前面很高興我這系列的文章寫道第18篇了，今天寫一個爬蟲愛好者特別喜歡的網站煎蛋網http://jandan.net/ooxx，這個網站其實還是有點意思的，網站很多人寫了N多的教程了，各種方式的都有，當然網站本身在爬蟲愛好者的不斷進攻下，也在不斷的完善，反爬措施也很多，今天我用selenium在揍他一波

Python爬蟲入門教程 14-100 All IT eBooks多執行緒爬取

寫在前面對一個爬蟲愛好者來說，或多或少都有這麼一點點的收集癖 ~ 發現好的圖片，發現好的書籍，發現各種能存放在電腦上的東西，都喜歡把它批量的爬取下來。然後放著，是的，就這麼放著.......然後慢慢的遺忘掉..... 爬蟲分析開啟網址 http://www.allitebooks.c

Python爬蟲入門教程 12-100 二次元COS圖爬取

寫在前面今天在瀏覽網站的時候，忽然一個莫名的連結指引著我跳轉到了半次元網站 https://bcy.net/ 開啟之後，發現也沒有什麼有意思的內容，職業的敏感讓我瞬間聯想到了 cosplay ，這種網站必然會有這個的存在啊，於是乎，我準備好我的大爬蟲了。

Python爬蟲入門教程 39-100 天津市科技計劃項目成果庫數據抓取 scrapy

爬前叨叨

緣由

爬取網址 http://cgk.kxjs.tj.gov.cn/navigation.do

拼接地址

數據解析

科技計劃項目成果數據入庫

相關推薦