經典爬蟲：用Scrapy爬取百度股票

阿新 • • 發佈：2018-11-11

前言

今天我們編寫一個用 Scrapy 框架來爬取百度股票的程式碼，之前寫過一篇爬取百度股票的文章（點我），程式碼的邏輯和這篇文章的邏輯是一樣的，用到的解析器不同罷了。

經典爬蟲：用Scrapy爬取百度股票

Scrapy 爬蟲框架

Scrapy 爬蟲框架是由 7+2 的結構構成： 引擎（Scrapy Engine） 、排程器（Schedule）、下載器（Downloader） 、爬蟲（Spider） 、專案通道（Item Pipeline） 和 下載中間器（Downloader Middlewares） 、爬蟲中間器（Spider Middlewares）

。

經典爬蟲：用Scrapy爬取百度股票

Scrapy 中的資料流（Data flow）由執行引擎控制，如下所示：

引擎從 Spider 中獲得需要爬取初始的 Requests 。
引擎在 排程器 中排程 Requests 並詢問下一個需要爬取的 Requests 。
排程器 向引擎返回下一個要爬取的 Requests。
引擎通過 下載中間器 把這個 Requests 傳遞給 下載器 。
一旦頁面下載完畢，下載器

生成一個 Response （包含那個頁面），並通過 下載中介軟體 把它傳遞給引擎。
引擎從 下載器 中接收 Response ，通過 爬蟲中介軟體 的處理傳遞給 Spider 。
Spider 處理完 Response 後，通過 爬蟲中介軟體 向引擎返回生成的 items 和新的 Requests （如果有的話）。
引擎把 items 傳遞給 Item Pipelines ，並把處理過的 Requests 傳遞給 排程器

，詢問新的 requests。
程式從步驟 1 開始重複，直到 排程器 中不再有更多的請求為止。

更多 Scrapy 資訊參考官方文件：

URL：https://scrapy.org/

建立 Scrapy 專案

在電腦配置好 Scrapy 後，

在 D 盤 建立名為 pycodes 的資料夾。

經典爬蟲：用Scrapy爬取百度股票

開啟 cmd 命令視窗，進入 D 盤 根目錄後鍵入：

cd d:pycodes 進入目錄。
scrapy startproject BaiduStocks 建立名為 BaiduStocks 的目錄。
cd BaiduStocks 進入專案目錄。
scrapy genspider stocks baidu.com 建立一個名為 stocks 的 .py 檔案，爬蟲的初始 URL 為 baidu.com 。
在 BaiduStocks 資料夾下找到 stocks.py 檔案後用 IDE 開啟，下面我們來編寫程式碼。

經典爬蟲：用Scrapy爬取百度股票

stocks.py

import scrapyimport reclass stocksSpider(scrapy.Spider):
 name = 'stocks'
 start_urls = ['http://quote.eastmoney.com/stocklist.html']
 def parse(self, response):
 for href in response.css('a::attr(href)').extract():
 try:
 stock = re.findall('[s][zh]d{6}', href)[0]
 url = 'http://gupiao.baidu.com/stock/' + stock + '.html'
 yield scrapy.Request(url, callback=self.parse_stock)
 except:
 continue
 def parse_stock(self, response):
 infoDict = {}
 stockInfo = response.css('.stock-bets') #只搜尋'.stock-bets'標籤下的'dt'和'dd'標籤
 stockname = stockInfo.css('.bets-name').extract()
 keyList = stockInfo.css('dt').extract()
 valueList = stockInfo.css('dd').extract()
 for i in range(len(keyList)):
 key = re.findall('<dt.*?>(.*?)</dt>', keyList)[0]
 try:
 value = re.findall('<dd.*?>(.*?)</dd>', valueList)[0]
 except:
 value = '--'
 infoDict[key] = value
 infoDict.update({'股票名稱': re.findall('<a.*?">(.*?)(<span.*?)', stockname)})
 yield infoDict

parse 函式用到關鍵字 yield ，由於 parse 函式生成的股票 URL 超過 4500 個，如果以列表形式傳遞給 parse_stocks , 給記憶體造成的負擔會更大。
在資料夾 BaiduStocks 下找到 pipelines.py ，用 IDE 開啟。

pipelines.py

# -*- coding: utf-8 -*-# Define your item pipelines here## Don't forget to add your pipeline to the ITEM_PIPELINES setting# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.htmlclass BaidustocksPipeline(object):
 def open_item(self, spider):
 self.f = open('baiduStockInfo.txt', 'w')
 def close_item(self, spider):
 self.f.close()
 def process_item(self, item, spider):
 try:
 line = str(dict(item)) + '
'
 self.f.write(line)
 except:
 pass
 return item

類 BaiduStocksPipeline 有三個函式： open_item 、 close_item 、 process_item 。

至此，程式碼編寫完成，執行程式，結果會儲存在一個名為 baiduStockInfo 的 txt 檔案中

經典爬蟲：用Scrapy爬取百度股票

前言今天我們編寫一個用 Scrapy 框架來爬取百度股票的程式碼，之前寫過一篇爬取百度股票的文章（點我），程式碼的邏輯和這篇文章的邏輯是一樣的，用到的解析器不同罷了。 Scrapy 爬蟲框架 Scrapy 爬蟲框架是由 7+2 的結構構成：引擎

經典爬蟲：爬取百度股票

關鍵字：百度股票爬蟲檔案儲存前言百度股票 URL ：https://gupiao.baidu.com/stock/ + sz300059 +.html，其中以 sh 開頭的代表上交所掛牌交易的股票，以 sz 開頭的代表深交所掛牌交易的股票。第一

爬蟲：用Python爬取招聘職位資訊&職位需求分析

用Python爬取智聯招聘網站“資料分析”相關崗位資訊 # _*_ coding: utf-8 _*_ from bs4 import BeautifulSoup import requests import csv import json import pa

Python開發簡單爬蟲（二）---爬取百度百科頁面數據

class 實例實例代碼編碼 mat 分享 aik logs title 一、開發爬蟲的步驟 1.確定目標抓取策略：打開目標頁面，通過右鍵審查元素確定網頁的url格式、數據格式、和網頁編碼形式。 ①先看url的格式, F12觀察一下鏈接的形式;② 再看目標文本信息的

python網路爬蟲學習(二)一個爬取百度貼吧的爬蟲程式

今天進一步學習了python網路爬蟲的知識，學會了寫一個簡單的爬蟲程式，用於爬取百度貼吧的網頁並儲存為HTML檔案。下面對我在實現這個功能時的程式碼以及所遇到的問題的記錄總結和反思。首先分析實現這個功能的具體思路: 通過對貼吧URL的觀察，可以看出貼吧中的

scrapy爬取百度圖片

百度圖片基本沒什麼反爬蟲措施，我們爬取圖片時直接滑鼠右鍵--->檢查----->network---->XHR，往下拖動得到頁面，可以看到headers下的General,檢視實際的請求Request URL,提取其中的關鍵資訊即可話不多說，直接上程式碼

網路爬蟲簡單的實現爬取百度貼吧圖片

我們要爬取的網站是https://tieba.baidu.com/p/3797994694 首先爬取第一頁的圖片，使用python3自帶庫urllib，詳細的程式碼如下：接下來爬去多頁的圖片，這裡我們選取五頁的圖片，這裡我們採用requests，beautifuls

python3 爬蟲學習-根據關鍵詞爬取百度百科內容

小白編了好久才寫出來，記錄一下免得之後再用的時候都忘了還得重新學~ 學習爬蟲最開始是學習了慕課上的python課程，然後學習了慕課和網易雲上的爬蟲教程。這兩個自己去查一下就好了~ 開始還比較費勁，畢竟熟悉需要時間麼，而且python也不太熟悉。關於python版本：我一開

Python爬蟲教程：爬取百度貼吧

貼吧爬取寫程式碼前，構思需要的功能塊；寫程式碼時，把各個功能模組名提前寫好初始化初始化必要引數，完成基礎設定爬取百度貼吧lol吧：爬取地址中的get引數須傳遞(可以指定不同主題的貼吧和頁碼) 主題名初始網址請求頭生成網址生成每一頁的路由

Python簡易爬蟲爬取百度貼吧圖片

decode works 接口 def 讀取 min baidu 得到 internal 　　　　　通過python 來實現這樣一個簡單的爬蟲功能，把我們想要的圖片爬取到本地。(Python版本為3.6.0) 一.獲取整個頁面數據　　 def getHtml(url)

Python爬蟲實例（一）爬取百度貼吧帖子中的圖片

選擇圖片查看負責 targe mpat wid agent html headers 程序功能說明：爬取百度貼吧帖子中的圖片，用戶輸入貼吧名稱和要爬取的起始和終止頁數即可進行爬取。思路分析：一、指定貼吧url的獲取例如我們進入秦時明月吧，提取並分析其有效url如下

用scrapy爬取搜狗Lofter圖片

request index import rap .so 圖片 file loader clas 用scrapy爬取搜狗Lofter圖片 # -*- coding: utf-8 -*- import json import scrapy from scrapy.http

用scrapy爬取京東商城的商品信息

keywords XML 1.5 rom toc ons lines open 3.6 軟件環境： 1 gevent (1.2.2) 2 greenlet (0.4.12) 3 lxml (4.1.1) 4 pymongo (3.6.0) 5 pyO

Python3實現QQ機器人自動爬取百度文庫的搜索結果並發送給好友（主要是爬蟲）

OS __main__ end aid 機器 https code __name__ gbk 一、效果如下：二、運行環境： win10系統；python3；PyCharm 三、QQ機器人用的是qqbot模塊用pip安裝命令是： pip

最最簡單的python爬蟲教程--爬取百度百科案例

python爬蟲；人工智能from bs4 import BeautifulSoupfrom urllib.request import urlopenimport reimport randombase_url = "https://baike.baidu.com"#導入相關的包 his

python爬取百度翻譯返回：{'error': 997, 'from': 'zh', 'to': 'en', 'query 問題

escape result words fan use rip odin 解決 base 解決辦法：修改url為手機版的地址：http://fanyi.baidu.com/basetrans User-Agent也用手機版的測試代碼： # -*- coding: utf

Python爬蟲 - 爬取百度html代碼前200行

http src mage bsp bubuko str 百度爬蟲圖片 Python爬蟲 - 爬取百度html代碼前200行 - 改進版, 增加了對字符串的.strip()處理 Python爬蟲 - 爬取百度html代碼前200行

pythonp爬蟲爬取百度音樂

www code focus rfi aid xtra trac cookie bds #coding=utf-8 import requests import re import time from bs4 import BeautifulSoup

Python爬蟲為何可以這麽叼？爬取百度雲盤資源！並保存到自己雲盤

源碼下載表達 har .cn bdb 裏的 image AC 賬號登錄點擊它，再點擊右邊的【Cookies】就可以看到請求頭裏的 cookie 情況。 cookie分析除了上面說到的兩個 cookie ，其他的請求頭參數可以參照手動轉存

用scrapy爬取京東的數據

identify allow 9.png spider main %d 網頁 pro fyi 本文目的是使用scrapy爬取京東上所有的手機數據,並將數據保存到MongoDB中。一、項目介紹主要目標 1、使用scrapy爬取京東上所有的手機數據 2、將爬取的數據

經典爬蟲：用Scrapy爬取百度股票

前言

Scrapy 爬蟲框架

相關推薦