用python爬取股票資料的一點小結

阿新 • • 發佈：2018-11-09

一、背景

網上對於爬取股票資料有相對完善的教程。不過大部分教程都是隻能夠爬取一段時間的股票資料，針對某一隻股票的歷史資料爬取，目前還沒有看到比較好的教程。下面對近期學的東西進行一點點小結。

二、股票資料爬取網站

網上更多推薦的是東方財富的股票資料，連結為：http://quote.eastmoney.com/stocklist.html

東方財富上能夠獲得所有股票的編號資訊，有助於股票資料的爬取，但是每天的股票資料，大多都在百度股票資料上進行的爬取，爬取資料的網址為：https://gupiao.baidu.com/stock/

對於某一隻股票的所有歷史資料，這裡推薦網易財經，以600000浦發銀行為例，查詢600000，然後檢視其歷史資料即可，且歷史資料可以直接手動下載。其歷史資料的連結為：

http://quotes.money.163.com/trade/lsjysj_600000.html#01b07

三、股票資料爬取的一點小技巧

股票資料的量非常大，這裡在爬取股票資料的時候，需要注意的就是反爬蟲的工作。參考了很多程式碼，總結出比較好的思路有兩個：

一是設定很多header，每次隨機抽取一個header進行資料訪問。下面給出這些header供參考。

import urllib
import urllib.request
import re
import random


user_agent = ["Mozilla/5.0 (Windows NT 10.0; WOW64)", 'Mozilla/5.0 (Windows NT 6.3; WOW64)',
              'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
              'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko',
              'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.95 Safari/537.36',
              'Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; rv:11.0) like Gecko)',
              'Mozilla/5.0 (Windows; U; Windows NT 5.2) Gecko/2008070208 Firefox/3.0.1',
              'Mozilla/5.0 (Windows; U; Windows NT 5.1) Gecko/20070309 Firefox/2.0.0.3',
              'Mozilla/5.0 (Windows; U; Windows NT 5.1) Gecko/20070803 Firefox/1.5.0.12',
              'Opera/9.27 (Windows NT 5.2; U; zh-cn)',
              'Mozilla/5.0 (Macintosh; PPC Mac OS X; U; en) Opera 8.0',
              'Opera/8.0 (Macintosh; PPC Mac OS X; U; en)',
              'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.12) Gecko/20080219 Firefox/2.0.0.12 Navigator/9.0.0.6',
              'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Win64; x64; Trident/4.0)',
              'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0)',
              'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.2; .NET4.0C; .NET4.0E)',
              'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Maxthon/4.0.6.2000 Chrome/26.0.1410.43 Safari/537.1 ',
              'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.2; .NET4.0C; .NET4.0E; QQBrowser/7.3.9825.400)',
              'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:21.0) Gecko/20100101 Firefox/21.0 ',
              'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.92 Safari/537.1 LBBROWSER',
              'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; BIDUBrowser 2.x)',
              'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.11 TaoBrowser/3.0 Safari/536.11']


url='http://quote.stockstar.com/stock/ranklist_a_3_1_'+str(page)+'.html'
request=urllib.request.Request(url=url,headers={"User-Agent":random.choice(user_agent)})#隨機從user_agent列表中抽取一個元素

二是每抓一頁隨機休眠幾秒，數值可根據實際情況改動。可參考：

import time

time.sleep(random.randrange(1,4))

四、爬取股票程式碼

試驗了很多程式碼，有兩個程式碼還不錯，能夠爬取出部分股票資料。下面直接給出相關程式碼：

import requests
from bs4 import BeautifulSoup
import traceback
import re


def getHTMLText(url):
    try:
        r = requests.get(url)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""


def getStockList(lst, stockURL):
    html = getHTMLText(stockURL)
    soup = BeautifulSoup(html, 'html.parser')
    a = soup.find_all('a')
    for i in a:
        try:
            href = i.attrs['href']
            lst.append(re.findall(r"[s][hz]\d{6}", href)[0])
        except:
            continue


def getStockInfo(lst, stockURL, fpath):
    count = 0
    for stock in lst:
        url = stockURL + stock + ".html"
        html = getHTMLText(url)
        try:
            if html == "":
                continue
            infoDict = {}
            soup = BeautifulSoup(html, 'html.parser')
            stockInfo = soup.find('div', attrs={'class': 'stock-bets'})

            name = stockInfo.find_all(attrs={'class': 'bets-name'})[0]
            infoDict.update({'股票名稱': name.text.split()[0]})

            keyList = stockInfo.find_all('dt')
            valueList = stockInfo.find_all('dd')
            for i in range(len(keyList)):
                key = keyList[i].text
                val = valueList[i].text
                infoDict[key] = val

            with open(fpath, 'a', encoding='utf-8') as f:
                f.write(str(infoDict) + '\n')
                count = count + 1
                print("\r當前進度: {:.2f}%".format(count * 100 / len(lst)), end="")
        except:
            count = count + 1
            print("\r當前進度: {:.2f}%".format(count * 100 / len(lst)), end="")
            continue


def main():
    stock_list_url = 'http://quote.eastmoney.com/stocklist.html'
    stock_info_url = 'https://gupiao.baidu.com/stock/'
    output_file = 'D:/BaiduStockInfo.txt'
    slist = []
    getStockList(slist, stock_list_url)
    getStockInfo(slist, stock_info_url, output_file)


if __name__ == '__main__':
    mian()

測試過上述程式碼，能夠下載部分股票資料的當日情況，但存在的問題是下載一陣之後就不再下載資料，且下載資料的效果並不理想，排版很亂。下面是爬取股票資料的結果：

另一個比較好的程式碼為：

import urllib
import urllib.request
import re
import random
import time

#抓取所需內容
user_agent = ["Mozilla/5.0 (Windows NT 10.0; WOW64)", 'Mozilla/5.0 (Windows NT 6.3; WOW64)',
              'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
              'Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko',
              'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.95 Safari/537.36',
              'Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; rv:11.0) like Gecko)',
              'Mozilla/5.0 (Windows; U; Windows NT 5.2) Gecko/2008070208 Firefox/3.0.1',
              'Mozilla/5.0 (Windows; U; Windows NT 5.1) Gecko/20070309 Firefox/2.0.0.3',
              'Mozilla/5.0 (Windows; U; Windows NT 5.1) Gecko/20070803 Firefox/1.5.0.12',
              'Mozilla/5.0 (Macintosh; PPC Mac OS X; U; en) Opera 8.0',
              'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.12) Gecko/20080219 Firefox/2.0.0.12 Navigator/9.0.0.6',
              'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Win64; x64; Trident/4.0)',
              'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0)',
              'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.2; .NET4.0C; .NET4.0E)',
              'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Maxthon/4.0.6.2000 Chrome/26.0.1410.43 Safari/537.1 ',
              'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.2; .NET4.0C; .NET4.0E; QQBrowser/7.3.9825.400)',
              'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:21.0) Gecko/20100101 Firefox/21.0 ',
              'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.92 Safari/537.1 LBBROWSER',
              'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; BIDUBrowser 2.x)',
              'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.11 TaoBrowser/3.0 Safari/536.11']

stock_total=[]   # 所有頁面的股票資料   
for page in range(1,8):    # 下載1-7頁的股票資料
    url='http://quote.stockstar.com/stock/ranklist_a_3_1_'+str(page)+'.html'
    request=urllib.request.Request(url=url,headers={"User-Agent":random.choice(user_agent)})#隨機從user_agent列表中抽取一個元素
    try:
        response=urllib.request.urlopen(request)
    except urllib.error.HTTPError as e:            #異常檢測
        print('page=',page,'',e.code)
    except urllib.error.URLError as e:
        print('page=',page,'',e.reason)
    content=response.read().decode('gbk')       #讀取網頁內容
    print('get page',page)                      #列印成功獲取的頁碼
    pattern=re.compile('<tbody[\s\S]*</tbody>')
    body=re.findall(pattern,str(content))
    pattern=re.compile('>(.*?)<')
    stock_page=re.findall(pattern,body[0])      #正則匹配
    stock_total.extend(stock_page)
    time.sleep(random.randrange(1,4))           #每抓一頁隨機休眠幾秒，數值可根據實際情況改動
#刪除空白字元
stock_last=stock_total[:]  #stock_last為最終所要得到的股票資料
for data in stock_total:
    if data=='':
        stock_last.remove('')
#列印部分結果
print('程式碼','\t','簡稱','   ','\t','最新價','\t','   ','漲跌幅','\t','   ','漲跌額','\t','   ','5分鐘漲幅')
for i in range(0,len(stock_last),13):  #原網頁有13列資料，所以步長為13
    print(stock_last[i],'\t',stock_last[i+1],' ','\t',stock_last[i+2],'  ','\t',stock_last[i+3],'  ','\t',stock_last[i+4],'  ','\t',stock_last[i+5])

該程式碼可以直接下載股票的相應資料，存在的問題也是隻能下載一部分資料。

目前關於如何下載一支股票的所有歷史資料，還在學習中。。。。。。

用python爬取股票資料的一點小結

一、背景網上對於爬取股票資料有相對完善的教程。不過大部分教程都是隻能夠爬取一段時間的股票資料，針對某一隻股票的歷史資料爬取，目前還沒有看到比較好的教程。下面對近期學的東西進行一點點小結。二、股票資料爬取網站網上更多推薦的是東方財富的股票資料，連結為：http://quote.eas

用python爬取圖片的一點小結

一、原理小結最近在學習用python的爬蟲爬取網路上的圖片，製作資料集並用於後續的一些實驗。看了很多關於python爬取圖片的介紹，並驗證了相關程式碼，先推薦幾個介紹比較好的爬蟲過程：總體上來說，爬蟲的主要思路大致可以描述為： 1. 判斷待爬取網頁中的

用Python爬取股票資料，繪製K線和均線並用機器學習預測股價（來自我出的書）

最近我出了一本書，《基於股票大資料分析的Python入門實戰視訊教學版》，京東連結：https://item.jd.com/69241653952.html，在其中用股票範例講述Python爬蟲、資料分析和機器學習的技術，大家看了我的書，不僅能很快用比較熱門的案例學好Python

python爬取股票資料

今天主要給大家介紹的是使用python爬取網易財經模組股票的歷史資料.先來介紹一下環境: 原始文件:http://mp.weixin.qq.com/s/18H_MYCKT3MMXM13WQCOqQ 1、版本:python2.7 2、使用beautisoup模組以仙珺製藥(

用Python爬取微博資料生成詞雲圖片

很早之前寫過一篇怎麼利用微博資料製作詞雲圖片出來，之前的寫得不完整，而且只能使用自己的資料，現在重新整理了一下，任何的微博資料都可以製作出來，放在今天應該比較應景。一年一度的虐汪節，是繼續蹲在角落默默吃狗糧還是主動出擊告別單身汪加入散狗糧的行列就看你啦，七夕送什麼才有心意，程式猿可以試試用

python爬蟲由淺入深9---定向爬取股票資料資訊並儲存至本地檔案

技術路線：requests庫+bs4庫+re庫的整合使用目標：獲得上交所和深交所所有股票的名稱和交易資訊輸出：儲存至本地檔案可選資料網路有：新浪股票和百度股票，，通過檢視網頁原始碼可知，新浪股票的資料是通過javascript指令碼獲取的，故通過以上方式無法解析呃呃

喜歡抖音上面的音樂怎麼辦？用Python爬取音樂並分類放置資料夾

最近小編也在刷著抖音，上面的小哥哥、小姐姐各個都是人才，小編超喜歡裡面的歌也挺好聽的，小編就打算把抖音上面歌曲都下載並且分類，把自己的喜歡的歌換成手機鈴聲，那麼抖音上面都有那些好聽的歌呢，比如：《最美的期待》周筆暢《那個人》周延英《Panama》 Matteo 《病變

用python爬取新浪微博資料（無需手動獲取cookie)

從java 轉為python from selenium import webdriver import selenium from selenium.webdriver.common.desired_capabilities import DesiredCapabi

python爬取股票最新資料並用excel繪製樹狀圖

大家好，最近大A的白馬股們簡直跌媽不認，作為重倉了抱團白馬股基金的養雞少年，每日那是一個以淚洗面啊。不過從金融界最近一個交易日的大盤雲圖來看，其實很多中小股還是紅色滴，綠的都是白馬股們。以下截圖來自金融界網站-大盤雲圖：那麼，今天我們試著用python爬取最近交易日的股

我用Python爬取網易雲音樂上的Hip-hop歌單，分析rapper如何押韻

line gone 謠言大致 -i 態度大眾其中當前緣起《中國有嘻哈》這個節目在這個夏天吸引了無數的目光，也讓嘻哈走進了大眾的視野。作為我今年看的唯一一個綜藝節目，它對我的影響也蠻大。這個夏天，我基本都在杭州度過，在上下班的taxi上，我幾乎都在刷這個節目，最後

用python爬取微博數據並生成詞雲

font 意思 extra 很多返回 json 自己技術分享 pre 很早之前寫過一篇怎麽利用微博數據制作詞雲圖片出來，之前的寫得不完整，而且只能使用自己的數據，現在重新整理了一下，任何的微博數據都可以制作出來，放在今天應該比較應景。一年一度的虐汪節，是繼續蹲在角落默

用python爬取i春秋的課程

out clas sse dir quest index 影響 png 繼續看課中內容是用get請求進行爬取課程，自己實踐的時候發現已經被改成post請求了，下面開始打開課程頁面我用的火狐，然後就是F12，點擊網絡，可能會有很多包，但不影響，點擊刪除就行，然後點擊第二

我用 Python 爬取微信好友，最後發現一個大秘密

代碼我們同學 strong 分享簽名 ast ron tps 前言你身處的環境是什麽樣，你就會成為什麽樣的人。現在人們日常生活基本上離不開微信，但微信不單單是一個即時通訊軟件，微信更像是虛擬的現實世界。你所處的朋友圈是怎麽樣，慢慢你的思想也會變的怎麽樣。最近在學習

怎麽用Python爬取抖音小視頻? 資深程序員都這樣爬取的(附源碼)

aid option rip size with open url var mark open 簡介抖音，是一款可以拍短視頻的音樂創意短視頻社交軟件，該軟件於2016年9月上線，是一個專註年輕人的15秒音樂短視頻社區。用戶可以通過這款軟件選擇歌曲，拍攝15秒的音樂短視頻

分手後，小夥怒用Python爬取上萬空姐照片，贏取校花選舉大賽！

代碼美女圖片 pst caption alt .... 不出 ima bee 首先展示下Python爬取到的成果：我做什麽都要爭第一，這次的校花投票選舉大賽也不例外，雖然我是個男的......但是我看到了前女友竟然已經有三百多票排到第三名了，我怎麽能眼睜

誰當年還沒看過幾本小說！我用Python爬取全站的的小說！

nec 打印 b數技術分享 mon 結果鏈接 ons ide 然後再將請求發送出去，定義變量response，用read（）方法觀察，註意將符號解碼成utf-8的形式，省的亂碼：打印一下看結果：看到這麽

項目實戰！我用Python爬取了14年所有的福彩3D信息

下載器 rap 寫入excel url req 理論 ola text port 前兩天，在網上看到一個有意思的問題：×××靠譜麽？為什麽還有那麽多的人相信×××？暫且不說，×××是否靠譜？×××也分人而異，江湖上騙術很多，有些甚至會誤以為×××的準確度可以很高，這些操盤

微信PK10平臺開發與用python爬取微信公眾號文章

網址谷歌瀏覽器 pytho google http 開發微信安裝python rom 本文通過微信提供微信PK10平臺開發[q-21528-76294] 網址diguaym.com 的公眾號文章調用接口，實現爬取公眾號文章的功能。註意事項 1.需要安裝python s

用python爬取美女圖片

import urllib.request import os for i in range(2000, 2400): if not os.path.exists(‘tupian/’ + str(i)): os.makedirs(‘tupian/’ + str(i)) for j in

scrapy框架用post 爬取網站資料的兩種方法區別

post請求，一定要重新呼叫父類的 start_requests(self)方法方法1：（推薦）重構start_requests def start_requests(self): data = { 'source': 'index_na

用python爬取股票資料的一點小結

一、背景

二、股票資料爬取網站

三、股票資料爬取的一點小技巧

四、爬取股票程式碼

相關推薦