python 爬蟲爬取證券之星網站

阿新 • • 發佈：2017-08-07

爬蟲

周末無聊，找點樂子。。。

#coding:utf-8
import requests
from bs4 import BeautifulSoup
import random
import time

#抓取所需內容
user_agent = ["Mozilla/5.0 (Windows NT 10.0; WOW64)", ‘Mozilla/5.0 (Windows NT 6.3; WOW64)‘,
              ‘Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11‘,
              ‘Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko‘,
              ‘Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.95 Safari/537.36‘,
              ‘Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; rv:11.0) like Gecko)‘,
              ‘Mozilla/5.0 (Windows; U; Windows NT 5.2) Gecko/2008070208 Firefox/3.0.1‘,
              ‘Mozilla/5.0 (Windows; U; Windows NT 5.1) Gecko/20070309 Firefox/2.0.0.3‘,
              ‘Mozilla/5.0 (Windows; U; Windows NT 5.1) Gecko/20070803 Firefox/1.5.0.12‘,
              ‘Opera/9.27 (Windows NT 5.2; U; zh-cn)‘,
              ‘Mozilla/5.0 (Macintosh; PPC Mac OS X; U; en) Opera 8.0‘,
              ‘Opera/8.0 (Macintosh; PPC Mac OS X; U; en)‘,
              ‘Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.12) Gecko/20080219 Firefox/2.0.0.12 Navigator/9.0.0.6‘,
              ‘Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Win64; x64; Trident/4.0)‘,
              ‘Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0)‘,
              ‘Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.2; .NET4.0C; .NET4.0E)‘,
              ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Maxthon/4.0.6.2000 Chrome/26.0.1410.43 Safari/537.1 ‘,
              ‘Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.2; .NET4.0C; .NET4.0E; QQBrowser/7.3.9825.400)‘,
              ‘Mozilla/5.0 (Windows NT 6.1; WOW64; rv:21.0) Gecko/20100101 Firefox/21.0 ‘,
              ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.92 Safari/537.1 LBBROWSER‘,
              ‘Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0; BIDUBrowser 2.x)‘,
              ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.11 TaoBrowser/3.0 Safari/536.11‘]
moduledic={‘ranklist_a‘:111,‘ranklist_b‘:4,}
for module in moduledic:
    for page in range(1,moduledic[module]):
        url=‘http://quote.stockstar.com/stock/‘+str(module)+‘_3_1_‘+str(page)+‘.html‘
        try:
            global response       
            response=requests.post(url, headers={"User-Agent":random.choice(user_agent)}) #定制請求頭
        except :
            print "繼續"
        response.encoding = ‘gb2312‘
        html = response.text 
        soup = BeautifulSoup(html, ‘lxml‘)
        time.sleep(random.randrange(1,2))        #每抓一頁隨機休眠幾秒，數值可根據實際情況改動
        datalist=[]
        for i in  soup.find_all(‘tr‘):
            for j in i.find_all(‘td‘):
               datalist.append(j.string)
            try:
                data = datalist[0] + "     " + datalist[1] +"    " + datalist[2] + "    " + datalist[3] +"    " + datalist[4] + "    " + datalist[5] +"    " + datalist[6] +"    " + datalist[7]+ "    " + datalist[8] +"    " + datalist[9] +"    " + datalist[10] + "    " + datalist[11]
                print data
            except:
                continue
            datalist=[]

部分截圖：

技術分享

本來想存到數據庫中的，後面用來做數據分析用，突然沒興趣就先這樣吧。

只想說：大部分網站反爬蟲策略基本上沒做，如果我想的話，可能也就一兩天可以把整個網站爬下來，上面的也就用了半個小時吧。數據不就是錢嗎？完全爬下來不就相當於間接脫庫嘛？

本文出自 “付煒超” 博客，請務必保留此出處http://9399369.blog.51cto.com/9389369/1954076

python 爬蟲爬取證券之星網站

爬蟲周末無聊，找點樂子。。。#coding:utf-8 import requests from bs4 import BeautifulSoup import random import time #抓取所需內容 user_agent = ["Mozilla/5.0 (Windows NT 10.0

python爬蟲——爬取汽車之家新聞

按F12審查一下元素：找到了對應的資訊。而且發現要爬取的圖片都在id=auto-channel-lazyload-article的div標籤下的li標籤裡。 li標籤下的a標籤就是新聞的url；image標籤，src就是獲取圖片的url；請求圖片地

Python爬蟲爬取BT之家找電影資源

一、寫在前面最近看新聞說聖城家園（SCG）倒了，之前BT天堂倒了，暴風影音也不行了，可以說看個電影越來越費力，國內大廠如企鵝和愛奇藝最近也出現一些么蛾子，雖然目前版權意識雖然越來越強，但是很多資源在這些主流視訊網站上面依然沒有，我平時看電影又習慣下載下來再看，所以每次看電影找資源就很麻煩，花了點時間，於

Python爬蟲爬取美劇網站

一直有愛看美劇的習慣，一方面鍛鍊一下英語聽力，一方面打發一下時間。之前是能在視訊網站上面線上看的，可是自從廣電總局的限制令之後，進口的美劇英劇等貌似就不在像以前一樣同步更新了。但是，作為一個宅diao的我又怎甘心沒劇追呢，所以網上隨便查了一下就找到一個能用迅雷下載的美劇

python網路爬蟲爬取汽車之家的最新資訊和照片

實現的功能是爬取汽車之家的最新資訊的連結題目和文章中的照片爬蟲需要用到我們使用了 requests 做網路請求，拿到網頁資料再用 BeautifulSoup 進行解析首先先檢查是否安裝了pip，如果已經安裝了pip,直接pip install requests,pip uninstal

Python爬蟲——爬取網站的例項化原始碼

缺點：1爬了一個網站好幾次以後不能再進行爬取。沒有解決這個問題 2在寫入資料的時候還是存在很大問題。以後多加練習這個檔案的儲存的相關工作 import re import urllib.request def function(): """需求：1 https://re

python爬蟲爬取拉勾網站內容

本次主要內容是分享下拉勾網站模擬搜尋以及搜尋內容的爬取，這裡先引入一些用到的庫，由於網站本身的反爬蟲技術和網路原因，這裡使用了fake_useragent和多執行緒模式，當然如果有條件的話也可以使用代理池，這樣可以更加保險一點。由於我沒有弄那些收費的代理，而免費

python 爬蟲爬取某網站的漫畫

文章目錄宣告前言思路流程程式結果宣告為了表示對網站的尊重，已將網站地址隱藏，下載的漫畫之前我就看過了，所以也會刪掉，絕不侵犯網站的利益。前言

Python爬蟲爬取網站上的圖片

Python爬蟲爬取古詩文網站專案分享

作為一個靠python自學入門的菜鳥，想和大家分享自己寫的第一個也是目前為止唯一一個爬蟲程式碼寫爬蟲要具備的能力基礎：python入門基礎，html5基礎知識，然後這邊用的是scrapy框架，所以

Python爬蟲爬取51job招聘網站

最近學習爬蟲，做了一個python爬蟲工具寫在這裡記錄一下。# python爬51job工具，稍微改改就可以爬其他網站 # edit by mengqi Date：2018-07-11 # encoding:uft-8 import csv

Python爬蟲爬取網站新聞

網站分析爬取過程獲取新聞連結地址使用requests包讀取新聞列表頁面，然後使用正則表示式提取出其中的新聞頁面連結，返回urls列表 def getList(url): li = requests.get(url) re

python定向爬蟲——爬取某代理Ip網站上的所有ip

爬取一個網站的基本過程確定目標 –> 分析目標 –> 編寫程式 -> 執行爬蟲分析目標： url 格式資料格式網頁編碼分析目標資料在原始碼裡的結構，以便在獲取整個頁面原始碼後，可以利用正則進行匹配。

使用python爬蟲爬取百度手機助手網站中app的資料

一、爬取程式流程圖爬蟲程式流程圖如下： Created with Raphaël 2.1.0開始分析地址結構獲得app類別頁的url爬取app詳情頁url爬取App詳情頁的資料將爬取資料儲存到json檔案結束二、具體步驟 1.分析

Python爬蟲-爬取糗事百科段子

hasattr com ima .net header rfi star reason images 閑來無事，學學python爬蟲。在正式學爬蟲前，簡單學習了下HTML和CSS，了解了網頁的基本結構後，更加快速入門。 1.獲取糗事百科url http://www.qiu

python爬蟲爬取頁面源碼在本頁面展示

一個 nts ring 想要 strip code 空白列表 ngs python爬蟲在爬取網頁內容時，需要將內容連同內容格式一同爬取過來，然後在自己的web頁面中顯示，自己的web頁面為django框架首先定義一個變量html，變量值為一段HTML代碼 >&

python爬蟲爬取海量病毒文件

tle format nbsp contex logs request spl tde __name__ 因為工作需要，需要做深度學習識別惡意二進制文件，所以爬一些資源。 # -*- coding: utf-8 -*- import requests import re

用Python爬蟲爬取廣州大學教務系統的成績（內網訪問）

enc 用途 css選擇器狀態 csv文件表格 area 加密重要用Python爬蟲爬取廣州大學教務系統的成績（內網訪問）在進行爬取前，首先要了解： 1、什麽是CSS選擇器？每一條css樣式定義由兩部分組成，形式如下： [code] 選擇器{樣式} [/code

python爬蟲——爬取古詩詞

爬蟲古詩詞實現目標 1.古詩詞網站爬取唐詩宋詞 2.落地到本地數據庫頁面分析通過firedebug進行頁面定位：源碼定位：根據lxml etree定位div標簽：# 通過 lxml進行頁面分析 response = etree.HTML(data

利用Python爬蟲爬取淘寶商品做數據挖掘分析實戰篇，超詳細教程

實戰趨勢 fat sts AI top 名稱 2萬安裝模塊項目內容本案例選擇>> 商品類目：沙發；數量：共100頁 4400個商品；篩選條件：天貓、銷量從高到低、價格500元以上。項目目的 1. 對商品標題進行文本分析詞雲可視化 2.

python 爬蟲爬取 證券之星網站

相關推薦

python 爬蟲爬取證券之星網站