python爬蟲--自動獲取seebug的poc

阿新 • • 發佈：2017-08-04

nowait 位數完成再次問題 reading use odi html

簡單的寫了一個爬取www.seebug.org上poc的小玩意兒~

首先我們進行一定的抓包分析

我們遇到的第一個問題就是seebug需要登錄才能進行下載，這個很好處理，只需要抓取返回值200的頁面，將我們的headers信息復制下來就行了

（這裏我就不放上我的headers信息了，不過headers裏需要修改和註意的內容會在下文講清楚）

headers = {
    ‘Host‘:******,
    ‘Connection‘:‘close‘,
    ‘Accept‘:******,
    ‘User-Agent‘:******,
    ‘Referer‘:‘https://www.seebug.org/vuldb/ssvid- 
‘,
    ‘Accept-Language‘:‘zh-CN,zh;q=0.8‘,
    ‘Cookie‘:***********
}

由上所知，我們的中點就是referer這一項，是我們後面要進行修改的

那麽怎麽去修改這個呢

我先進行點擊下載鏈接抓包發現，seebug的poc下載鏈接特別的整齊：

‘https://www.seebug.org/vuldb/downloadPoc/xxxxx‘,

後面只需要加上一個五位數就行，而且五位數是連號的哦！

這就一目了然，我更改了五位數再次進行請求時發現，並沒有返回美麗的200狀態碼，瞄了一眼header，發現了referer這一項：

‘Referer‘:‘https://www.seebug.org/vuldb/ssvid-xxxxx‘

也就是說referer這一項的五位數字也要隨之變化，這樣我們的get請求頭部就完成了

接下來是線程的問題

使用了queue和threading進行多線程處理，發現我們不能圖快，不然會被反爬蟲發現

於是導入time增加time.sleep(1)，能有一秒的休眠就行了，線程數給了2個（這樣看來好像線程的意義並不大，不過也就這麽寫啦）

# coding=utf-8

import requests
import threading
import Queueimport time 

headers = {
            ******
        }
url_download  
= ‘https://www.seebug.org/vuldb/downloadPoc/‘

class SeeBugPoc(threading.Thread):
    def __init__(self,queue):
        threading.Thread.__init__(self)
        self._queue = queue

    def run(self):
        while not self._queue.empty():
            url_download = self._queue.get_nowait()
            self.download_file(url_download)


    def download_file(self,url_download):
        r = requests.get(url = url_download,headers = headers)
        print r.status_code
        name = url_download.split(‘/‘)[-1]
        print name 
        if r.status_code == 200:
            f = open(‘E:/poc/‘+name+‘.txt‘,‘w‘)
            f.write(r.content)
            f.close()
            print ‘it ok!‘
        else:
            print ‘what fuck !‘
        time.sleep(1)
‘‘‘
    def get_html(self,url):

        r = requests.get(url = url,headers = headers)
        print r.status_code
        print time.time()
‘‘‘


def main():
    queue = Queue.Queue()
    for i in range(93000,93236):
        headers[‘Referer‘] = ‘https://www.seebug.org/vuldb/ssvid-‘+str(i)
        queue.put(‘https://www.seebug.org/vuldb/downloadPoc/‘+str(i))


        #queue用來存放設計好的url，將他們放入一個隊列中，以便後面取用

    threads = []
    thread_count = 2
    for i in range(thread_count):
        threads.append(SeeBugPoc(queue))

    for i in threads:
        i.start()

    for i in threads:
        i.join()

if __name__ == ‘__main__‘:
    main()

代碼如上

控制下載的range()中的兩個五位數，大家只要去seebug庫中找一找想要掃描的庫的開頭和結尾編碼的五位數就行了（也就是他們的編號）

關於返回的狀態碼，如果項目不提供poc下載、poc下載不存在、poc需要兌換幣才能下載，就不能夠返回正常的200啦（非正常：404/403/521等）

當然，如果一直出現521，可以考慮刷新網頁重新獲取header並修改代碼

最後進行一個狀態碼的判斷，並且將200的文件寫出來就好了

（

　　表示慚愧感覺自己寫的很簡單

　　如果大家發現錯誤或者有疑惑可以留言討論哦

）

python爬蟲--自動獲取seebug的poc

nowait 位數完成再次問題 reading use odi html 簡單的寫了一個爬取www.seebug.org上poc的小玩意兒~ 首先我們進行一定的抓包分析我們遇到的第一個問題就是seebug需要登錄才能進行下載，這個很好處理，只需要抓取返回值200

Python 之自動獲取公網IP

ras number success sel sql ror copy cnblogs 由於 Python 之自動獲取公網IP 2017年9月30日 0.預備知識 0.1 SQL基礎 ubuntu、Debian系列安裝: 1 [email protected]:

python爬蟲自動下載網頁連結

需求分析今天遇到一個簡單的需求，需要下載澳大利亞電力市場NEM日前市場的發電商報價資料（http://nemweb.com.au/Reports/Current/Next_Day_Offer_Energy/），頁面觀感是這樣的： Ctrl + F 一下，看到一共有395個zip連結。

python爬蟲自動登入武漢大學校園網

#coding:utf-8 __author__ = 'zy' import urllib2 import cookielib import urllib import re import sys '''模擬登入''' PostUrl = "http://202.114.64.105:

Python爬蟲1-獲取指定網頁原始碼

1、任務簡介前段時間一直在學習Python基礎知識，故未更新部落格，近段時間學習了一些關於爬蟲的知識，我會分為多篇部落格對所學知識進行更新，今天分享的是獲取指定網頁原始碼的方法，只有將網頁原始碼抓取下來才能從中提取我們需要的資料。 2、任務程式碼 Python獲取指定網頁

python爬蟲如何獲取網頁資訊時，發現所需要的資訊是動態生成的，然後抓包獲取到資訊來源的URL？

如果在利用爬蟲爬取網頁資料的時候，發現是動態生成的時候，目前來看主要表現在以下幾種：以介面的形式生成資料，這種形式其實挺好處理的，比較典型的是知乎的使用者資訊，我們只要知道介面的URL，就可以不用再考慮頁面本身的內容以知乎為例，我們在爬取使用者資訊的時候，可能

python爬蟲自動解決字元編碼問題

In [34]: import requests ...: ...: response = requests.get('http://www.dytt8.net/index.htm') ...: print(response.text[2

python爬蟲：獲取標籤內部全部文字

取出以下字串：親測連結我要取出text內容，怎麼取呢，很多方法，bs4也可以，正則也可以，動態selenium也可以，這次我們先實現xpath，xpath的確很強大，不多說，上程式。通過text獲取文字 import reqiests from lxml imp

python爬蟲，獲取百度貼吧圖片

直接上程式碼： #!/usr/bin/env python # -*- coding:utf-8 -*- import urllib import urllib2 from lxml import etree def loadPage(url):

python爬蟲之獲取豆瓣電影資訊

此次是師哥給佈置的任務，所以這幾天就在研究如何完成獲取https://movie.douban.com/top250這個網站裡面250部電影的資訊。主要就是應用了python的urllib2與beautifulsoup的結合使用，也是我第一次使用爬蟲，當然現在看也是基礎的

Python爬蟲如何獲取動態內容-上

首先這裡說一下我標題動態內容指的就是一個網頁，每天你去瀏覽它的時候有些內容是更新的，所以這些是在原始碼裡面沒有的。例子為B站每天的輪播和靜態推薦內容都是不斷更新的。因此，如果想要爬取這些資訊，一直用之前的爬取方式：requests.get(URL) ，是找不到這些的。用

利用python爬蟲批量獲取代理IP並驗證可用性

# -*- coding: utf-8 -*- from bs4 import BeautifulSoup import urllib2 import httplib import threading import sys reload(sys) sys.setdefaultencoding('utf-8'

python爬蟲例項—獲取北郵教務GPA

# -*- coding: cp936 -*- #計算北郵教務GPA程式 #by JerryFang #2013.11.13 import urllib2 import re import cookielib from urllib import urlencode imp

python爬蟲入門---獲取某一網站所有超鏈接

獲取 req 服務 encoding fin cep int turn href 需要先安裝requests庫和bs4庫 import requests from bs4 import BeautifulSoup def getHTMLText(url): tr

python-爬蟲：獲取163郵箱的收件箱資訊列表

在練習python爬蟲的時候看到了原博主的關於爬取163郵箱收件箱資訊列表的文章，就拿來練手了。這裡附上原部落格連結https://blog.csdn.net/u011379247/article/details/51019379由於原文用的是python2.X，瀏覽器的版本

python 爬蟲獲取文件式網站資源（基於python 3.6）

codes 網頁大小 file sel dal 網頁代碼目錄多級目錄 import urllib.requestfrom bs4 import BeautifulSoupfrom urllib.parse import urljoinfrom Cat.findLink

python 爬蟲獲取文件式網站資源完整版（基於python 3.6）

sta 不支持 bytes ror 啟動 www des find parse <--------------------------------下載函數-----------------------------> import requestsimport t

Python爬蟲實例動態ip+抓包+驗證碼自動識別

PE IT agent 也有 pass ttr timeout edi targe 　　最近出於某種不可描述的原因，需要爬一段數據，大概長這樣：　　　　是一個價格走勢圖，鼠標移到上面會顯示某個時刻的價格，需要爬下來日期和價格。　　第一步肯定先看源代碼，找到了這

python 爬蟲獲取世界杯比賽賽程

star odin csv文件 cal requests tex pre brush c-c #!/usr/bin/python # -*- coding:utf8 -*- import requests import re import os import tim

Python爬蟲爬取OA幸運飛艇平臺獲取數據

sta 獲取數據 status fail attrs color wrapper 排行榜 req 安裝BeautifulSoup以及requests 打開window 的cmd窗口輸入命令pip install requests 執行安裝，等待他安裝完成就可以了 Beaut

python爬蟲--自動獲取seebug的poc

相關推薦