Python爬蟲西刺代理IP的獲取代理IP

阿新 • • 發佈：2018-12-16

首先介紹一下爬蟲為什麼要使用代理IP

在爬蟲的過程中，我們經常會遇見很多網站採取了防爬取技術，或者說因為自己採集網站資訊的強度和採集速度太大，給對方伺服器帶去了太多的壓力。如果你一直用同一個代理ip爬取這個網頁，很有可能ip會被禁止訪問網頁，所以基本上做爬蟲的都躲不過去ip的問題。所以我們在爬取網頁內容的過程中需要使用代理ip，在這裡介紹一種獲取代理ip方式，從西刺網站獲取代理ip。

具體獲取步驟如下

使用方式：將需要獲取頁數傳入主函式即可。在這裡使用的是requests方式獲取網頁內容，使用BeautifulSoup提取網頁內容。並將提取到的代理ip分類儲存到txt檔案中。

1、導包

import 
 requests
import chardet
import random
import time
from bs4 import BeautifulSoup
from telnetlib import Telnet
import progressbar

2、準備瀏覽器頭部

說明一下，使用requests獲取西刺網頁程式碼的時候需要設定瀏覽器頭部否則獲取不到網頁內容。

  user_agent = [
       "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)",
       "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)" 
,
       "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)",
       "Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
       "Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)" 
,
       "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)",
       "Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)",
       "Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)",
       "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)",
       "Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6",
       "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1",
       "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0",
       "Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5",
       "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.8) Gecko Fedora/1.9.0.8-1.fc10 Kazehakase/0.5.6",
       "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",
       "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_3) AppleWebKit/535.20 (KHTML, like Gecko) Chrome/19.0.1036.7 Safari/535.20",
       "Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; fr) Presto/2.9.168 Version/11.52"
]

3、定義獲取網頁程式碼函式

def getHtmlWithHeader(url):
	# 嘗試獲取網頁內容，當獲取失敗的時候重新獲取網頁程式碼
	# 當失敗次數過多時停止獲取 並輸出提示資訊
    try:
        # 獲取響應內容
        response = requests.get(
            url,
            headers={"User-Agent": random.choice(user_agent)}
        )
        # 獲取編碼
        code = chardet.detect(response.content)["encoding"]
        # 指定編碼
        response.encoding = code
        # 輸出文字
        # print(response.text)
        return response.text
    except:
        time.sleep(1)
        global _times_count
        _times_count += 1
        if _times_count > 5:
            print("ip獲取失敗，請稍後重試")
            return
        print("第", _times_count, "次嘗試抓取")
        return getHtmlWithHeader(url)

4、從獲取到的網頁程式碼中提取代理IP

def getIP(num):
    # 準備資料列表
    datalist = []
    # 準備 url
    for num1 in range(num):
        url = 'http://www.xicidaili.com/nn/' + str(num1 + 1)
        # 獲取返回資料
        html = getHtmlWithHeader(url)
        soup = BeautifulSoup(html, 'html.parser')
        parent = soup.find(id="ip_list")
        lis = parent.find_all('tr')
        # 刪除第一條資料
        lis.pop(0)
        print("爬取ip地址及相關資訊")
        for i in lis:
            ip = i.find_all('td')[1].get_text()
            dk = i.find_all('td')[2].get_text()
            nm = i.find_all('td')[4].get_text()
            ty = i.find_all('td')[5].get_text()
            tm = i.find_all('td')[8].get_text()
            datalist.append((ip, dk, nm, ty, tm))
    print("共爬取到", len(datalist), "條資料\n")
    # 將獲取到的資料返回
    return datalist

5、過濾代理IP，將生存時間短的以及不可用的IP過濾掉

def filtrateIP(datalist):
    datalist1 = []
    # 對生存時間短的資料進行過濾
    print('過濾存活時間短的\n')
    for i in datalist:
        if "分鐘" not in i[4]:
            datalist1.append(i)
            # print(i)
    print("共過濾掉", len(datalist) - len(datalist1), "條生存時間短的資料")
    print("還剩", len(datalist1), "條資料\n")

    # 對得到的資料進行測試，看是否可用
    print('測試不可用的ip並將其過濾')
    datalist.clear()
    v = 1
    p = progressbar.ProgressBar()
    for i in p(datalist1):
        # print("正在檢測第"+str(v)+"條資料")
        v += 1
        try:
            Telnet(i[0], i[1], timeout=1)
        except:
            pass
        else:
            datalist.append(i)

    print('過濾不可用的ip')
    print("共過濾掉", len(datalist1) - len(datalist), "條不可用資料")
    print("還剩", len(datalist), "條資料")
    # 將過濾後的資料返回
    return datalist

6、將過濾後的ip按HTTP/HTTPS分類並儲存

def saveIP(datalist):
    # 對得到的資料進行分類 http/https
    httplist = []
    httpslist = []
    for i in datalist:
        if i[3] == 'HTTP':
            httplist.append('http://' + i[0] + ':' + i[1])
        else:

            httpslist.append('https://' + i[0] + ':' + i[1])
    # 將顯示結果顯示到螢幕上
    print("HTTP共" + str(len(httplist)) + "條資料")
    print(httplist)
    print("")
    print("HTTPS共" + str(len(httpslist)) + "條資料")
    print(httpslist)
    print("")
    print("寫入檔案")

    # 開啟檔案
    f = open('ip地址.txt', 'w', encoding="utf-8")
    # 寫入檔案
    f.write("HTTP\n")
    f.write(str(httplist) + "\n\n")
    f.write("HTTPS\n")
    f.write(str(httpslist))
    # 關閉檔案
    f.close()

7、最後呼叫這些函式即可

# num 為爬取的頁數
def main(num):
	datalist = getIP(num)
    IPlist = filtrateIP(datalist )
    saveIP(IPlist)


if __name__ == '__main__':
    main(1)

Python爬蟲西刺代理IP的獲取代理IP

首先介紹一下爬蟲為什麼要使用代理IP 在爬蟲的過程中，我們經常會遇見很多網站採取了防爬取技術，或者說因為自己採集網站資訊的強度和採集速度太大，給對方伺服器帶去了太多的壓力。如果你一直用同一個代理ip爬取這個網頁，很有可能ip會被禁止訪問網頁，所以基本上做爬蟲的

（python爬蟲時）如何知道是否代理ip偽裝成功

通過請求 http://httpbin.org/get 獲得類似以下資訊： { "args": {}, "headers": { "Accept": "text/html,application/xhtml+xml,applicat

python爬蟲十二：爬取快速ip代理，攻破503

轉：https://zhuanlan.zhihu.com/p/26701898 1.自定爬蟲方法 # -*- coding: utf-8 -*- import scrapy import requests from proxy.items import ProxyItem

nginx反向代理如何獲取真實IP？

重啟 public p地址 format sudo con use gin 它的由於客戶端和web服務器之間增加了中間層，因此web服務器無法直接拿到客戶端的ip，通過$remote_addr變量拿到的將是反向代理服務器的ip地址。 1、安裝--with-http_re

Python爬蟲實例（三）代理的使用

pen .sh strong list blank 寫入禁止 bsp open() 一些網站會有相應的反爬蟲措施，例如很多網站會檢測某一段時間某個IP的訪問次數，如果訪問頻率太快以至於看起來不像正常訪客，它可能就會會禁止這個IP的訪問。所以我們需要設置一些代理服務器，每隔

多級反向代理java獲取真實IP地址

public static String getIpAddress(HttpServletRequest request){ String ip = request.getHeader("x-forwarded-for"); if (ip == null || ip.l

Nginx反向代理 Laravel獲取真實IP地址（PHP）

代理 pro $1 通過找到但是有一個忘記 rust 使用VUE前後端分離開發後端使用Laravel 想要獲取到用戶的真實IP地址因為分離開發不同源跨域問題所以只能進行前端Nginx反向代理 location /api { rewrite

Python爬蟲之模擬登入豆瓣獲取最近看過的電影

哈哈哈，模擬登入成功啦啦啦啦啦~~~~~ 重要的事本來要說三遍，不過還是算了== 先上效果圖：眾所周知，很多網站都設定了登入之後才能獲取檢視頁面的權利，因此模擬登入成了爬取資訊的第一步，這一步

如何利用Python爬蟲從網頁上批量獲取想要的資訊？

稍微說一下背景，當時我想研究蛋白質與小分子的複合物在空間三維結構上的一些規律，首先得有資料啊，資料從哪裡來？就是從一個涵蓋所有已經解析三維結構的蛋白質-小分子複合物的資料庫裡面下載。這時候，手動一個個去下顯然是不可取的，我們需要寫個指令碼，能從特定的網站選擇性得批量下載需

python爬蟲入門---第二篇：獲取2019年中國大學排名

time 中國 form htm sts odin 代碼網站 stat 我們需要爬取的網站：最好大學網我們需要爬取的內容即為該網頁中的表格部分：該部分的html關鍵代碼為：其中整個表的標簽為<tbody>標簽，每行的標簽為<tr&

tp5 通過IP獲取對應ip的城市

1 public function test() 2 { 3 $request = Request::instance(); 4 $ip = $reque

為反反爬蟲，打造一個自己的IP池？Python獲取西刺代理IP並驗證！

胡蘿蔔醬最近在爬取知乎使用者資料，然而爬取不了一會，IP就被封了，所以去爬取了西刺代理IP來使用。這裡爬取的是西刺國內高匿IP。我們需要的就是這一串數字。分

python 爬蟲獲取西刺網免費高匿代理ip

import chardet import requests from scrapy.selector import Selector import random from telnetlib import Telnet ip_list = [] def g

Project 3 ：Python爬蟲原始碼實現抓取1000條西刺免費代理IP-HTTPS並儲存讀取

基於python3.6—pycharm編寫的，都已經除錯過了，歡迎大家提出交流意見。關於一些基礎的資料網頁分析（比如為什麼是這個url）沒有過多贅述，看不懂的自行百度。原始碼可以直接拷貝執行。轉載請註明來源。import requests import re ''' Pyt

python網路爬蟲實戰——實時抓取西刺免費代理ip

參考網上高手示例程式，利用了多執行緒技術，Python版本為2.7 #-*-coding:utf8-*- import urllib2 import re import threading import time rawProxyList = [] checkedPr

python：多執行緒抓取西刺和快站高匿代理IP

　　一開始是打算去抓取一些資料，但是總是訪問次數多了之後被封IP，所以做了一個專門做了個工具用來抓取在西刺和快站的高匿IP。　　執行環境的話是在python3.5下執行的，需要requests庫　　在製作的過程中也參考的以下網上其他人的做法，但是發現很大一部分都不是多執行緒去抓取有點浪費時間了，又或者

從西刺網獲取可用的代理IP

import requests import chardet import random from scrapy.selector import Selector from telnetlib import Telnet url = 'http://www.

python爬蟲之反爬蟲（隨機user-agent，獲取代理ip，檢測代理ip可用性）

python爬蟲之反爬蟲（隨機user-agent，獲取代理ip，檢測代理ip可用性）目錄隨機User-Agent 獲取代理ip 檢測代理ip可用性　　隨機User-Agent fake_useragent庫，偽

利用python爬蟲批量獲取代理IP並驗證可用性

# -*- coding: utf-8 -*- from bs4 import BeautifulSoup import urllib2 import httplib import threading import sys reload(sys) sys.setdefaultencoding('utf-8'

Python爬蟲之ip代理池

clas 檢查 isp turn pre image 小白 flat for 可能在學習爬蟲的時候，遇到很多的反爬的手段，封ip 就是其中之一。對於封IP的網站。需要很多的代理IP，去買代理IP，對於初學者覺得沒有必要，每個賣代理IP的網站有的提供了免

Python爬蟲 西刺代理IP的獲取 代理IP

首先介紹一下爬蟲為什麼要使用代理IP

具體獲取步驟如下

1、導包

2、 準備瀏覽器頭部

3、定義獲取網頁程式碼函式

4、從獲取到的網頁程式碼中提取代理IP

5、過濾代理IP，將生存時間短的以及不可用的IP過濾掉

6、將過濾後的ip按HTTP/HTTPS分類並儲存

7、最後呼叫這些函式即可

相關推薦

Python爬蟲西刺代理IP的獲取代理IP

2、準備瀏覽器頭部