利用python爬蟲批量獲取代理IP並驗證可用性

阿新 • • 發佈：2019-01-26

# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup
import urllib2
import httplib
import threading
import sys

reload(sys)
sys.setdefaultencoding('utf-8')

inFile = open('proxy.txt','a+')
outFile = open('verified.txt', 'a+')
lock = threading.Lock()

proxyFile = open('proxy.txt', 'a+')
def getProxyList(targeturl="http://www.xicidaili.com/nn/"):
    countNum = 0


    requestHeader = {
        'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.80 Safari/537.36"}

    for page in range(1, 10):
        url = targeturl + str(page)
        # print url

   # urllib2增加headers資訊
        request = urllib2.Request(url, headers=requestHeader)
        html_doc = urllib2.urlopen(request).read()
   # bs4元素查詢
        soup = BeautifulSoup(html_doc, "html.parser")
        # print soup
        trs = soup.find('table', id='ip_list').find_all('tr')
        for tr in trs[1:]:
            # print tr
            tds = tr.find_all('td')
            # 國家Cn
            if tds[0].find('img') is None:
                nation = '未知'
                locate = '未知'
            else:
                nation = tds[0].find('img')['alt'].strip()
                locate = tds[3].text.strip()
            ip = tds[1].text.strip()    # ip
            # print 'ip:',ip 
            port = tds[2].text.strip()   # 埠
            anony = tds[5].text.strip()
            protocol = tds[6].text.strip()
            speed = tds[7].find('div')['title'].strip()
            time = tds[9].text.strip()
            with open('proxy.txt', 'a+') as proxyFile:
                proxyFile.write('%s|%s|%s|%s|%s|%s|%s|%s\n' % (nation, ip, port, locate, anony, protocol, speed, time))
            # print '%s=%s:%s' % (protocol, ip, port)
            countNum += 1

    #proxyFile.close()
    return countNum


def verifyProxyList():
    '''
    驗證代理的有效性
    '''
    requestHeader = {
        'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.80 Safari/537.36"}
    myurl = 'http://www.baidu.com/'

    while True:
        lock.acquire()
        ll = proxyFile.readline().strip()
        lock.release()
        if len(ll) == 0: break
        line = ll.strip().split('|')
        # protocol = line[5]
        ip = line[1]
        port = line[2]
        print(ll)

        try:
            conn = httplib.HTTPConnection(ip, port, timeout=5.0)
            conn.request(method='GET', url=myurl, headers=requestHeader)
            res = conn.getresponse()
            lock.acquire()
            print("+++Success:" + ip + ":" + port)
            outFile.write(ll + "\n")
            lock.release()
        except:
            print("---Failure:" + ip + ":" + port)


if __name__ == '__main__':
    tmp = open('proxy.txt', 'w')
    tmp.write("")
    tmp.close()
    proxynum = getProxyList("http://www.xicidaili.com/nn/")
    print("國內高匿：" + str(proxynum))
    proxynum = getProxyList("http://www.xicidaili.com/nt/")
    print("國內透明：" + str(proxynum))
    proxynum = getProxyList("http://www.xicidaili.com/wn/")
    print("國外高匿：" + str(proxynum))
    proxynum = getProxyList("http://www.xicidaili.com/wt/")
    print("國外透明：" + str(proxynum))

    print("\n驗證代理的有效性：")

    all_thread = []
    for i in range(30):
        t = threading.Thread(target=verifyProxyList)
        all_thread.append(t)
        t.start()

    for t in all_thread:
        t.join()

    inFile.close()
    outFile.close()
    print("All Done.")

程式執行完會將ip存在當前路徑，proxy.txt為測試的，veriProxy是測試可用的。這次就分享到這。

利用python爬蟲批量獲取代理IP並驗證可用性

# -*- coding: utf-8 -*- from bs4 import BeautifulSoup import urllib2 import httplib import threading import sys reload(sys) sys.setdefaultencoding('utf-8'

Python3 requests爬取代理IP並驗證可用性（附多執行緒模式）

簡要介紹：使用python3 環境，需要自己安裝的包有requests （網址請求，獲取頁面資訊）和 Lxml（頁面解析，資訊提取）。首先確定從何處獲取 “IP”，本人此次爬取的是西刺網的免費IP代理。大概流程：請求有免費IP的網址（本次使用“htt

為反反爬蟲，打造一個自己的IP池？Python獲取西刺代理IP並驗證！

胡蘿蔔醬最近在爬取知乎使用者資料，然而爬取不了一會，IP就被封了，所以去爬取了西刺代理IP來使用。這裡爬取的是西刺國內高匿IP。我們需要的就是這一串數字。分

Python爬蟲西刺代理IP的獲取代理IP

首先介紹一下爬蟲為什麼要使用代理IP 在爬蟲的過程中，我們經常會遇見很多網站採取了防爬取技術，或者說因為自己採集網站資訊的強度和採集速度太大，給對方伺服器帶去了太多的壓力。如果你一直用同一個代理ip爬取這個網頁，很有可能ip會被禁止訪問網頁，所以基本上做爬蟲的

python爬蟲爬取代理ip

最近想玩玩代理IP的刷東西怎麼實現的，所以來試試（生計所迫）這個是西刺免費代理IP http://www.xicidaili.com/ 不能保證都能用，所以爬取下來需要檢驗，用爬取的代理ip訪問網站，看狀態碼，是200就證明能用儲存到MongoDB

乾貨|Python爬蟲如何設定代理IP

在學習Python爬蟲的時候，經常會遇見所要爬取的網站採取了反爬取技術導致爬取失敗。高強度、高效率地爬取網頁資訊常常會給網站伺服器帶來巨大壓力，所以同一個IP反覆爬取同一個網頁，就很可能被封，這裡講述一個爬蟲技巧，設定**代理IP**。配置環境安裝requests庫安

利用python指令碼批量生成測試資料並插入資料庫

測試工作中有時候需要做一些假的測試資料，有些資料很多，上千條，手工做的話能累到你懷疑人生！這時候就該想到可以利用python指令碼來實現啦方法一：先寫入txt 然後用sql迴圈執行1.首先python連結資料庫有第三方的庫首先你要安裝pymysql（連結mysql用的），安裝

一步步分析百度音樂的播放地址，利用Python爬蟲批量下載

百度音樂不需要登入也可以下載？聽到這個訊息是不是很興奮呢，接下來我們開啟百度音樂,隨便開啟一首歌，切換到百度播放頁面：如圖我這裡用的是Firfox 瀏覽器，開啟firebug 先清空所有的請求，如圖：現在我們重新重新整理下頁面，看到這個.mp3的地址就是百度音樂的

利用Python爬蟲批量下載網易雲音樂歌單歌曲

from tkinter import * import requests from bs4 import BeautifulSoup from urllib.request import urlretrieve def download(): url = ent

爬資料時？IP老被封？這樣就不會被封了！爬取西刺代理IP並驗證

胡蘿蔔醬最近在爬取知乎使用者資料，然而爬取不了一會，IP就被封了，所以去爬取了西刺代理IP來使用。這裡爬取的是西刺國內高匿IP。我們需要的就是這一串數字。進群：548377875&nbs

python3 抓取西刺網免費代理IP並驗證是否可用

爬取西祠網免費高匿代理IP並驗證是否可用存到csv檔案 #匯入模組 import requests import chardet import random from scrapy.selector import Selecto

python學習之二代理ip有效性驗證

python學習之二代理ip有效性驗證驗證程式碼Demo # -*- coding: utf-8 -*- import requests def gitIp(): ipList

Python 批量獲取代理伺服器IP並測試

#-*-coding:utf-8 -*- import urllib2 import BeautifulSoup import codecs User_Agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:43.0) Gecko

python爬蟲建立代理池，爬取5000個代理IP並進行驗證！

前面已經介紹了urllib+正則表示式和BeautifulSoup進行爬取資料的方法，今天再解決一個實際問題——構建自己的代理池。通過爬蟲在網上進行資料的獲取，由於效率很快，換言之，訪問的速度過快，導致一段時間內的流量過大，會使得對方的伺服器壓力過

python爬蟲之反爬蟲（隨機user-agent，獲取代理ip，檢測代理ip可用性）

python爬蟲之反爬蟲（隨機user-agent，獲取代理ip，檢測代理ip可用性）目錄隨機User-Agent 獲取代理ip 檢測代理ip可用性　　隨機User-Agent fake_useragent庫，偽

如何利用Python爬蟲從網頁上批量獲取想要的資訊？

稍微說一下背景，當時我想研究蛋白質與小分子的複合物在空間三維結構上的一些規律，首先得有資料啊，資料從哪裡來？就是從一個涵蓋所有已經解析三維結構的蛋白質-小分子複合物的資料庫裡面下載。這時候，手動一個個去下顯然是不可取的，我們需要寫個指令碼，能從特定的網站選擇性得批量下載需

利用python實現批量查詢ip地址歸屬地址

proc shadow 手動 color sys copy lis rip image 今天需要查詢nginx訪問的客戶端ip是否和調度一樣！先是用shell把文件中的ip截取出來： python腳本如下：（哈哈，新手寫的很草率）#!/usr/bin/env#-- codi

python爬蟲時，判斷IP代理是否有效的解決方法

1、不停的請求測試，可以發現網路IP在不斷更新 import requests import random # 該網站會返回你請求網站時的IP地址資訊 url = 'http://icanhazip.com' #首先我們在xicidaili.com中獲取一些ip代理資訊，放入列表中

Python爬蟲：lxml模組分析並獲取網頁內容

運用css選擇器： # -*- coding: utf-8 -*- from lxml import html page_html = ''' <html><body> <input id="input_id" value="input value" nam

利用python爬蟲獲取黃金價格

繼續練手，根據之前獲取汽油價格的方式獲取了金價，暫時沒錢投資，看看而已 #!/usr/bin/env python # -*- coding: utf-8 -*- """ 獲取每天黃金價格 @author: yufei @site: http://www.a

利用python爬蟲批量獲取代理IP並驗證可用性

相關推薦