Scrapy抓取西刺高匿代理ip

阿新 • • 發佈：2019-02-18

如題：因為想試試代理ip，所以就想著在西刺上爬一些ip用用

如上兩節所示，具體如何建立Scrapy工程的細節不在贅述。

scrapy startproject xici

scrapy genspider xici http://www.xicidaili.com/nn/

建立工程後，使用IDE開啟，首先編輯item

#items.py
# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html 


import scrapy


class XiciItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    pass

class ipItem(scrapy.Item):
    ip = scrapy.Field()
    port = scrapy.Field()
    address = scrapy.Field()
    type = scrapy.Field()
    protocol = scrapy.Field()
    speed = scrapy.Field 
()
    time = scrapy.Field()
    alive = scrapy.Field()
    proof = scrapy.Field()

然後編寫spider，在資料夾spiders下建立spider.py。

# coding=utf-8
import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
from xici.items import ipItem

class Spider(CrawlSpider): 


    name = 'xici'
    allowed_domains = ['www.xicidaili.com']
    start_urls = ['http://www.xicidaili.com/nn/']

    rules = [
        Rule(LinkExtractor(allow=(r"http://www.xicidaili.com/nn/d+")),callback="parse_item")
    ]


    def parse_item(self,response):

        ipItems = response.css('#ip_list tr:not(:first-child)')
        for item in ipItems:
            ip = ipItem()
            ip["ip"] = item.css("td:nth-child(2)::text").extract()
            ip["port"] = item.css("td:nth-child(3)::text").extract()
            ip["address"] = item.css("td:nth-child(4) a::text").extract()
            ip["type"] = item.css("td:nth-child(5)::text").extract()
            ip["protocol"] = item.css("td:nth-child(6)::text").extract()
            ip["speed"] = item.css("td:nth-child(7) div::attr(title)").extract()
            ip["time"] = item.css("td:nth-child(8) div::attr(title)").extract()
            ip["alive"] = item.css("td:nth-child(9)::text").extract()
            ip["proof"] = item.css("td:nth-child(10)::text").extract()
            yield ip

在這個過程中遇到了一個問題，即簡單的爬取西刺頁面是無法爬取的，會遇到503錯誤。原因是需要設定user-agent。

當然，你想指導到底它設定了什麼樣的限制，你可以訪問robot.txt檢視詳情

http://www.xicidaili.com/robots.txt

robot.txt檔案包含了該網站允許的使用者代理和允許爬取的網頁。

如何設定User-agent

在工程目錄下找到Settings.py，然後找到其中的USER-AGENT一行，將註釋去掉。可以將其設定為

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36'

這樣，Scrapy就可以訪問西刺了
假設此時，我們需要使用scrapy shell來檢查是否可以訪問西刺網站，並且除錯程式，我們發現像原來那樣使用

scrapy shell "http://www.xicidaili.com/nn"

並不能成功訪問。那麼我們需要在scrapy shell 上也設定user-agent，具體設定如下

scrapy shell -s USER_AGENT="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36" "http://www.xicidaili.com/nn/"

所以OK，這樣我們就可以成功的訪問西刺了。此時可以使用view(response)來檢視爬取下來的網頁是否符合要求。

最後，處理Item，儲存到本地。

# -*- coding: utf-8 -*-
import json
# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html


class XiciPipeline(object):
    def __init__(self):
        self.file = open('result.jl', 'w', encoding='utf-8')

    def process_item(self, item, spider):
        line = json.dumps(dict(item), ensure_ascii=False) + '\n'
        self.file.write(line)
        return item

此時，記得在Settings.py中啟用pipeLine。

這裡收穫最大的是學習到了如何給Scarpy新增使用者代理和在使用Scrapy shell 時新增使用者代理。

Scrapy抓取西刺高匿代理ip

如題：因為想試試代理ip，所以就想著在西刺上爬一些ip用用如上兩節所示，具體如何建立Scrapy工程的細節不在贅述。 scrapy startproject xici scrapy genspider xici http://www.xicidail

python3 抓取西刺網免費代理IP並驗證是否可用

爬取西祠網免費高匿代理IP並驗證是否可用存到csv檔案 #匯入模組 import requests import chardet import random from scrapy.selector import Selecto

python：多執行緒抓取西刺和快站高匿代理IP

　　一開始是打算去抓取一些資料，但是總是訪問次數多了之後被封IP，所以做了一個專門做了個工具用來抓取在西刺和快站的高匿IP。　　執行環境的話是在python3.5下執行的，需要requests庫　　在製作的過程中也參考的以下網上其他人的做法，但是發現很大一部分都不是多執行緒去抓取有點浪費時間了，又或者

python 爬蟲獲取西刺網免費高匿代理ip

import chardet import requests from scrapy.selector import Selector import random from telnetlib import Telnet ip_list = [] def g

python網路爬蟲實戰——實時抓取西刺免費代理ip

參考網上高手示例程式，利用了多執行緒技術，Python版本為2.7 #-*-coding:utf8-*- import urllib2 import re import threading import time rawProxyList = [] checkedPr

scrapy爬取西刺網站ip

close mon ins css pro bject esp res first # scrapy爬取西刺網站ip # -*- coding: utf-8 -*- import scrapy from xici.items import XiciItem clas

爬蟲ip代理對高匿代理ip的必要性

對於爬蟲來說，在聽到ip代理的時候，聽得最多的莫過於透明代理、匿名代理、高匿代理這幾個詞了，那麼分別是什麼意思呢？互相之間有什麼樣的區別呢？為什麼說爬蟲ip代理一定要使用高匿代理呢？帶著這些問題，讓我們一起來揭開匿名級別的面紗。第一高匿名：伺服器不知道你使用了代理ip和不知

開箱即用的高匿代理抓取工具

golang-proxy v3.0 中文文件 Golang-Proxy -- 簡單高效的免費代理抓取工具通過抓取網路上公開的免費代理，來維護一個屬於自己的高匿代理池，用於網路爬蟲、資源下載等用途。在 v3.0 有哪些新特性依舊提供了高度靈活的 API 介面，在啟動主程式後，即可通過在瀏覽器訪問

go proxy 快捷的高匿代理抓取工具

golang-proxy v2.0 Golang-Proxy – 簡單高效的免費代理抓取工具通過抓取網路上公開的免費代理，來維護一個屬於自己的高匿代理池，用於網路爬蟲、資源下載等用途。 Version 2.0 不再依賴 MySQL 和 NSQ！

scrapy抓取免費代理IP

代理爬蟲 python scrapy 1、創建項目scrapy startproject getProxy2、創建spider文件，抓取www.proxy360.cn www.xicidaili.com兩個代理網站內容cd項目的spiders模塊下執行scrapy genspider pro

爬資料時？IP老被封？這樣就不會被封了！爬取西刺代理IP並驗證

胡蘿蔔醬最近在爬取知乎使用者資料，然而爬取不了一會，IP就被封了，所以去爬取了西刺代理IP來使用。這裡爬取的是西刺國內高匿IP。我們需要的就是這一串數字。進群：548377875&nbs

爬取西刺代理

spider： # -*- coding: utf-8 -*-import scrapyfrom collectip.items import CollectipItemclass XiciSpider(scrapy.Spider): name = 'xici' allowed_domains

利用java-maven程式爬取西刺網頁的ip代理

主要程式碼: package com.itquwei.spider; import java.io.IOException; import java.nio.charset.Charset; import org.apache.http.HttpEntity; import org.a

建立自己的IP代理池[爬取西刺代理]

一:基本引數和匯入的包 import requests import re import random url = 'http://www.xicidaili.com/nn' headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64)

爬爬看：爬取西刺代理

關鍵字：西刺代理爬蟲 CSV檔案前言由於群裡一位水友的提問，我打算寫這份程式碼。西刺網站的代理分為四種：高匿、普通（透明）、HTTPS 、HTTP 。對應頁面的 URL 特徵是：nn

爬取西刺網實現ip代理池

使用ip代理伺服器可以防止在爬蟲時被封本機ip。國內免費的高匿代理可以選擇西刺網總體目標是寫一個爬蟲，將這些欄位儲存在資料庫中，然後篩選速度快的作為代理伺服器，實現ip代理池。在這裡使用requests庫來實現。程式碼如下import requests def crawl_i

python:使用requests,bs4爬取西刺代理並驗證

爬西刺代理的高匿免費代理，並通過http://www.baidu.com進行驗證代理是否可用，存入到excel檔案中檢視原始碼發現：所有的代理資訊都在tr標籤裡面（只有一個例外）找到所有裡面有td標籤的tr標籤 trs = soup.find_

爬取西刺代理IP存入本地txt檔案作為代理IP池（未加入是否可用驗證）

執行環境：Python3.5.3、Windows 10 RS4、Pycharm 2017.2.4 前言我們在爬取資料時，經常會因為請求太過頻繁導致反爬機制生效，不少伺服器的反爬機制

一個站點的誕生02--用Scrapy抓取數據

項目 selector 默認安裝找不到 shang foo 術語替換產生假設想抓數據，就須要有爬蟲程序，業內叫crawler或者spider。有各種語言版本號的開源爬蟲。c++, Java, php，在github上搜一下，以"spider c++"為k

Scrapy抓取Quotes to Scrape

same iss ict -a json 一個個 doc common lang # 爬蟲主程序quotes.py # -*- coding: utf-8 -*- import scrapy from quotetutorial.items import QuoteIte

Scrapy抓取西刺高匿代理ip

如題：因為想試試代理ip，所以就想著在西刺上爬一些ip用用

如何設定User-agent

相關推薦