scrapy+selenium　爬取淘寶商城商品數據存入到mongo中

阿新 • • 發佈：2018-07-30

mage 通過 -c style settings 一個 arc lec less

１．配置信息

# 設置mongo參數
MONGO_URI = ‘localhost‘
MONGO_DB = ‘taobao‘

#　設置搜索關鍵字
KEYWORDS=[‘小米手機‘,‘華為手機‘]
# 最大爬取頁數
MAX_PAGE = 2
# 相應超時設置
SELENIUM_TIMEOUT = 20

ROBOTSTXT_OBEY = False　#忽略

# 中間件
DOWNLOADER_MIDDLEWARES = {
   ‘taobaoSpider.middlewares.SeleniumMiddleware‘: 300,
}


＃項目管道
ITEM_PIPELINES = {
   # 
 ‘taobaoSpider.pipelines.TaobaospiderPipeline‘: 300,
    ‘taobaoSpider.pipelines.MongoPipeline‘: 400,
}

２．item

import scrapy


class TaobaospiderItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    title = scrapy.Field()
    price = scrapy.Field()
    sales  
= scrapy.Field()
    shop = scrapy.Field()
    location = scrapy.Field()
    image = scrapy.Field()

3.spider

# -*- coding: utf-8 -*-
import scrapy

class TaobaoSpider(scrapy.Spider):
    name = ‘taobao‘
    allowed_domains = [‘taobao.com‘]
    base_url = ‘https://s.taobao.com/search?q=‘

    def start_url(self):
         
# 通過self.settings.get（）的方式獲取setting裏面的參數
        for keyword in self.gettings.get(‘KEYWORDS‘):
            for page in range(1,self.gettings.get(‘MAX_PAGE‘)+1):
                url = self.base_url.format(self.url)
                yield scrapy.Request(url=self.url,
                                     callback=self.parse,
                                    meta={‘page‘:page}, #　傳遞頁碼
                                    dont_filter=True) # 不去重


    def parse(self, response):

        products = response.xpath(‘//*[@id="mainsrp-itemlist"]/div[@class="m-itemlist"]/div[@class="grid g-claerfix"]/div[1]‘)

        # products = response.xpath(‘//div[contains(@class,"item J_MouserOnverReq"/‘)
        for product in products:
            from taobaoSpider.taobaoSpider.items import TaobaospiderItem
            item = TaobaospiderItem()
            item[‘title‘] = ‘‘.join(product.xpath(‘//div[contains(@class,"title")]/text()‘).extract()).strip()
            item[‘location‘] = ‘‘.join(product.xpath(‘//div[contains(@class,"location")]/text()‘).extract()).strip()
            item[‘shop‘] = ‘‘.join(product.xpath(‘//div[contains(@class,"shop")]/text()‘).extract()).strip()
            item[‘price‘] = ‘‘.join(product.xpath(‘//div[contains(@class,"price")]/text()‘).extract()).strip()
            item[‘deal‘] = ‘‘.join(product.xpath(‘//div[contains(@class,"deal-cnt")]/text()‘).extract()).strip()
            item[‘iamge‘] = ‘‘.join(product.xpath(‘//div[@class="pic"]/img[contains(@class,"img")/@data-src‘).extract()).strip()
            yield item

４．中間件

from selenium import webdriver
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from scrapy.http import HtmlResponse
from logging import getLogger


class SeleniumMiddleware(object):
    # def __init__(self, timeout=None, service_args=[]):
    def __init__(self, timeout=None):
        self.logger = getLogger(__name__)
        self.timeout = timeout
        # self.browser = webdriver.PhantomJS(service_args=service_args)
        # 無界面模式
        # self.options = webdriver.ChromeOptions()
        # self.options.add_argument(‘--headless‘)
        # self.browser = webdriver.Chrome(chrome_options=self.options)
        self.browser = webdriver.Chrome()
        # self.browser.set_window_size(1400, 700)
        self.browser.set_page_load_timeout(self.timeout)
        self.wait = WebDriverWait(self.browser, self.timeout)
        print(‘timeout:‘, self.timeout)

    def __del__(self):
        self.browser.close()

    def process_request(self, request, spider):
        ‘‘‘
        :param request:
        :param spider:
        :return:
        ‘‘‘
        self.logger.debug(‘Selenium is Runing‘)
        # 得到的是個int型的整數
        page = request.meta.get(‘page‘, 1)
        try:
            self.browser.get(request.url)
            print(10*‘-‘, request.url,10*‘-‘)
            if page > 1:
                # 從第二頁開始,等待頁面加載完成
                # Presence_of_all_elements_located 判斷一組元素是否存在
                input = self.wait.until(
                    EC.presence_of_element_located((By.CSS_SELECTOR, ‘##mainsrp-pager > div > div > div > div.form > input‘)))
                # Element_to_be_clickable 判斷元素是否可點擊
                submit = self.wait.until(
                    EC.element_to_be_clickable((By.CSS_SELECTOR, ‘#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit‘)))
                input.clear()
                # 輸入第幾頁
                input.send_keys(page)
                submit.click()
            # Text_to_be_present_in_element 判斷元素是否有xx文本信息
            self.wait.until(EC.text_to_be_present_in_element((
                By.CSS_SELECTOR, ‘#mainsrp-pager > div > div > div > ul > li.item.active > span‘), str(page)))
            # Presence_of_all_elements_located 判斷一組元素是否存在
            # 檢測每一個item是否加載出來了
            self.wait.until(EC.presence_of_element_located((
                By.CSS_SELECTOR, ‘#mainsrp-itemlist .m-itemlist .grid.g-clearfix .item‘)))
            return HtmlResponse(url=request.url, body=self.browser.page_source, request=request, encoding=‘utf-8‘, status=200)
        except TimeoutException:
            return HtmlResponse(url=request.url, status=500, request=request)

    # 類方法 感覺就是獲取setting裏面的數據 在這裏調用
    # 得到數據之後變成類變量
    @classmethod
    def from_crawler(cls, crawler):
        return cls(timeout=crawler.settings.get(‘SELENIUM_TIMEOUT‘),)
                   # service_args=crawler.settings.get(‘PHANTOMJS_SERVICE_ARGS‘))

５．管道（存儲到mongo中）

class Pipeline(object):
    def process_item(self, item, spider):
        return item

import pymongo

#　存儲到mongo中
class MongoPipeline(object):

    # 配置mongo數據庫
    def __init__(self,mongo_url,mongo_db):
        self.mongo_url = mongo_url
        self.mongo_db = mongo_db

    # 從setting中獲取參數
    @classmethod
    def from_crawler(cls,crawler):
        mongo_url = crawler.settings.get(‘MONGO_URL‘)
        mongo_db = crawler.settings.get(‘MONGO_DB‘)

    # 連接數據庫
    def open_spider(self,spider):
        self.client = pymongo.MongoClient(self.mongo_url)
        self.db = self.client[self.mongo_db]

    # 關閉數據庫連接
    def close_spider(self,spider):
        self.client.close()

    # 設置存儲格式
    def process_item(self,item,spider):
        # item.__class__.__name__  輸出的item的類名
        name = item.__class__.__name__
        print(‘---------------name‘, name, ‘-------------------‘)
        self.db[name].insert(dict(item))
        return item

scrapy+selenium　爬取淘寶商城商品數據存入到mongo中

mage 通過 -c style settings 一個 arc lec less １．配置信息 # 設置mongo參數 MONGO_URI = ‘localhost‘ MONGO_DB = ‘taobao‘ #　設置搜索關鍵字 KEYWORDS=[‘小米手機‘,‘華為

【原創】Python+Scrapy+Selenium簡單爬取淘寶天貓商品資訊及評論

（轉載請註明出處）哈嘍，大家好~前言：這次寫這個小指令碼的目的是為了給老師幫個小忙，爬取某一商品的資訊，寫完覺得這個程式似乎也可以用在更普遍的地方，所以就放出來給大家看看啦，然後因為是在很短時間寫的，所以自然有很多不足之處，想著總之實現了功能再說吧，程式碼太醜大不了之後再重構

爬取豆瓣電影儲存到數據庫MONGDB中以及反反爬蟲

ica p s latest tel mpat side nload self. pro 1.代碼如下： doubanmoive.py # -*- coding: utf-8 -*- import scrapy from douban.items import Douba

使用scrapy和selenium結合爬取淘寶資訊

首先，發現淘寶資訊是需要進行下拉載入資訊，否則商品資訊為空因此，在middleware.py中設定： class ScrapyseleniumspiderDownloaderMiddleware(object): # def __init__(self):

scrapy 爬取淘寶商品評論資訊

爬蟲最後要達到的效果，是將某分類下，第一頁的所有商品的評論儲存至mysql中。具體會儲存評論日期、評論id、評論內容、商品連結和商品id。爬蟲部分程式碼 # -*- coding: utf-8 -*- import scrapy import re import request

Scrapy基於selenium結合爬取淘寶

在對於淘寶,京東這類網站爬取資料時,通常直接使用傳送請求拿回response資料,在解析獲取想要的資料時比較難的,因為資料只有在瀏覽網頁的時候才會動態載入,所以要想爬取淘寶京東上的資料,可以使用selenium來進行模擬操作對於scrapy框架

Python3爬蟲爬取淘寶商品數據

表格 name 錯誤處理 from [0 https iat turn 感覺這次的主要的目的是從淘寶的搜索頁面獲取商品的信息。其實分析頁面找到信息很容易，頁面信息的存放都是以靜態的方式直接嵌套的頁面上的，很容易找到。主要困難是將信息從HTML源碼中剝離出來，數據和網頁源碼

使用selenium和pyquery來爬取淘寶ipad商品資訊

使用selenium爬取淘寶ipad商品資訊爬取過程中的重點是實現翻頁、提取商品資訊、儲存至資料庫訪問淘寶爬取過程中可以通過掃描二維碼的方式來登陸淘寶，要注意的是訪問不能過於頻繁，否則ip會被限制訪問。防止ip被限制訪問可以通過使用代理，或者降低訪問

爬蟲學習之18：使用selenium和chrome-headerless爬取淘寶網商品資訊（非同步載入網頁）

登入淘寶網，使用F12鍵觀察網頁結構，會發現淘寶網也是非同步載入網站。有時候通過逆向工程區爬取這類網站也不容易。這裡使用selenium和chrome-headerless來爬取。網上有結合selenium和PlantomJS來爬取的，但是最新版的Seleniu

python 使用selenium+urllib爬取淘寶MM照片

本文介紹瞭如何爬取淘寶模特列表頁的模特相簿圖片。由於相簿的照片是動態生成的所以用到了selenium和chromedriver來載入頁面。爬取圖片的思路如下： 1.從起始頁開始先獲取模特個人資訊頁連結； 2.從

python +selenium 爬取淘寶網商品資訊

前幾天用python爬取豆瓣關於電影《長城》的影評，發現豆瓣的網頁是靜態的，心中一陣竊喜。以為對於動態網頁瞭解的不是太多。但是主要是用cookie加headers爬取的。效果還不錯，爬取了六七萬條網友的評價，後期主要打算研究一下，如何發現那些使用者是水軍。今天研

用scrapy爬取ttlsa博文相關數據存儲至mysql

添加 contains exec 什麽 dev paths 爬取 spa mark 運維生存時間這個博客內容還是比較詳盡的,對與運維技術人員的我來說,是偶爾溜達進來的地方,從中也學習到不少知識，感謝博主的奉獻! 這段時間我就通過scrapy來收集下此博客內文章的相關數據,供

比價網站的基礎-爬取淘寶的商品資訊

淘寶網站，頁面上有很多動態載入的AJAX請求，並且很多引數做過加密處理，如果直接分析網頁，會非常繁瑣，難度極大。本文利用selenium驅動chrome瀏覽器完成關鍵字輸入、搜尋、點選等功能，完成頁面的資訊的獲取，並利用pyquery庫進行解析，獲取商品資訊並將

scrapy爬取伯樂在線文章數據

數據 inf 技術分享爬取 src 創建 image bsp 爬蟲創建項目切換到ArticleSpider目錄下創建爬蟲文件 scrapy爬取伯樂在線文章數據

Python開發簡單爬蟲（二）---爬取百度百科頁面數據

class 實例實例代碼編碼 mat 分享 aik logs title 一、開發爬蟲的步驟 1.確定目標抓取策略：打開目標頁面，通過右鍵審查元素確定網頁的url格式、數據格式、和網頁編碼形式。 ①先看url的格式, F12觀察一下鏈接的形式;② 再看目標文本信息的

Python爬取百度貼吧數據

utf-8 支持我 family encode code word keyword 上一條時間　　本渣除了工作外，在生活上還是有些愛好，有些東西，一旦染上，就無法自拔，無法上岸，從此走上一條不歸路。花鳥魚蟲便是我堅持了數十年的愛好。　　本渣還是需要上班，才能支持我的

python實現數據爬取-清洗-持久化存儲-數據平臺可視化

爬蟲 python 數據分析數據清理數據挖掘基於python對淘寶模特個人信息進行篩選爬取，數據清洗，持久化寫入mysql數據庫.使用django對數據庫中的數據信息篩選並生成可視化報表進行分析。數據爬取，篩選，存庫：# -*- coding:utf-8 -*- import

拉勾網爬取全國python職位並數據分析薪資，工作經驗，學歷等信息

add with color palette 谷歌瀏覽器 tor item imp 文件中首先前往拉勾網“爬蟲”職位相關頁面確定網頁的加載方式是JavaScript加載通過谷歌瀏覽器開發者工具分析和尋找網頁的真實請求，確定真實數據在position.Ajax開頭的鏈

python網絡爬蟲《爬取get請求的頁面數據》

可用 enc 搜索爬蟲程序 pre www __main__ object python網絡一、urllib庫　　urllib是python自帶的一個用於爬蟲的庫，其主要作用就是可以通過代碼模擬瀏覽器發送請求。其常被用到的子模塊在python3中的為urllib.r

Python爬蟲《爬取get請求的頁面數據》

內置字典 tco fit eve 發送爬取 mage get請求一.urllib庫 urllib是Python自帶的一個用於爬蟲的庫，其主要作用就是可以通過代碼模擬瀏覽器發送請求。其常被用到的子模塊在Python3中的為urllib.request和urllib.p

scrapy+selenium 爬取淘寶商城商品數據存入到mongo中

相關推薦

scrapy+selenium　爬取淘寶商城商品數據存入到mongo中