使用scrapy框架,用模擬瀏覽器的方法爬取京東上面膜資訊,並存入mysql,sqlite,mongodb資料庫

阿新 • • 發佈：2018-12-02

因為京東的頁面是由JavaScript動態載入的所以使用模擬瀏覽器的方法進行爬取,具體程式碼如下 :

# -*- coding: utf-8 -*-
import scrapy
from scrapy import Request
from jdpro.items import jdproItem

num = 0
class MaskSpider(scrapy.Spider):
    name = 'mask'
    allowed_domains = ['list.jd.com']

    def __init__(self):
        self.urls = [
            "https://list.jd.com/list.html?cat=1316,1381,1392&sort=sort_totalsales15_desc&trans=1&page=85&JL=6_0_0#J_main"]

    def start_requests(self):
        for url_str in self.urls:
            yield Request(url=url_str, callback=self.parse, meta={"page": "0"}, dont_filter=True)

    def parse(self, response):
        # with open("jd.html","wb") as f:
        #     f.write(response.body)
        item = jdproItem()
        li_list = response.css('#plist > ul > li')
        page_next = response.css('#J_bottomPage > span.p-num > a.pn-next')
        print("li_list is :::::: ", li_list)
        for li in li_list:
            try:
                goods_name = li.xpath(r'./div/div/a/em/text()')[0].extract().strip("\n\t ")
                if goods_name == "":
                    goods_name = li.xpath(r'./div/div/a/em/text()')[1].extract().strip("\n\t ")
            except Exception as e:
                print(e)
            try:
                goods_price = li.xpath(r'.//div[@class="p-price"]/strong/i/text()')[0].extract()
            except Exception as e:
                print(e)
                goods_price = "暫無價格"
            try:
                goods_img = "https:" + li.xpath('.//div[contains(@class,"p-img")]/a/img/@src')[0].extract()
            except Exception as e:
                print(e)
                goods_img = "https:" + li.xpath('.//div[contains(@class,"p-img")]/a/img/@data-lazy-img')[0].extract()
            try:
                platfrom = li.xpath('.//div[contains(@class,"p-commit")]/strong/a/text()')[0].extract()
            except Exception as e:
                platfrom = "暫無"
            try:
                sales = li.xpath('.//div[@class="p-shop"]/span/a/text()')[0].extract().strip(".")
            except Exception as e:
                print(e)
                sales = "暫無"
            item["goods_name"] = goods_name
            item["goods_price"] = goods_price
            item["goods_img"] = goods_img
            item["platfrom"] = platfrom
            item["sales"] = sales
            yield item

        global num
        if len(page_next) > 0:
            num += 1
            if num < 260:
                print("開始爬取第{}頁".format(num))
                yield Request(url=response.url, callback=self.parse, meta={"page": "2"}, dont_filter=True)
            else:
                print("資料爬取完畢")

settings.py


USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.13; rv:62.0) Gecko/20100101 Firefox/62.0'

ROBOTSTXT_OBEY = False

DOWNLOADER_MIDDLEWARES = {
   # 'jdpro.middlewares.JdproDownloaderMiddleware': 543,
   'jdpro.middlewares.SeleniumMiddleware': 543,
}

ITEM_PIPELINES = {
   # 'jdpro.pipelines.writeFilesPipeline': 300,
   'jdpro.pipelines.saveSqlitePipeline': 301,
   # 'jdpro.pipelines.saveMysqlPipeline': 302,
   # 'jdpro.pipelines.saveMongodbPipeline': 303,
}

pipelines.py

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

# 寫入檔案
import json


class writeFilesPipeline(object):

    def open_spider(self, spider):
        self.fp = open("data.txt", "w", encoding="utf8")

    def close_spider(self, spider):
        self.fp.close()

    def process_item(self, item, spider):
        dic = dict(item)
        string = json.dumps(dic, ensure_ascii=False)
        self.fp.write(string + "\n")
        return item


# 存入sqlite資料庫
import sqlite3


class saveSqlitePipeline(object):

    def open_spider(self, spider):
        # 連線資料庫
        self.conn = sqlite3.connect("Goods.db")

    def close_spider(self, spider):
        # 關閉資料庫
        self.conn.close()

    def process_item(self, item, spider):
        self.cursor = self.conn.cursor()
        sql = 'insert into Goods(goods_name,goods_price,goods_img,platfrom,sales) values("%s","%s","%s","%s","%s")' % (
            item['goods_name'], item['goods_price'], item['goods_img'], item['platfrom'], item['sales'])
        # 執行sql語句
        try:
            self.cursor.execute(sql)
            self.conn.commit()
        except Exception as e:
            print("資料插入失敗...請等待")
            print(e)
            self.conn.rollback()
        return item


# 存入mysql資料庫
import pymysql


class saveMysqlPipeline(object):
    def open_spider(self, spider):
        # 連線資料庫
        self.conn = pymysql.Connect(host="xxxxxx", port="3306", user="root", password="xxxxxx", database="xxxxxx",
                                    charset="utf8")

    def colse_spider(self, spider):
        # 關閉資料庫
        self.conn.close()

    def process_item(self, item, spider):
        self.cursor = self.conn.cursor()

        sql = 'insert into Goods(goods_name,goods_price,goods_img,platfrom,sales) values("%s","%s","%s","%s","%s")' % (
            item['goods_name'], item['goods_price'], item['goods_img'], item['platfrom'], item['sales'])
        try:
            self.cursor.execute(sql)
            self.conn.commit()
        except Exception as e:
            print("資料插入失敗...請等待")
            print(e)
            self.conn.rollback()
        return item


# 存入mongodb資料庫
import pymongo


class saveMongodbPipeline(object):
    def open_spider(self, spider):
        # 連線資料庫
        self.client = pymongo.MongoClient(host="localhost", port=27017)

    def close_spider(self, spider):
        # 關閉資料庫
        self.client.close()

    def process_item(self, item, spider):
        # 選擇資料庫
        db = self.client.job51
        # 選擇集合
        col = db.job51
        # #將item轉化為字典
        print(item)
        dic = dict(item)

        col.insert(dic)

        return item

middlewares.py

import time
from selenium import webdriver
from scrapy.http import HtmlResponse
from selenium.webdriver.chrome.options import Options


class SeleniumMiddleware(object):
    def __init__(self):
        self.options = Options()
        self.options.add_argument("--headless")
        self.browser = webdriver.Chrome(executable_path=r"D:\python_others\Spider\code\day06\tools\chromedriver.exe",
                                        chrome_options=self.options
                                        )

    def process_request(self, request, spider):
        if int(request.meta["page"]) == 2:
            next_page = self.browser.find_element_by_css_selector('#J_bottomPage > span.p-num > a.pn-next')
            next_page.click()
            self.browser.execute_script('window.scrollTo(0,document.body.scrollHeight)')
            time.sleep(10)
            return HtmlResponse(url=self.browser.current_url, body=self.browser.page_source, encoding="utf8",
                                request=request)
        else:
            try:
                print("url is :::::", request.url)
                self.browser.get(request.url)
                self.browser.execute_script('window.scrollTo(0,document.body.scrollHeight)')
            except TimeoutError as e:
                print("超時")
            time.sleep(10)
            return HtmlResponse(url=self.browser.current_url, body=self.browser.page_source, encoding="utf8",
                                request=request)

使用scrapy框架,用模擬瀏覽器的方法爬取京東上面膜資訊,並存入mysql,sqlite,mongodb資料庫

因為京東的頁面是由JavaScript動態載入的所以使用模擬瀏覽器的方法進行爬取,具體程式碼如下 : spider.py # -*- coding: utf-8 -*- import scrapy from scrapy import Request from jdpro.items

JAVA 爬取指定網站的資料並存入MySQL資料庫中 maven +httpclient+jsoup+mysql

最近在做一個小專案，因為要用的資料爬取，所以研究了好多天，分享一下自己的方法目錄結構：自己建立maven工程，匯入相關依賴：pom.xml <?xml version="1.0" enco

Python資料爬蟲學習筆記（21）爬取京東商品JSON資訊並解析

一、需求：有一個通過抓包得到的京東商品的JSON連結，解析該JSON內容，並提取出特定id的商品價格p，json內容如下： jQuery923933([{"op":"7599.00","m":"9999.00","id":"J_5089253","p":"7099.00"}

Python3 Scrapy框架學習五：使用crawl模板爬取豆瓣Top250，並存入MySql、MongoDB

1.新建專案及使用crawl模板 2.頁面解析 rules = (Rule(LinkExtractor(allow=r'subject/\d+/',restrict_css = '.hd > a[class = ""]'), callback='parse_it

python爬蟲+網頁點選事件+selenium模擬瀏覽器，爬取選股寶內容

（一）PYTHON的安裝（已安裝，可跳過此步驟） 1、PYTHON下載 PYTHON官網：https://www.python.org/ 按照對應的系統下載，

Scrapy框架爬蟲模擬瀏覽器登入—獲取框架Cookies

return [FormRequest.from_response(response, url='http://edu.iqianyue.com/index_user_login', #真實post地址

通過scrapy，從模擬登入開始爬取知乎的問答資料

這篇文章將講解如何爬取知乎上面的問答資料。首先，我們需要知道，想要爬取知乎上面的資料，第一步肯定是登入，所以我們先介紹一下模擬登入：先說一下我的思路： 1.首先我們需要控制登入的入口，重寫start_requests方法。來控制到這個入口之後，使用

用python爬取二手房交易資訊並進行分析

用python爬取二手房交易資訊並分析第一步：編寫爬蟲爬取某平臺上海市十個區共900條二手房的交易資訊 #爬取上海十個區的二手房價資訊 import requests from bs4 import BeautifulSoup import csv #

Scrapy+Splash爬取京東python書本資訊（遇到的問題記錄）

今天用splash進行京東的圖書的爬蟲。有了以下幾點的錯誤總結: （1）按照參考書上的方式，寫好lua_script檔案。但是自己在lua_script檔案後面加了幾個中文註釋，結果執行時一直出錯，後來意識到了問題，將這些中文註釋給刪除了，這時候才沒有提示剛剛出現的錯誤。

scrapy爬取新浪微博並存入MongoDB中

spider.pyimport json from scrapy import Request, Spider from weibo.items import * class WeiboSpider(Spider): name = 'weibocn'

利用scrapy輕鬆爬取招聘網站資訊並存入MySQL

前言 Scrapy版本：1.4； Python版本：3.6； OS：win10；本文完整專案程式碼：完整示例；本文目標：通過爬取騰訊招聘網站招聘崗位，熟悉scrapy，並掌握資料庫儲存操作；一、準備工作 ♣ 基礎工作首先你要安裝S

Python3 + Scrapy 爬取豆瓣評分資料存入Mysql與MongoDB資料庫。

首先我們先抓包分析一下，可以看到我們想要的每一頁的全部資料都在"article"下。而其中每一部的電影的資料可以看到在"info"下。所以我們只要在info下找到自己的目標資料並想好匹配方法即可，本文使用的是xpath，其實也可以在spiders中匯入pyquery或者Bea

c# 爬蟲爬取京東所有商品資訊

在一個小專案中,需要用到京東的所有商品ID,因此就用c#寫了個簡單的爬蟲。在解析HTML中沒有使用正則表示式，而是藉助開源專案HtmlAgilityPack解析HTML，找到需要的節點。一、下載網頁HTML 首先我們寫一個公共方法用來下載網頁的HTML。在寫下載HTML方

python爬取網站上的圖片並儲存到本地

　　1.匯入需要的模組requests，BeautifulSoup，os（用於檔案讀寫）。　　2.建立一個類，並初始化。 class BeautifulPicture: def __init__(self): # 類的初始化操作 self.headers = {

PythonSpider---爬取淘寶店鋪資訊並匯入excel

挺久沒更新簡書了，之前一直在忙機器視覺的開題報告，現在又要期末複習，射頻通訊，訊號處理看的腦闊疼，所以決定寫個簡單點的爬蟲，放鬆下，換個環境，也順便鞏固下爬蟲。圖片來自網路 0.執行環境 Python3.6.5 Pycharm win10 1.爬蟲思維框架

Python爬取天氣預報資料，並存入到本地EXCEL中

近期忙裡偷閒，搞了幾天python爬蟲，基本可以實現常規網路資料的爬取，比如糗事百科、豆瓣影評、NBA資料、股票資料、天氣預報等的爬取，整體過程其實比較簡單，有一些HTML+CSS+DOM樹等知識就很easy，我就以天氣預報資料的爬取為例，整理出來。需求：採

python爬蟲——爬取豆瓣電影top250資訊並載入到MongoDB資料庫中

最近在學習關於爬蟲方面的知識，因為剛開始接觸，還是萌新，所以有什麼錯誤的地方，歡迎大家指出 from multiprocessing import Pool from urllib.request import Request, urlopen import re, pymongo index

python簡單爬蟲多執行緒爬取京東淘寶資訊教程

1,需要準備的工作，電腦已經安裝好python，如果沒裝，可以執行去https://www.python.org/官網下載，初學者可以安裝輕量級的wingide python開發工具，python安裝成功後配置好環境變數，在dos環境使用pip install 模組將需要用

python爬取糗事百科資料並儲存到sqlite中，命令列讀出

import requests import sqlite3 from bs4 import BeautifulSoup class QSBK: def __init__(self): self.page=0 self.items=[

Python的網路爬蟲小系統——爬取京東商城商品資訊

import time from selenium import webdriver keyword = input('請輸入你要搜尋的關鍵字：') brow = webdriver.Firefox() brow.get('http://www.jd.com') searc

使用scrapy框架,用模擬瀏覽器的方法爬取京東上面膜資訊,並存入mysql,sqlite,mongodb資料庫

相關推薦