Python爬蟲學習6：scrapy入門（一）爬取汽車評論並儲存到csv檔案

阿新 • • 發佈：2019-02-20

一、scrapy 安裝：可直接使用Anaconda Navigator安裝，也可使用pip install scrapy安裝

二、建立scrapy 爬蟲專案：語句格式為 scrapy startproject project_name

生成的爬蟲專案目錄如下，其中spiders是自己真正要編寫的爬蟲。

三、爬取騰訊新聞並儲存到csv檔案

1. 只爬取一個頁面：在spiders目錄下建立spider程式car_comment_spider.py 並編輯程式碼如下：

import scrapy

class CarCommentSpider(scrapy.Spider):
    name = 'CarComment'             # 蜘蛛的名字
    # 指定要抓取的網頁
    start_urls = ['https://koubei.16888.com/117870/']      
    
    # 網頁解析函式
    def parse(self, response):
        for car in response.xpath('/html/body/div/div/div/div[@class="mouth_box"]/dl'):   # 遍歷xpath
            advantage = car.xpath('dd/div[2]/p[1]/span[@class="show_dp f_r"]/text()').extract_first()
            disadvantage = car.xpath('dd/div[2]/p[2]/span[2]/text()').extract_first()
            sums = car.xpath('dd/div[2]/p[3]/span[2]/text()').extract_first()
            support_num = car.xpath('dd/div/div[@class="like f_r"]/a/text()').extract_first()
           
            print('優點：',advantage)
            print('缺點：',disadvantage)
            print('綜述：',sums)
            print('支援人數:',support_num)

在cmd命令列中執行scrapy runspider car_comment_spider.py

2. 爬取某個車型的所有評論並儲存到csv檔案

（1）自行組建不同頁面的url: 根據網頁url的規律可設定

start_urls = ['https://koubei.16888.com/117870/0-0-0-%s' % p for p in range(1,125)]

import scrapy

class CarCommentSpider(scrapy.Spider):
    name = 'CarComment'             # 蜘蛛的名字
    # 指定要抓取的網頁, 從第1頁到第124頁，程式會自動解析每個url
    start_urls = ['https://koubei.16888.com/117870/0-0-0-%s' % p for p in range(1,125)]      
    
    # 網頁解析函式
    def parse(self, response):
        for car in response.xpath('/html/body/div/div/div/div[@class="mouth_box"]/dl'):   # 遍歷xpath
            advantage = car.xpath('dd/div[2]/p[1]/span[@class="show_dp f_r"]/text()').extract_first()
            disadvantage = car.xpath('dd/div[2]/p[2]/span[2]/text()').extract_first()
            sums = car.xpath('dd/div[2]/p[3]/span[2]/text()').extract_first()
            support_num = car.xpath('dd/div/div[@class="like f_r"]/a/text()').extract_first()
           
            print('優點：',advantage)
            print('缺點：',disadvantage)
            print('綜述：',sums)
            print('支援人數:',support_num)
            
            if len(advantage) != 0 and len(disadvantage) != 0 and len(sums) != 0 and len(support_num) != 0:
                yield {'advantage':advantage, 'disadvantage':disadvantage, 'sums':sums, 'support_num':support_num}

（2）從每一頁的程式碼解析找到下一頁的url

下一頁的url在a標籤中，此處存在多個a標籤，故需要從中找到下一頁對應的a標籤

import scrapy

class CarCommentSpider(scrapy.Spider):
    name = 'CarComment'             # 蜘蛛的名字
    # 指定要抓取的網頁, 從第1頁到第124頁，程式會自動解析每個url
    start_urls = ['https://koubei.16888.com/117870/0-0-0-1/']      
    
    # 網頁解析函式
    def parse(self, response):
        for car in response.xpath('/html/body/div/div/div/div[@class="mouth_box"]/dl'):   # 遍歷xpath
            advantage = car.xpath('dd/div[2]/p[1]/span[@class="show_dp f_r"]/text()').extract_first()
            disadvantage = car.xpath('dd/div[2]/p[2]/span[2]/text()').extract_first()
            sums = car.xpath('dd/div[2]/p[3]/span[2]/text()').extract_first()
            support_num = car.xpath('dd/div/div[@class="like f_r"]/a/text()').extract_first()
           
            print('優點：',advantage)
            print('缺點：',disadvantage)
            print('綜述：',sums)
            print('支援人數:',support_num)
            
            if advantage is not None and disadvantage is not None and sums is not None and support_num is not None:
                yield {'advantage':advantage, 'disadvantage':disadvantage, 'sums':sums, 'support_num':support_num}
        
        n = len(response.xpath('/html/body/div/div/div/div/div[@class="page"]/a'))   
        for i in range(1,n+1):     # 遍歷每個a元素，獲取下一頁的url
            text = response.xpath('/html/body/div/div/div/div/div[@class="page"]/a['+str(i)+']/text()').extract_first()
            if text == '下一頁':
                next_page = response.xpath('/html/body/div/div/div/div/div[@class="page"]/a['+str(i)+']/@href').extract_first()
                next_page = response.urljoin(next_page)        # 將相對地址轉換為絕對地址

                yield scrapy.Request(next_page, callback=self.parse)    # next_page繼續進行spider解析

Python爬蟲學習6：scrapy入門（一）爬取汽車評論並儲存到csv檔案

一、scrapy 安裝：可直接使用Anaconda Navigator安裝，也可使用pip install scrapy安裝二、建立scrapy 爬蟲專案：語句格式為 scrapy startproject project_name生成的爬蟲專案目錄如下，其中spiders

python爬蟲實踐——零基礎快速入門（二）爬取豆瓣電影

爬蟲又稱為網頁蜘蛛，是一種程式或指令碼。但重點在於，它能夠按照一定的規則，自動獲取網頁資訊。爬蟲的基本原理——通用框架 1.挑選種子URL； 2.講這些URL放入帶抓取的URL列隊； 3.取出帶抓取的URL，下載並存儲進已下載網頁庫中。此外，講這些URL放入帶抓取UR

python爬蟲實踐——零基礎快速入門（四）爬取小豬租房資訊

接下來我們爬取小豬短租租房資訊。進入主頁後選擇深圳地區的位置。地址如下： http://sz.xiaozhu.com/ 一，標題爬取按照慣例，我們先複製標題的xpath資訊，多複製幾個進行對比： //*[@id="page_list"]/ul/li[1]/

Python爬蟲入門實戰系列（一）--爬取網路小說並存放至txt檔案

執行平臺： Windows Python版本： Python3.x 一、庫檔案

【Python3.6爬蟲學習記錄】（十）爬取教務處成績並儲存到Excel檔案中（哈工大）

前言：基本上每天都會產生一點小想法，在實現的過程中，一步步解決問題，併產生新的想法，就比如，這次是儲存為Excel檔案。這感覺很美妙！目錄：一，安裝並簡單使用xlwt 1.1 安裝xlwt 1.2 寫入Excel程式碼 1

python爬蟲學習筆記（一）—— 爬取騰訊視訊影評

前段時間我忽然想起來，以前本科的時候總有一些公眾號，能夠為我們提供成績查詢、課表查詢等服務。我就一直好奇它是怎麼做到的，經過一番學習，原來是運用了爬蟲的原理，自動登陸教務系統爬取的成績等內容。我覺得挺好玩的，於是自己也琢磨了一段時間，今天呢，我為大家分享一個爬蟲

Python爬蟲實例（一）爬取百度貼吧帖子中的圖片

選擇圖片查看負責 targe mpat wid agent html headers 程序功能說明：爬取百度貼吧帖子中的圖片，用戶輸入貼吧名稱和要爬取的起始和終止頁數即可進行爬取。思路分析：一、指定貼吧url的獲取例如我們進入秦時明月吧，提取並分析其有效url如下

Python基礎學習---語法和資料型別（一）

1 #!/usr/bin/python3 x="a" y="b" # 換行輸出 print( x ) print( y ) print('---------') # 不換行輸出 print( x, end=" " ) print( y, end=" " ) print()

Spring Boot 2.0 WebFlux 上手系列課程：快速入門（一）

02：WebFlux 快速入門實踐 Spring Boot 2.0 spring.io 官網有句醒目的話是： BUILD ANYTHING WITH SPRING BOOT Spring Boot （Boot 顧名思義，是引導的意思）框架是用於簡

NYOJ 6：噴水裝置（一）（貪心）

6-噴水裝置（一）記憶體限制:64MB 時間限制:3000ms 特判: No 通過數:68 提交數:111 難度:3 題目描述: 現有一塊草坪，長為20米，寬為2米，要在橫中心線上放置半徑為Ri的噴水裝置，每個噴水裝置的效果都會讓以它為中心的半徑為實數Ri(0<R

uCOS-II學習筆記：實時作業系統（一）

1.前後臺系統：前後臺系統的架構用一句話來形容的話，就是一個大的迴圈，加上中斷，就形成了一個整的體系。假設來了中斷需要處理模組3，如果模組3的處理是最緊迫的，但是當前cpu 只執行到模組1，這樣的話，必須還要承受模組2的執行時間延遲，才能輪到模組3的處理，當模組越多的

WebMagic爬蟲入門教程（三）爬取汽車之家的例項-品牌車系車型結構等

本文使用WebMagic爬取汽車之家的品牌車系車型結構價格能源產地國別等；java程式碼備註，只是根據url變化爬取的，沒有使用爬取script頁面具體的資料，也有反爬機制，知識簡單爬取html標籤爬取的網頁：需要配置pom.xml <!-

scrapy入門實戰練習（一）----爬取豆瓣電影top250

轉自知乎網工具和環境語言：python 2.7IDE： Pycharm瀏覽器：Chrome爬蟲框架：Scrapy 1.2.1教程正文觀察頁面結構通過觀察頁面決定讓我們的爬蟲獲取每一部電影的排名、電影名稱、評分和評分的人數。宣告ItemItems爬取的主要目標就是從非結構性的資

Python+Selenium學習遇到的問題總結（一）

之前一直處於看的狀態，最近開始動手起來，發現看看和動手還是有很大區別的。今天照貓畫虎寫了一個驅動fiefox瀏覽器並開啟百度網頁進行搜尋的指令碼，發現執行不了，於是開始網上搜索答案，下面記錄一下心得。指令碼內容如下： from selenium import webdri

Python 的非同步 IO：Asyncio 簡介（一）

Python 的 asyncio 類似於 C++ 的 Boost.Asio。所謂「非同步 IO」，就是你發起一個 IO 操作，卻不用等它結束，你可以繼續做其他事情，當它結束時，你會得到通知。 Asyncio 是併發（concurrency）的一種方式。對 Python 來說，

python爬蟲（一）爬取豆瓣電影Top250

提示：完整程式碼附在文末一、需要的庫 requests：獲得網頁請求 BeautifulSoup：處理資料，獲得所需要的資料二、爬取豆瓣電影Top250 爬取內容為：豆瓣評分前二百五位電影的名字、主演、

python爬蟲設定代理ip池——方法（一）

"""在使用python爬蟲的時候，經常會遇見所要爬取的網站採取了反爬取技術，高強度、高效率地爬取網頁資訊常常會給網站伺服器帶來巨大壓力，所以同一個IP反覆爬取同一個網頁，就很可能被封，那如何解決呢？使用代理ip，設定代理ip池。以下介紹的免費獲取代理ip池的方法：優點：1.

Unity+Tolua框架實現棋牌遊戲：Unity入門（一）

一、準備階段 1、首先下載Unity安裝包，然後安裝即可，如果開發手遊的話需要安裝Android和IOS的support包。 3、解壓專案LuaFramework_UGUI，用Unity開啟，選擇LuaFramework-->Build xxx Resource

python 爬蟲實戰（一）爬取豆瓣圖書top250

import requests from lxml import etree with open('booktop250.txt','w',encoding='utf-8') as f: f

Google 開源的 Python 命令列庫：深入 fire（一）

作者：HelloGitHub-Prodesire HelloGitHub 的《講解開源專案》系列，專案地址：https://github.com/HelloGitHub-Team/Article 一、前言在第一篇“初探 fire”的文章中，我們初步掌握了使用 fire 的簡單步驟，瞭解了它 Py

Python爬蟲學習6：scrapy入門（一）爬取汽車評論並儲存到csv檔案

相關推薦