一篇文章教會你利用Python網路爬蟲獲取窮遊攻略

阿新 • • 發佈：2020-08-29

【一、專案背景】

窮遊網提供原創實用的出境遊旅行指南、攻略，旅行社群和問答交流平臺，以及智慧的旅行規劃解決方案，同時提供簽證、保險、機票、酒店預訂、租車等線上增值服務。窮遊“鼓勵和幫助中國旅行者以自己的視角和方式體驗世界”。

今天教大家獲取窮遊網的城市資訊，使用Python將資料寫入csv文件。

【二、專案目標】

實現將獲取對應的城市、圖片連結、熱點、批量下載儲存csv文件。

【三、涉及的庫和網站】

1、網址如下：

https://place.qyer.com/south-korea/citylist-0-0-{}

2、涉及的庫：requests、l****xml、fake_useragent、time、csv

【四、專案分析】

首先需要解決如何對下一頁的網址進行請求的問題。可以點選下一頁的按鈕，觀察到網站的變化分別如下所示：

https://place.qyer.com/south-korea/citylist-0-0-1

https://place.qyer.com/south-korea/citylist-0-0-2

https://place.qyer.com/south-korea/citylist-0-0-3

觀察到只有citylist-0-0-{}/變化，變化的部分用{}代替，再用for迴圈遍歷這網址，實現多個網址請求。

【五、專案實施】

1、我們定義一個class類繼承object，然後定義init方法繼承self，再定義一個主函式main繼承self。準備url地址。

import requests，os
from lxml import etree
import random
import time
from fake_useragent import UserAgent


class Travel(object):
    def __init__(self):
        self.url = "https://place.qyer.com/south-korea/citylist-0-0-{}/"
    def main(self):
        pass
if __name__ == '__main__':
    spider= Travel()
    spider.main()

2、隨機產生UserAgent。

      self.film_list = []
      ua = UserAgent(verify_ssl=False)
        for i in range(1, 50):
            self.film_list.append(ua.chrome)
            self.Hostreferer = {
            'User-Agent': random.choice(self.film_list)
        }

3、多頁請求。

        startPage = int(input("起始頁:"))
        endPage = int(input("終止頁:"))
        for page in range(startPage, endPage + 1):
            url = self.url.format(page)

4、定義get_page方法，進行資料請求。

  '''資料請求'''
    def get_page(self, url):
        html = requests.get(url=url, headers=self.Hostreferer).content.decode("utf-8")
        self.page_page(html)
        # print(html)//網頁
        # print(self.headers)//構造頭

5、定義page_page，xpath解析資料, for迴圈遍歷陣列。

在谷歌瀏覽器上，右鍵選擇開發者工具或者按F12。右鍵檢查，xpath找到對應資訊的欄位。如下圖所示。

   parse_html = etree.HTML(html)
    image_src_list = parse_html.xpath('//ul[@class="plcCitylist"]/li') 
    for i in image_src_list:
            b = i.xpath('.//h3//a/text()')[0].strip()
            c = i.xpath('.//p[@class="beento"]//text()')[0].strip()
            d = i.xpath('.//p[@class="pics"]//img//@src')[0].strip()

6、定義csv檔案儲存資料，寫入文件。

       # 建立csv檔案進行寫入
        csv_file = open('scrape.csv', 'a', encoding='gbk')
        csv_writer = csv.writer(csv_file)
        csv_writer.writerow([b, c, d])
        csv_file.close()

7、在main方法呼叫。

   def main(self):
        for i1 in range(1, 25):
            url = self.url.format(i1)
            # print(url)
            html = self.get_page(url)

            time.sleep(2)
            print("第%d頁" % i1)

8、time模組，設定時間延遲。

           time.sleep(2)

【六、效果展示】

1、點選執行，輸入起始頁，終止頁。

2、將下載成功資訊顯示在控制檯。

3、儲存csv文件。

【七、總結】

1、不建議抓取太多資料，容易對伺服器造成負載，淺嘗輒止即可。

2、希望通過這個專案，能夠幫助大家對csv文件處理有進一步的瞭解。

3、本文基於Python網路爬蟲，利用爬蟲庫，實現窮遊網的獲取。實現的時候，總會有各種各樣的問題，切勿眼高手低，勤動手，才可以理解的更加深刻。

4、可以根據自己的需要選擇自己的喜歡的城市獲取自己想要的有效資訊。

5、需要本文原始碼的小夥伴，後臺回覆“窮遊攻略”四個字，即可獲取。

看完本文有收穫？請轉發分享給更多的人

IT共享之家

入群請在微信後臺回覆【入群】

想學習更多Python網路爬蟲與資料探勘知識，可前往專業網站：http://pdcfighting.com/

一篇文章教會你利用Python網路爬蟲獲取窮遊攻略

【一、專案背景】窮遊網提供原創實用的出境遊旅行指南、攻略，旅行社群和問答交流平臺，以及智慧的旅行規劃解決方案，同時提供簽證、保險、機票、酒店預訂、租車等線上增值服務。窮遊“鼓勵和幫助中國旅行者以自己的

一篇文章教會你利用Python網路爬蟲獲取有道翻譯手機版的翻譯介面

【一、專案背景】有道翻譯作為國內最大的翻譯軟體之一，使用者量巨大。在學習時遇到不會的英語詞彙，會第一時間找翻譯，有道翻譯就是首選。今天教大家如何去獲取有道翻譯手機版的翻譯介面。

一篇文章教會你利用Python網路爬蟲獲取素材圖片

【一、專案背景】在素材網想找到合適圖片需要一頁一頁往下翻，現在學會python就可以用程式把所有圖片儲存下來，慢慢挑選合適的圖片。

一篇文章教會你使用Python網路爬蟲下載酷狗音樂

【一、專案背景】現在的聽歌軟體動不動就是各種付費，要下載軟體才能聽，當你下載了之後，你會驚奇的發現這首歌還收費，這就讓一向喜歡白嫖的小編感到很傷心了。於是，小編冥思苦想，終於讓我發現了其中的奧祕，一起

一篇文章教會你用Python多執行緒獲取小米應用商店App

【一、專案背景】小米應用商店給使用者發現最好的安卓應用和遊戲,安全可靠，可是要下載東西要一個一個的搜尋太麻煩了。而已速度不是很快。

一篇文章教會你利用createjs實現介面效果

【一、專案背景】 createjs是一個基於canvas的製作H5遊戲、動畫、互動的庫。包括EaselJs、TweenJs、SoundJs、 PreloadJs四個部分。它基於容器進行展示，其中根容器是stage（舞臺）物件。

一篇文章教會你用Python爬取淘寶評論資料（寫在記事本）

【一、專案簡介】本文主要目標是採集淘寶的評價，找出客戶所需要的功能。統計客戶評價上面誇哪個功能多，比如防水，容量大，好看等等。

喜歡的抖音視訊只能收藏，不能儲存？一篇文章教會你使用Python下載抖音無水印視訊

利用Python如何下載抖音無水印的視訊；大家可能要問了，這個有什麼用呢？當然有用了。那麼有什麼用呢？下面跟大家詳細說說。

一篇文章教會你如何將DOM轉換為virtual DOM

【一、Virtual DOM簡介】 Virtual DOM是虛擬節點，它通過Javascript的Object物件模擬DOM中的節點，然後通過特定的render方法將其渲染成真實的DOM節點。

一篇文章教會你使用HTML打造一款顏色配對遊戲

一篇文章教會你建立vue專案和使用vue.js實現資料增刪改查

【一、專案背景】在管理員的一些後臺頁面裡，資料列表中都會對這些資料進行增刪改查的操作，例如管理員新增商品、修改商品價格、刪除商品、查詢商品，我們應該關注這些資料的操作和處理。

一篇文章教會你使用Java8中的Lambda表示式

簡介 Java 8為開發者帶來了許多重量級的新特性，包括Lambda表示式，流式資料處理，新的Optional類，新的日期和時間API等。這些新特性給Java開發者帶來了福音，特別是Lambda表示式的支援，使程式設計更加簡化。本篇文

一篇文章教會你使用html+css3製作GIF圖

【一、專案背景】生活中經常會見到很多gif圖，那麼gif圖到底是什麼？GIF是一種點陣圖。簡單來說就是通過每一張張靜圖，通過控制它的關鍵幀，從而達到靜態圖動起來的效果。

一篇文章教你用python逆向抓取App資料

今天繼續給大夥分享一下 Python 爬蟲的教程，這次主要涉及到的是關於某 APP 的逆向分析並抓取資料，關於 APP 的反爬會麻煩一些，比如 Android 端的程式碼寫完一般會進行打包並混淆加密加固，所以除了抓包之

一篇文章帶你瞭解python的6大基本資料型別基礎篇

1.數字型(Number) 1.1 整型(int) 整型包括所有的正整數，負整數還有0。在python中所有的整型資料全部預設採用十進位制進行表示，但我們還可以手動表示其他進位制的整型，具體表示如下：

一篇文章教你用python畫動態愛心表白

初級畫心學Python，感覺你們的都好複雜，那我來個簡單的，我是直接把心形看作是一個正方形+兩個半圓：

一篇文章帶你瞭解python正則表示式的正確用法

目錄正則表示式的介紹re模組匹配單個字元1.匹配任意一個字元2.匹配[ ]中列舉的字元3.\\d匹配數字，即0-94.\\D匹配非數字，即不是數字5.\\s匹配空白，即空格，tab鍵6.\\S匹配非空白7.\\w匹配非特殊字元，即a-z、A-Z、

一篇文章帶你入門Python正則表示式

目錄3 正則表示式1.match函式2.search函式search和match的區別3. sub函式4.compile函式5.findall6.finditer7.split總結Python3 正則表示式

（轉）一篇文章帶你瞭解Python運算子過載一篇文章帶你瞭解Python運算子過載

原文：https://developer.51cto.com/art/202104/657236.htm 您可以根據所使用的運算元來更改Python中運算子的含義。這種做法稱為運算子過載，今天我們一起來聊聊運算子過載。

爬取動漫美女，手把手教你用Python網路爬蟲獲取動漫圖片

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

一篇文章教會你利用Python網路爬蟲獲取窮遊攻略

相關推薦