爬取去哪兒網 6000 多個景點資料告訴你，國慶哪裡不是人山人海！

阿新 • • 發佈：2019-01-29

640?wx_fmt=gif

國慶長假已經過去一半啦，朋友們有多少是堵在了景區和路上？

為了方便大家的出遊選擇，筆者爬取了去哪兒網上面的 6000 多個景點資料，包含景點評級、熱度、銷量等等資料，彙總成這篇出遊參考指南。

爬蟲

爬蟲繼續用的是最近的心頭愛 Selenium，開啟去哪兒網站，右鍵，分析網頁。

640?wx_fmt=png

我們需要的資料非常地清晰：

640?wx_fmt=png

話不多說，只要定位到自己想要的資訊，那麼程式碼非常簡單。

 from tqdm import tqdm
 import time
 from selenium import webdriver
 from selenium.common.exceptions import TimeoutException, WebDriverException
 import 
 pandas as pd
 import numpy as np
 position = ["北京","天津","上海","重慶","河北","山西","遼寧","吉林","黑龍江","江蘇","浙江","安徽","福建","江西","山東","河南","湖北","湖南","廣東","海南","四川","貴州","雲南","陝西","甘肅","青海","臺灣","內蒙古","廣西","西藏","寧夏","新疆","香港","澳門"]

  name,level,hot,address,num=[],[],[],[],[]
  def get_one_page(key,page):
      try:
      #開啟瀏覽器視窗 

          option_chrome = webdriver.ChromeOptions()
          option_chrome.add_argument('--headless')

          driver = webdriver.Chrome(chrome_options=option_chrome)
          time.sleep(1)

          url = "http://piao.qunar.com/ticket/list.htm?keyword="+str(key)+"&region=&from=mpl_search_suggest&page=" 
+str(page)
          driver.get(url)    
          infor = driver.find_elements_by_class_name("sight_item")
          for i in range(len(infor)):
              #獲取景點名字
              name.append(infor[i].find_element_by_class_name("name").text)
              #獲取景點評級
              try:
                  level.append(infor[i].find_element_by_class_name("level").text)
              except:
                  level.append("")
              #獲取景點熱度
              hot.append(infor[i].find_element_by_class_name("product_star_level").text[3:])
              #獲取景點地址
              address.append(infor[i].find_element_by_class_name("area").text)
              #獲取景點銷量
              try:
                  num.append(infor[i].find_element_by_class_name("hot_num").text)
              except:
                  num.append(0)

          driver.quit()
          return
      except TimeoutException or WebDriverException:
          return get_one_page()

  for key in tqdm(position):
      print ("正在爬取{}".format(key))
      #取前10頁
      for page in range(1,14):
          print ("正在爬取第{}頁".format(page))
          get_one_page(key,page)

  sight = {'name': name, 'level': level, 'hot': hot, 'address': address, 'num':num}
  sight = pd.DataFrame(sight, columns=['name', 'level', 'hot', 'address', 'num'])
  sight.to_csv("sight.csv",encoding="utf_8_sig")

本文僅爬取國內的資料，由於景點資料眾多，每個省份僅取了前 13 頁。獲得景點個數 6630 個。

資料視覺化

熱門景區 TOP30：

640?wx_fmt=png

大熊貓不愧為國寶，最熱門就是它。其次是故宮、鄭州動物園、峨眉山、秦始皇兵馬俑等等。因為筆者沒有去過多少地方玩，也不知道為什麼鄭州動物園能排到第三，大家知道的可以分享一下它的特色嗎？

省份與評級：

640?wx_fmt=png

說實話，這個圖的配色真的是太醜了，主要是筆者過於懶惰，不想好好配色了。

熱力圖：

熱力圖根據省份和城市分別作圖，其次在根據銷量和熱度兩類圖，這裡採用的是 Python 呼叫高德地圖 API 實現經緯度換算、地圖視覺化一文的方式，呼叫高德地圖 API 完成。

首先是省份和景區熱度：

然後是省份和銷量：

接下來是城市和景區熱度：

最後是城市和景區銷量：

值得注意的是，城市和銷量一圖熱力範圍不明顯，原因為景區之間銷量天差地別，一些太少的統計下來，作圖非常的不明顯了。若大家不喜歡用高德地圖 API 作圖，那麼人生苦短，我要用 pyecharts 畫圖的方法也非常適合做熱力圖，比如這裡筆者做了一張省份和銷量的圖：

640?wx_fmt=png

綜合來看，北京、四川及沿海地區都是旅遊的熱門省份。建議大家儘量避免去這些省份遊玩。

推薦景區：

知道了需要避免的景區和省份城市，那麼可以去哪些人少的地方呢？這裡筆者根據景區分級，分別推薦 15 個人少的景區：

640?wx_fmt=png

最後兩張圖是根據熱度做的圖，沒有條形的則是熱度為 0，那麼大家可以選擇上述景點中熱度較高的進行遊玩。

視覺化程式碼：

  data = pd.read_csv("sight.csv")
  data = data.fillna(0)
  data = data.drop(columns=['Unnamed: 0'])

  #將地址分為省，市，區
  data["address"] = data["address"].apply(lambda x:  x.replace("[","").replace("]",""))
  data["province"] = data["address"].apply(lambda x:  x.split("·")[0])
  data["city"] = data["address"].apply(lambda x:  x.split("·")[1])
  data["area"] = data["address"].apply(lambda x:  x.split("·")[-1])

  #銷量最多的前30景點
  num_top = data.sort_values(by = 'num',axis = 0,ascending = False).reset_index(drop=True)
  import seaborn as sns
  import matplotlib.pyplot as plt
  plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']#指定預設字型  
  plt.rcParams['axes.unicode_minus'] =False # 解決儲存影象是負號'-'顯示為方塊的問題
  sns.set(font='SimHei')  # 解決Seaborn中文顯示問題
  sns.set_context("talk")
  fig = plt.figure(figsize=(15,10))
  sns.barplot(num_top["name"][:30],num_top["num"][:30])
  plt.xticks(rotation=90)
  fig.show()

  #省份與景區評級
  data["level_sum"] =1
  var = data.groupby(['province', 'level']).level_sum.sum()
  var.unstack().plot(kind='bar',figsize=(35,10), stacked=False, color=['red', 'blue','green','yellow'])

  #根據省、市統計銷量和
  pro_num = data.groupby(['province']).agg('sum').reset_index()
  city_num =  data.groupby(['city']).agg('sum').reset_index()
  #基於資料做熱力圖
  import requests
  def transform(geo):
      key = 'bb9a4fae3390081abfcb10bc7ed307a6' 
      url="http://restapi.amap.com/v3/geocode/geo?key=" +str(key) +"&address=" + str(geo)
      response = requests.get(url)
      if response.status_code == 200:
          answer = response.json()
          try:
              loc = answer['geocodes'][0]['location']
          except:
              loc = 0
      return loc

  pro_num["lati"] = pro_num["province"].apply(lambda x: transform(x))
  city_num["lati"] = city_num["city"].apply(lambda x: transform(x))
  pro_num.to_csv("pro_num.csv",encoding="utf_8_sig")
  city_num.to_csv("city_num.csv",encoding="utf_8_sig")

  from pyecharts import Map
  map=Map("省份景點銷量熱力圖", title_color="#fff", title_pos="center", width=1200,  height=600, background_color='#404a59')
  map.add("",pro_num["province"], pro_num["num"], maptype="china", visual_range=[5000, 80000], is_visualmap=True, visual_text_color='#000', is_label_show=True)
  map.render(path="pro_num.html")
  map=Map("省份景點熱度熱力圖", title_color="#fff", title_pos="center", width=1200,  height=600, background_color='#404a59')
  map.add("",pro_num["province"], pro_num["hot"], maptype="china", visual_range=[25,80], is_visualmap=True, visual_text_color='#000', is_label_show=True)
  map.render(path="pro_hot.html")

  #人少的5A景點，4A景點，3A景點
  top_5A = data[data["level"] == "5A景區"].sort_values(by = 'num',axis = 0,ascending = True).reset_index(drop=True)
  top_4A = data[data["level"] == "4A景區"].sort_values(by = 'num',axis = 0,ascending = True).reset_index(drop=True)
  top_3A = data[data["level"] == "3A景區"].sort_values(by = 'num',axis = 0,ascending = True).reset_index(drop=True)
  fig = plt.figure(figsize=(15,15))
  plt.pie(top_5A["num"][:15],labels=top_5A["name"][:15],autopct='%1.2f%%')
  plt.title("人少的5A景區") 
  plt.show()
  fig = plt.figure(figsize=(15,15))
  ax = sns.barplot(top_4A["hot"][:15],top_4A["name"][:15])
  ax.set_title("人少的4A景區") 
  fig.show()
  fig = plt.figure(figsize=(15,10))
  ax = sns.barplot(top_3A["name"][:15],top_3A["hot"][:15])
  ax.set_title("人少的3A景區") 
  plt.xticks(rotation=90)
  fig.show()

結語

爬蟲採集於 2018.9.27，可能因為採集時間不同，結果會有偏差。需要注意的是，若採用 pyecharts 做城市和景區熱度、銷量的圖時，需要考慮 pyecharts 無法獲得一些景區位置，解決辦法可以參考《狄仁傑之四大天王》影評分析（爬蟲+詞雲+熱力圖）一文。

分析完了之後，筆者反正決定國慶節都呆在家裡了，不想出門，只想當快樂的肥宅。最後，祝大家國慶快樂，珍惜剩下不多的假期！！！

本文為經管人學資料分析（ID：DAT-2017）投稿，作者：胡蘿蔔醬。

640?wx_fmt=gif

爬取去哪兒網 6000 多個景點資料告訴你，國慶哪裡不是人山人海！

國慶長假已經過去一半啦，朋友們有多少是堵在了景區和路上？為了方便大家的出遊選擇，筆者爬取了去哪兒

25.爬取去哪兒網的商品資料-1

1.首先分析頁面資訊頁面地址：http://touch.qunar.com/爬取度假中的自由行頻道資訊可以看到某一城市xhr獲取資訊： request.url : https://touch.dujia.qunar.com/list?modu

25.爬取去哪兒網的商品數據-2

爬取商品數據註意 alt coo url 獲取配置信息需要註意的問題：1.首先要獲取dep和query參數。2.分析請求的url地址變化，獲取routeCount參數。我配置代碼出現的問題：1.url拼接問題，網站拒絕訪問，模擬請求參數設置user-agen

25.爬取去哪兒網的商品資料-2

需要注意的問題：1.首先要獲取dep和query引數。2.分析請求的url地址變化，獲取routeCount引數。我配置程式碼出現的問題：1.url拼接問題，網站拒絕訪問，模擬請求引數設定user-agent和cookie2.獲取routeCount引數會報異常，因為有的url返回的資料

爬取去哪兒網北京南站驢友點評，及詞雲

爬取頁面截圖詞雲效果 title comment 程式碼資料抓取 # -*- encoding:utf-8 *-* import urllib.request from lxml import etre

使用 Scrapy 爬取去哪兒網景區資訊

Scrapy 是一個使用 Python 語言開發，為了爬取網站資料，提取結構性資料而編寫的應用框架，它用途廣泛，比如：資料探勘、監測和自動化測試。安裝使用終端命令 pip install Scrapy 即可。 Scrapy 比較吸引人的地方是：我們可以根據需求對其進行修改，它提供了多種型別的爬蟲基類，如：Ba

6000+個景點資料視覺化，國慶出遊避免擁擠，看完本篇文章就足夠

國慶7天長假，就問你們激不激動！可是，出門遊玩，走哪裡都是人，人，人，人……。你的腦海裡是否出現了以下畫面：為了方便大家的出遊選擇，小編爬取了去哪兒網上面的6000多個景點資料，包含景點評級、熱度、銷量等等資料，彙總成這篇出遊參考指南。爬蟲爬蟲繼續用的是

6000+個景點資料視覺化，國慶出遊避免擁擠，這一篇就夠了

歡迎關注天善智慧，我們是專注於商業智慧BI，人工智慧AI，大資料分析與挖掘領域的垂直社群，學習，問答、求職一站式搞定！對商業智慧BI、大資料分析挖掘、機器學習，python，R等資料領域感興趣的同學加微信：tsaiedu，並註明訊息來源，邀請你進入資料愛好者交流群，資料愛好者們都

用python爬蟲爬取去哪兒4500個熱門景點，看看國慶不能去哪兒

前言：本文建議有一定Python基礎和前端(html,js)基礎的盆友閱讀。金秋九月，丹桂飄香，在這秋高氣爽，陽光燦爛的收穫季節裡，我們送走了一個個暑假餘額耗盡哭著走向校園的孩籽們，又即將迎來一年一度偉大祖國母親的生日趴體(無心上班，迫不及待想為祖國母親

【python學習筆記】36：抓取去哪兒網的旅遊產品資料

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。書上這章開篇就說了儘量找JSON格式的資料，比較方便解析（在python裡直接轉換成字典），去哪兒網PC端返回的不是JSON資料，這裡抓取的是它的移動端的資料。如果是就散落在網頁上，我覺得就像上篇學習的那

【python學習筆記】38：使用Selenium抓取去哪兒網動態頁面

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。在去哪兒網PC端自由行頁面，使用者需要輸入出發地和目的地，點選開始定製，然後就可以看到一系列相關的旅遊產品。在這個旅遊產品頁換頁不會改變URL，而是重新載入，這時頁碼沒有體現在URL中，這種動態頁面用傳統的爬蟲

requests爬取去哪兒網站

閒來無事，所以爬下去哪兒網站的旅遊景點資訊，爬取網頁之前，最重要的是分析網頁的架構。1. 選擇要爬取的網頁及定位自己要爬取的資訊 url=http://piao.qunar.com/ 爬取全國熱門城市的境內門票首先要得到全國熱門城市的城市名及它們背後的連結2. 根據獲得

去哪兒網怎麽淪為騙子的平臺了，一步步揭開去哪兒網欺騙消費者的把戲

客服讓我支付技術發現都江堰去哪兒網接機 stat 先讓我大哭一會兒現在的去哪兒網真是牛擺哄哄，明目張膽誆騙老用戶啊。好傷心。好難過，被騙了，被坑了。之前一直在去哪兒訂機票，還沒發現有什麽不正確的地方知道今天。我才悔恨不已啊，此事還得從頭

Vue.js學習記錄-15-Vue去哪兒網專案實戰：景點詳情頁開發-功能點概述 + Detail + Banner(通用元件：Gallery、Fade)

3. 景點詳情頁開發功能點概述使用者首頁點選熱銷推薦景點，即可跳轉景點詳情頁面。詳情頁面包括三部分內容：頂部圖片展示、景點門票詳情、隱藏頁面頭。(拖動至下方會出現) 使用者點選頂部圖片展示，進入圖片輪播區域(全屏)，可左右滑動進行圖片瀏覽

動態爬取豆瓣電影中“更多”電影詳情資料

動態爬取豆瓣電影中“更多”電影詳情資料作業需求: 1.使用任意代理IP進行如下操作 2.使用requests模組進行豆瓣電影的個人使用者登入操作 3.使用requests模組訪問個人使用者的電影排行榜->分類排行榜->任意分類對應的子頁面 4.爬取需求3對應頁面的電影詳情資料

java併發程式設計多個執行緒為什麼執行的先後順序不一樣！

jvm為了使得處理器內部的運算單元能儘量被充分利用，處理器可能會對輸入程式碼進行亂序執行（Out-Of-Order Execution）優化，處理器會在計算之後將亂序執行的結果重組，保證該結果與順序執行的結果是一致的，但並不保證程式中各個語句計算的先後順序與輸入程式碼中的

[去哪兒網]首個重復字符

ron wrap question pub item class clas tag n) 時間限制：3秒空間限制：32768K 熱度指數：33999 本題知識點：查找題目描述對於一個字符串，請設計一個高效算法，找到第一次重復出現的字符。給定一個字符串(不一定

用Python多線程實現生產者消費者模式爬取鬥圖網的表情圖片

Python什麽是生產者消費者模式某些模塊負責生產數據，這些數據由其他模塊來負責處理（此處的模塊可能是：函數、線程、進程等）。產生數據的模塊稱為生產者，而處理數據的模塊稱為消費者。在生產者與消費者之間的緩沖區稱之為倉庫。生產者負責往倉庫運輸商品，而消費者負責從倉庫裏取出商品，這就構成了生產者消費者模式。生

Python-爬取校花網視訊(單執行緒和多執行緒版本)

一、參考文章 python爬蟲爬取校花網視訊，單執行緒爬取爬蟲----爬取校花網視訊，包含多執行緒版本上述兩篇文章都是對校花網視訊的爬取，由於時間相隔很久了，校花網上的一些視訊已經不存在了，因此上

三個Python爬蟲版本，帶你以各種方式爬取校花網，輕鬆入門爬蟲

爬蟲是什麼？進群進群：943752371可以獲取Python各類入門學習資料！這是我的微信公眾號【Python程式設計之家】各位大佬用空可以關注下，每天更新Python學習方法，感謝！如果我們把網際網路比作一張大的蜘蛛網，資料便是存放

爬取去哪兒網 6000 多個景點資料告訴你，國慶哪裡不是人山人海！

相關推薦