一篇文章教會你用Python多執行緒獲取小米應用商店App

阿新 • • 發佈：2020-08-21

【一、專案背景】

小米應用商店給使用者發現最好的安卓應用和遊戲,安全可靠，可是要下載東西要一個一個的搜尋太麻煩了。而已速度不是很快。

今天用多執行緒爬取小米應用商店的遊戲模組。快速獲取。

【二、專案目標】

目標：應用分類 - 聊天社交應用名稱，應用連結，顯示在控制檯供使用者下載。

【三、涉及的庫和網站】

1、網址：百度搜 - 小米應用商店，進入官網。

2、涉及的庫：reques****ts、threading 、queue 、json、time

3、軟體：PyCharm

【四、專案分析】

1、確認是否為動態載入。

通過頁面區域性重新整理，右鍵檢視網頁原始碼，搜尋關鍵字未搜到。斷定此網站為動態載入網站，需要抓取網路資料包分析。

2、使用chrome瀏覽器，F12抓取網路資料包。

1）抓取返回json資料的URL地址（Headers中的Request URL）。

http://app.mi.com/categotyAllListApi?page={}&categoryId=2&pageSize=30

2）檢視並分析查詢引數（headers中的Query String Parameters）。

page: 1
categoryId: 2
pageSize: 30

發現只有page再變，0 1 2 3 ... ... ，這樣我們就可以通過控制page的直拼接多個返回json資料的URL地址。

【五、專案實施】

1、我們定義一個class類繼承object，然後定義init方法繼承self，再定義一個主函式main繼承self。準備匯入庫，url地址和請求頭headers。

import requests
from threading import Thread
from queue import Queue
import json
import time
class  XiaomiSpider(object):
    def __init__(self):
      self.headers = {'User-Agent':'Mozilla/5.0'}
      self.url = 'http://app.mi.com/categotyAllListApi?page={}&categoryId=15&pageSize=30'
    def main(self):
        pass
if __name__ == '__main__':
    imageSpider =  XiaomiSpider()
    imageSpider.main()

2、定義佇列，用來存放URL地址

self.url_queue = Queue()

3、URL入佇列

def url_in(self):
    # 拼接多個URL地址,然後put()到佇列中
    for i in range(67):
        self.url.format((str(i)))
        self.url_queue.put(self.url)

4、定義執行緒事件函式get_page(請求資料)

def get_page(self):
    # 先get()URL地址,發請求
    while True:
        # 當佇列不為空時,獲取url地址
        if not self.url_queue.empty():
            url = self.url_queue.get()
            html = requests.get(url,headers=self.headers).text
            self.parse_page(html)
        else:
            break

5、定義函式parse_page 解析json模組，提取應用名稱，應用連結內容。

 # 解析函式
def parse_page(self,html):
    app_json = json.loads(html)
    for app in app_json['data']:
        # 應用名稱
        name = app['displayName']
        # 應用連結
        link = 'http://app.mi.com/details?id={}'.format(app['packageName'])
        d = { '名稱' : name,'連結' : link }
        print(d)

6、main方法，定義t_list = [] 存放所有執行緒的列表。呼叫get_page多執行緒爬取。

def main(self):
    self.url_in()
    # 存放所有執行緒的列表
    t_list = []

    for i in range(10):
        t = Thread(target=self.get_page)
        t.start()
        t_list.append(t)

7、for迴圈遍歷列表，統一回收執行緒。

# 統一回收執行緒
for p in t_list:
    p.join()

8、統計一下執行時間。

start = time.time()
spider = XiaomiSpider()
spider.main()
end = time.time()
print('執行時間:%.2f' % (end-start))

【六、效果展示】
1、執行程式。點選執行，將遊戲名稱，下載連結，執行時間，顯示在控制檯。

2、點選藍色的網址可以直接去到下載頁面下載應用，如下圖所示。

【七、總結】

1、不建議抓取太多資料，容易對伺服器造成負載，淺嘗輒止即可。

2、Python多執行緒優點。使用執行緒可以把佔據長時間的程式中的任務放到後臺去處，程式的執行速度可能加快。

3、單執行緒可以被搶佔（中斷），而已多執行緒就有了更多的選擇。而已在其他執行緒正在執行時，執行緒可以暫時擱置（也稱為睡眠）。可以釋放一些珍貴的資源如記憶體佔用。

4、大家也可以嘗試在爬取其他分類，按照操作步驟，自己嘗試去做。自己實現的時候，總會有各種各樣的問題，切勿眼高手低，勤動手，才可以理解的更加深刻。

5、需要本文原始碼的小夥伴，後臺回覆“小米應用”四個字，即可獲取。

看完本文有收穫？請轉發分享給更多的人

IT共享之家

入群請在微信後臺回覆【入群】

想學習更多Python網路爬蟲與資料探勘知識，可前往專業網站：http://pdcfighting.com/

一篇文章教會你用Python多執行緒獲取小米應用商店App

【一、專案背景】小米應用商店給使用者發現最好的安卓應用和遊戲,安全可靠，可是要下載東西要一個一個的搜尋太麻煩了。而已速度不是很快。

一篇文章教會你用Python爬取淘寶評論資料（寫在記事本）

【一、專案簡介】本文主要目標是採集淘寶的評價，找出客戶所需要的功能。統計客戶評價上面誇哪個功能多，比如防水，容量大，好看等等。

Python爬蟲過程解析：多執行緒獲取小米應用商店資料

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

Python爬蟲過程解析之多執行緒獲取小米應用商店資料

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

一篇文章教會你利用Python網路爬蟲獲取有道翻譯手機版的翻譯介面

【一、專案背景】有道翻譯作為國內最大的翻譯軟體之一，使用者量巨大。在學習時遇到不會的英語詞彙，會第一時間找翻譯，有道翻譯就是首選。今天教大家如何去獲取有道翻譯手機版的翻譯介面。

一篇文章教會你利用Python網路爬蟲獲取素材圖片

【一、專案背景】在素材網想找到合適圖片需要一頁一頁往下翻，現在學會python就可以用程式把所有圖片儲存下來，慢慢挑選合適的圖片。

一篇文章教會你利用Python網路爬蟲獲取窮遊攻略

【一、專案背景】窮遊網提供原創實用的出境遊旅行指南、攻略，旅行社群和問答交流平臺，以及智慧的旅行規劃解決方案，同時提供簽證、保險、機票、酒店預訂、租車等線上增值服務。窮遊“鼓勵和幫助中國旅行者以自己的

一篇文章教會你使用Python網路爬蟲下載酷狗音樂

【一、專案背景】現在的聽歌軟體動不動就是各種付費，要下載軟體才能聽，當你下載了之後，你會驚奇的發現這首歌還收費，這就讓一向喜歡白嫖的小編感到很傷心了。於是，小編冥思苦想，終於讓我發現了其中的奧祕，一起

一篇文章教你用python逆向抓取App資料

今天繼續給大夥分享一下 Python 爬蟲的教程，這次主要涉及到的是關於某 APP 的逆向分析並抓取資料，關於 APP 的反爬會麻煩一些，比如 Android 端的程式碼寫完一般會進行打包並混淆加密加固，所以除了抓包之

一篇文章教你用python畫動態愛心表白

初級畫心學Python，感覺你們的都好複雜，那我來個簡單的，我是直接把心形看作是一個正方形+兩個半圓：

喜歡的抖音視訊只能收藏，不能儲存？一篇文章教會你使用Python下載抖音無水印視訊

利用Python如何下載抖音無水印的視訊；大家可能要問了，這個有什麼用呢？當然有用了。那麼有什麼用呢？下面跟大家詳細說說。

一篇文章教會你如何將DOM轉換為virtual DOM

【一、Virtual DOM簡介】 Virtual DOM是虛擬節點，它通過Javascript的Object物件模擬DOM中的節點，然後通過特定的render方法將其渲染成真實的DOM節點。

一篇文章教會你使用HTML打造一款顏色配對遊戲

【一、專案背景】 createjs是一個基於canvas的製作H5遊戲、動畫、互動的庫。包括EaselJs、TweenJs、SoundJs、 PreloadJs四個部分。它基於容器進行展示，其中根容器是stage（舞臺）物件。

一篇文章教會你建立vue專案和使用vue.js實現資料增刪改查

【一、專案背景】在管理員的一些後臺頁面裡，資料列表中都會對這些資料進行增刪改查的操作，例如管理員新增商品、修改商品價格、刪除商品、查詢商品，我們應該關注這些資料的操作和處理。

一篇文章教會你利用createjs實現介面效果

一篇文章教會你使用Java8中的Lambda表示式

簡介 Java 8為開發者帶來了許多重量級的新特性，包括Lambda表示式，流式資料處理，新的Optional類，新的日期和時間API等。這些新特性給Java開發者帶來了福音，特別是Lambda表示式的支援，使程式設計更加簡化。本篇文

一篇文章教會你使用html+css3製作GIF圖

【一、專案背景】生活中經常會見到很多gif圖，那麼gif圖到底是什麼？GIF是一種點陣圖。簡單來說就是通過每一張張靜圖，通過控制它的關鍵幀，從而達到靜態圖動起來的效果。

一篇文章帶你瞭解python的6大基本資料型別基礎篇

1.數字型(Number) 1.1 整型(int) 整型包括所有的正整數，負整數還有0。在python中所有的整型資料全部預設採用十進位制進行表示，但我們還可以手動表示其他進位制的整型，具體表示如下：

一篇文章帶你瞭解python正則表示式的正確用法

目錄正則表示式的介紹re模組匹配單個字元1.匹配任意一個字元2.匹配[ ]中列舉的字元3.\\d匹配數字，即0-94.\\D匹配非數字，即不是數字5.\\s匹配空白，即空格，tab鍵6.\\S匹配非空白7.\\w匹配非特殊字元，即a-z、A-Z、

一篇文章教你用React實現菜譜系統

目錄一、菜譜大全1.1、專案背景1.2、技術棧1.3、開發環境1.4、專案效果展示1.5、專案初始化二、首頁開發2.1、antd-mobile 元件庫2.2、底部導航實現2.3、菜譜大全頂部導航2.4、輪播顯示2.5、mock 資料2.6、搜尋元件2.

一篇文章教會你用Python多執行緒獲取小米應用商店App

相關推薦