01 爬蟲簡介
阿新 • • 發佈:2021-09-16
爬蟲筆記
爬蟲簡介
1. 爬蟲概述
-
什麼是爬蟲?
- 通過編譯程式,讓其模擬瀏覽器上網,然後再網際網路中爬取資料的過程
- 關鍵詞抽取:
- 模擬:瀏覽器就是一個純天然最原始的一個爬蟲工具
- 爬取:爬取一整張頁面原始碼資料/爬取一整張頁面中的區域性資料
- 關鍵詞抽取:
- 通過編譯程式,讓其模擬瀏覽器上網,然後再網際網路中爬取資料的過程
-
爬蟲的分類:
- 通用爬蟲
- 要求我們爬取一整張頁面原始碼資料
- 聚焦爬蟲
- 要求爬取一張頁面上的區域性資料
- 聚焦爬蟲一定是建立在通用爬蟲基礎之上的
- 要求爬取一張頁面上的區域性資料
- 增量式爬蟲
- 用來檢測網站資料的更新情況,以便爬取到網站最新更新出來的資料
- 分散式爬蟲
- 提高爬蟲效率
- 通用爬蟲
-
反爬機制:
- 是作用到入口網站中,如果網站不想爬蟲輕易爬取到資料,它可以制定相關的機制或者措施來阻止爬蟲程式爬取資料
- robots協議(第一個反爬機制):
- 是一個純文字的協議,協議中規定了該網站中哪些資料可以被哪些爬蟲爬取,哪些不可以被爬取。
- 防君子不妨小人(不遵從該協議即可)
-
反反爬策略
- 是作用於爬蟲程式中,我們爬取可以制定相關的策略破解反爬機制從而爬取到相關資料