1. 程式人生 > 其它 >01 爬蟲簡介

01 爬蟲簡介

爬蟲筆記

爬蟲簡介

1. 爬蟲概述

  • 什麼是爬蟲?

    • 通過編譯程式,讓其模擬瀏覽器上網,然後再網際網路中爬取資料的過程
      • 關鍵詞抽取:
        • 模擬:瀏覽器就是一個純天然最原始的一個爬蟲工具
        • 爬取:爬取一整張頁面原始碼資料/爬取一整張頁面中的區域性資料
  • 爬蟲的分類:

    • 通用爬蟲
      • 要求我們爬取一整張頁面原始碼資料
    • 聚焦爬蟲
      • 要求爬取一張頁面上的區域性資料
        • 聚焦爬蟲一定是建立在通用爬蟲基礎之上的
    • 增量式爬蟲
      • 用來檢測網站資料的更新情況,以便爬取到網站最新更新出來的資料
    • 分散式爬蟲
      • 提高爬蟲效率
  • 反爬機制:

    • 是作用到入口網站中,如果網站不想爬蟲輕易爬取到資料,它可以制定相關的機制或者措施來阻止爬蟲程式爬取資料
    • robots協議(第一個反爬機制):
      • 是一個純文字的協議,協議中規定了該網站中哪些資料可以被哪些爬蟲爬取,哪些不可以被爬取。
      • 防君子不妨小人(不遵從該協議即可)
  • 反反爬策略

    • 是作用於爬蟲程式中,我們爬取可以制定相關的策略破解反爬機制從而爬取到相關資料
再堅持一下下,會越來越優秀