Python爬蟲入門教學

圖片來源於網路 1. 爬蟲的定義網路爬蟲（又稱為網頁蜘蛛，網路機器人，在 FOAF 社群中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動地抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還

網頁，是一種可以被瀏覽器等客戶端解析的一種檔案。與我們平常遇到的檔案的區別是：網頁是根植於網際網路的。也就是說我們通過瀏覽器瀏覽的網頁檔案大部分是不在本地的，它有可能在世界上的任何一臺連線網路的計算機

正所謂，知己知彼，百戰不殆。我們爬蟲的爬取物件，就是各式各樣的網頁，只有對網頁的基本內容達到熟悉的程度，才能順利的書寫我們的爬蟲程式。

HTTP 是我們進行爬蟲的一個基礎之一，我們通過 HTTT 協議才能順利爬取到 HTML 裡面的內容，HTTP 相當於是一條道路，HTML 等網頁是道路的終點，我們必須遵守 HTTP 的交通規則，才能高效的在這條道路上運輸資料。

上一個小節中，我們簡單的介紹了 HTTP 協議，但是，並沒有針對 HTTP 的請求和響應進行更詳盡的描述。但是，分析請求和響應資訊是我們進行爬蟲工作中的重要步驟，因此，有必要詳細的介紹這兩個步驟。

瞭解了一些 Python 爬蟲的基本知識之後，我們要正式開始 Python 爬蟲的學習了，因為是要使用 Python 語言來進行爬蟲開發，所以首先要在電腦上安裝 Python ，那麼這節課我們就來學習下在各個不同的作業系統下如何安裝

官方定義：Requests is the only Non-GMO HTTP library for Python, safe for human consumption. 簡單翻譯一下就是：Requests 是唯一適用於 Python 的 Non-GMO HTTP 庫，可供開發人員安全使用。

前面的學習中我們已經簡單瞭解了一些爬蟲所需的知識，這節課我們就來做一個小爬蟲來實踐下我們前面所學習的知識，這節課我們會爬取網首頁所有的課程名稱：

Xpath( XML Path Language, XML路徑語言)，是一種在 XML 資料中查詢資訊的語言，現在，我們也可以使用它在 HTML 中查詢需要的資訊。

還記得之前我們在第一個爬蟲案例中使用過的 BeatifulSoup 嗎？這節課我們就來正式學習一下 BeatifulSoup 這個頁面提取工具，通過本節課的學習你會熟悉使用 BeatifulSoup 提取常見的網頁元素。

上節課我們學習瞭如何使用 BeautifulSoup 來解析頁面，這節課我們來學習下如何使用正則來解析頁面。

這節課我們主要是學習 MongoDB 資料庫的基本操作和使用，爬蟲在爬取到資料之後可以把資料需要把資料保留下來供其他工作人員去使用。如果資料量不是很大的話可以儲存在檔案中，但是如果資料量很大那麼儲存在檔案中就非

上一個小節我們簡單學習了一下 MongoDB 資料庫，這節課我們來學習下另外一個在爬蟲開發中經常會用到的資料庫，這就是我們大名鼎鼎的鍵值對資料庫–Redis。

學習了這麼多知識，這節課我們來實踐一下，我們在這節課會設計一個小爬蟲來爬取網所有的免費課資訊。當然，爬取網所有免費課資訊只是一個大的目標而已，具體要實現這個目標我們還需要對劃分步驟，將一個大目標分解成

有的時候，當我們的爬蟲程式完成了，並且在本地測試也沒有問題，爬取了一段時間之後突然就發現報錯無法抓取頁面內容了。這個時候，我們很有可能是遇到了網站的反爬蟲攔截。

在我們開始的我們的視覺化的之旅之前，需要簡單的介紹一些資料分析工具，我們的資料視覺化的任務也是建立在資料分析的基礎之上。Python 的主要資料分析工具如下所示：

理想中，我們獲取的資料都是一樣的格式，可是現實中，會有許多髒資料，有時候是資料太冗餘，有時候是資料缺失，有時候是同一種類資料擁有不同的資料格式。比如生日，有的人使用阿拉伯數字，有的人使用英文簡寫，有的

在爬蟲開發中我們經常會遇到一種反爬蟲的手段就是驗證碼，那麼如何才能繞過驗證碼拿到我們想要的資料呢？這節課我給大家介紹一個破驗證碼的利器–Pytesseract。

上節課我們使用了 Pyesseract 進行了簡單的驗證碼圖片識別，但是通過上節課的效果來看 Pyesseract 的效果似乎並不是很好，如果碰到一些複雜的驗證碼估計就得歇菜了。但是我們在爬蟲開發中會遇到的驗證碼可以說是形形

首頁下頁