Python爬蟲：學爬蟲前得了解的事兒

阿新 • • 發佈：2017-05-19

編寫 election 檢查語言 jpg mage 圖片一個網頁

這是關於Python的第14篇文章，主要介紹下爬蟲的原理。

提到爬蟲，我們就不得不說起網頁，因為我們編寫的爬蟲實際上是針對網頁進行設計的。解析網頁和抓取這些數據是爬蟲所做的事情。

對於大部分網頁來講，它的代碼構成主要包括三種語言：HTML、CSS、JavaScript，我們在爬取數據的時候大部分是從HTML和CSS中爬取。

那麽，接下來在學爬蟲前我們得了解點下面這些事兒。

首先，需要了解客戶端與服務器的交換機制。

我們每次在訪問頁面時，實際上都是在向服務器發起請求，我們稱之為request；服務器接到請求後，會給我們一個回應，稱為response；這兩種行為結合起來，即HTTP協議。

技術分享

也就是說，HTTP協議是我們的客戶端（網頁）與服務器會話的一種方式。

在向服務器請求時，request主要包含了8種方法，get、post、head、put、options、connect、trace和delete，我們大多數時候使用到get方法即可，後續在實戰操作中會詳細展開。

Response是服務器回應給我們的信息。當我們以request向服務器發出請求時，服務器會返回給我們所要的信息。

其次，認識網頁的基本構成

一個網頁主要由三個部分構成，頭部（header）、主體內容（content）和底部（footer）。

我們可以隨便打開一個網頁，比如PMCAFF的精選頁：http://www.pmcaff.com/site/selection，用Google瀏覽器打開，仔細觀察，它是由頂部的導航欄、logo等構成header，中間的文章為content，下面的合作夥伴等構成footer。

然後，我們單擊右鍵選擇【檢查】，可以看到該頁面的源代碼，仔細觀察下，常用的標簽至少包含下面這幾個：

<div>...</div> 分區
<li>...</li> 列表
<p>...</p> 段落
<h1>...</h1> 標題
<img src = " "> 圖片
<a href = " ">...</a> 鏈接

最後，在爬蟲前，我們需要學會解析網頁。

那麽，關於如何去解析網頁，我們需要學會使用beautifulsoap。

具體內容將在下一篇的實戰中詳細講解，用request+beautifulsoap來爬取真實網頁的數據。

操作環境：Python版本，3.6；PyCharm版本，2016.2；電腦：Mac

----- End -----

作者：杜王丹，微信公眾號：杜王丹，互聯網產品經理。

技術分享

Python爬蟲：學爬蟲前得了解的事兒

編寫 election 檢查語言 jpg mage 圖片一個網頁這是關於Python的第14篇文章，主要介紹下爬蟲的原理。提到爬蟲，我們就不得不說起網頁，因為我們編寫的爬蟲實際上是針對網頁進行設計的。解析網頁和抓取這些數據是爬蟲所做的事情。對於大部分網頁來講，它

Python爬蟲：學爬蟲前得了解的事兒

Python爬蟲：學爬蟲前得了解的事兒

Python實戰：網路爬蟲都能幹什麼？

Python爬蟲：scrapy爬蟲設定隨機訪問時間間隔

Python爬蟲：現學現用Xpath爬取豆瓣音樂

我的第一個python爬蟲：爬取豆瓣top250前100部電影

案例學python——案例三：豆瓣電影資訊入庫一起學爬蟲——通過爬取豆瓣電影top250學習requests庫的使用

資料爬蟲（三）：python中requests庫使用方法詳解

python爬蟲入門教程(一)：開始爬蟲前的準備工作

python爬蟲：http請求頭部（header）詳解

小白學爬蟲——第一部分：簡單學習Python

python爬蟲：爬取網站視頻

Python爬蟲：新浪新聞詳情頁的數據抓取（函數版）

Python爬蟲：HTTP協議、Requests庫

第三百五十五節，Python分布式爬蟲打造搜索引擎Scrapy精講—scrapy信號詳解

吾八哥學Python(三)：了解Python基礎語法(上)

Python 爬蟲：把廖雪峰教程轉換成 PDF 電子書

python學習之爬蟲：安裝requests模塊

python學習之爬蟲：BeautifulSoup

Python爬蟲：認識urllib/urllib2以及requests

python 爬蟲：HTTP ERROR 406

Python爬蟲：學爬蟲前得了解的事兒

相關推薦