Python爬蟲（入門+進階）學習筆記 1-1 什麼是爬蟲？

阿新 • • 發佈：2018-12-24

爬蟲的定義：

網路爬蟲（又被稱為網頁蜘蛛，網路機器人，在FOAF社群中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動地抓取全球資訊網資訊的程式或者指令碼。

網頁的兩種載入方法

同步載入：改變網址上的某些引數會導致網頁發生改變，例如：www.itjuzi.com/company?page=1（改變page=後面的數字，網頁會發生改變）
非同步載入：改變網址上的引數不會使網頁發生改變，例如：www.lagou.com/gongsi/（翻頁後網址不會發生變化）

認識網頁原始碼的構成

在網頁中右鍵點選檢視網頁原始碼，可以檢視到網頁的原始碼資訊。
原始碼一般由三個部分組成，分別是：

html：描述網頁的內容結構
css

：描述網頁的排版佈局
描述網頁的事件處理，即滑鼠或鍵盤在網頁元素上的動作後的程式
這裡給出了三者的擴充套件知識的連結，需要大家重點關注html的構成，然後稍微瞭解下css和JavaScript在網頁構成中的作用即可。

檢視網頁請求

以chrome瀏覽器為例，在網頁上點選滑鼠右鍵，檢查（或者直接F12），選擇network，重新整理頁面，選擇ALL下面的第一個連結，這樣就可以看到網頁的各種請求資訊。

請求頭（Request Headers）資訊詳解：

Accept: text/html,image/*(瀏覽器可以接收的型別)
Accept-Charset: ISO-8859-1(瀏覽器可以接收的編碼型別)
Accept-Encoding: gzip,compress(瀏覽器可以接收壓縮編碼型別)
Accept-Language: en-us,zh-cn(瀏覽器可以接收的語言和國家型別)
Host: www.it315.org:80(瀏覽器請求的主機和埠)
If-Modified-Since: Tue, 11 Jul 2000 18:23:51 GMT(某個頁面快取時間)
Referer: http://www.it315.org/index.jsp(請求來自於哪個頁面)
User-Agent: Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0)(瀏覽器相關資訊)
Cookie：(瀏覽器暫存伺服器傳送的資訊)
Connection: close(1.0)/Keep-Alive(1.1)(HTTP請求的版本的特點)
Date: Tue, 11 Jul 2000 18:23:51 GMT(請求網站的時間)

響應頭（Response Headers）資訊詳解：

Location: http://www.it315.org/index.jsp(控制瀏覽器顯示哪個頁面)
Server:apache tomcat(伺服器的型別)
Content-Encoding: gzip(伺服器傳送的壓縮編碼方式)
Content-Length: 80(伺服器傳送顯示的位元組碼長度)
Content-Language: zh-cn(伺服器傳送內容的語言和國家名)
Content-Type: image/jpeg; charset=UTF-8(伺服器傳送內容的型別和編碼型別)
Last-Modified: Tue, 11 Jul 2000 18:23:51 GMT(伺服器最後一次修改的時間)
Refresh: 1;url=http://www.it315.org(控制瀏覽器1秒鐘後轉發URL所指向的頁面)
Content-Disposition: attachment; filename=aaa.jpg(伺服器控制瀏覽器發下載方式開啟檔案)
Transfer-Encoding: chunked(伺服器分塊傳遞資料到客戶端） 
Set-Cookie:SS=Q0=5Lb_nQ; path=/search(伺服器傳送Cookie相關的資訊)
Expires: -1(伺服器控制瀏覽器不要快取網頁，預設是快取)
Cache-Control: no-cache(伺服器控制瀏覽器不要快取網頁)
Pragma: no-cache(伺服器控制瀏覽器不要快取網頁)  
Connection: close/Keep-Alive(HTTP請求的版本的特點)  
Date: Tue, 11 Jul 2000 18:23:51 GMT(響應網站的時間)

理解網頁請求過程

從瀏覽器輸入網址、回車後，到使用者看到網頁內容，經過的步驟如下：

（1）dns解析，獲取ip地址；

（2）建立TCP連線，3次握手；

（3）傳送HTTP請求報文；

（4）伺服器接收請求並作處理；

（5）伺服器傳送HTTP響應報文；

（6）斷開TCP連線，4次握手。

這裡需要大家回憶起計算機網路中學到的相關知識，主要是http請求的相關內容，重點了解下TCP三次握手的一個流程，閱讀網頁http請求的整個過程，理解下網頁的請求過程。

通用的網路爬蟲框架

1.挑選種子URL；

2.將這些URL放入待抓取的URL佇列；

3.取出待抓取的URL，下載並存儲進已下載網頁庫中。此外，將這些URL放入待抓取URL佇列，從而進入下一迴圈；

4.分析已抓取佇列中的URL，並且將URL放入待抓取URL佇列，從而進入下一迴圈。

Python爬蟲（入門+進階）學習筆記 2-1 爬蟲工程化及Scrapy框架初窺

本章節將會系統地介紹如何通過Scrapy框架把爬蟲工程化。本節主要內容是：簡單介紹Python和爬蟲的關係，以及將要使用的Scrapy框架的工作流程。Python適合做爬蟲的原因語言本身簡單，適合敏捷開發有比較完善的工具鏈足夠靈活，以應對各種突然狀況爬蟲的知識體系前端相關知識：html，css，js；瀏覽器相

Python爬蟲（入門+進階）學習筆記 3-1 爬蟲工程師進階（七）：HTTP請求分析

Chrome瀏覽器相對於其他的瀏覽器而言，DevTools（開發者工具）非常強大。這節課將為大家介紹怎麼利用Chrome瀏覽器的開發者工具進行HTTP請求分析Chrome瀏覽器講解Chrome 開發者工具是一套內置於Google Chrome中的Web開發和除錯工具，可用來對

Python爬蟲（入門+進階）學習筆記 2-6 Scrapy的Request和Response詳解

上節課我們學習了中介軟體，知道了怎麼通過中介軟體執行反反爬策略。本節課主要介紹Scrapy框架的request物件和response物件通常，Request物件在爬蟲程式中生成並傳遞到系統，直到它們到達下載程式，後者執行請求並返回一個Response物件，

Python爬蟲（入門+進階）學習筆記 1-1 什麼是爬蟲？

爬蟲的定義：網路爬蟲（又被稱為網頁蜘蛛，網路機器人，在FOAF社群中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動地抓取全球資訊網資訊的程式或者指令碼。網頁的兩種載入方法同步載入：改變網址上的某些引數會導致網頁發生改變，例如：www.itjuzi.com/compa

Python爬蟲（入門+進階）學習筆記 1-6 瀏覽器抓包及headers設定（案例一：爬取知乎）

爬蟲的一般思路：抓取網頁、分析請求解析網頁、尋找資料儲存資料、多頁處理本節課主要講授如何通過谷歌瀏覽器開發者工具分析真實請求的方法。尋找真實請求的三個步驟分析：使用谷歌瀏覽器開發者工具分析網頁的請求測試：測試URL請求中每個引數的作用，找出控制翻頁等功能的引數重複：多次重複

Python爬蟲（入門+進階）學習筆記 1-5 使用pandas儲存豆瓣短評資料

1. Python資料分析的工具包numpy： (Numerical Python的簡稱)，是高效能科學計算和資料分析的基礎包pandas：基於Numpy建立的Python包，含有使資料分析工作變得更加簡單的高階資料結構和操作工具matplotlib：是一個用於創建出版質量圖

web全棧工程師（前端進階）學習線路圖

近兩年關於“前端工程師堅守前端還是主攻全棧開發”的問題，成為很多程式設計愛好者熱議的話題。全棧開發工程師的概念最早是由Facebook提出的。全棧的核心是指開發者能夠承擔包括前端、後端在內的所有功能開發任務。與傳統前端相比，web全棧開發工程師需要具備跨領域知識，甚至需要成為全才。作為勇於挑戰自我的前端，

python學習之旅2（函式進階）

目錄　楔子　名稱空間和作用域　函式巢狀及作用域鏈　函式名的本質　閉包　本章小結楔子假如有一個函式，實現返回兩個數中的較大值： def my_max(x,y): m = x if x>y else y return mbigger

人工智慧新手入門——高數篇（矩陣進階）

方陣行列式： CBDmax 行列式我們可以就是把他想象成一個函式，通過這個函式計算出來的結果，就是行列式的結果了。代數餘子式： CDBmax 這張圖給我們介紹了幾個概念： 1. 在一個n階矩陣中，元素所在的行和列刪除，剩下的結果就是的餘子式這裡記

redis入門指南一書總結下（redis進階）

redis事務 Redis中的事務是一組命令的集合，事務和命令一樣都是Redis的最小執行單位事務的原理為：先發送MULTI命令告訴redis接下來將會開啟一個事務，然後傳送一系列命令，最後傳送執行命令EXEC告訴redis執行這一系列命令。如下就

《Python程式設計從入門到實踐》學習筆記詳解-專案篇（資料視覺化）

上一篇總結了《Python從入門到實踐》的第1章至第11章即基礎語法篇，這篇文章將介紹本書的專案篇之資料視覺化。 #專案一資料視覺化 #繪製簡單的折線圖 import matplotlib.p

《Python程式設計從入門到實踐》學習筆記詳解-專案篇（API的使用）

上幾篇介紹了《Python程式設計從入門到實踐》的語法篇及2個專案篇。這篇文章介紹Python專案篇之API的使用。 #Python網路程式設計--API的使用 #執行API呼叫並處理結果 imp

《Python程式設計從入門到實踐》學習筆記詳解-專案篇（下載資料）

上兩篇文章分別介紹了《Python程式設計從入門到實踐》的語法篇和專案篇（資料視覺化），這篇文 #專案二下載資料 #訪問並可視化csv和json這兩種常見格式儲存的資料 #csv #提取並讀取資料 import csv filename='filename.c

ES6標準入門（第三版）學習筆記(1)

ES6宣告變數的六種方法 ES5只有兩種 var，function命令 ES6新增了let，const，class，import命令驗證var與let用法上的不同 var a = []; for (var i = 0; i < 10; i++){

python 基礎教程（第三版）學習筆記

第十四章網路程式設計鑑於Python提供的網路工具眾多，這裡只能簡要地介紹它的網路功能。本章首先概述Python標準庫中的一些網路模組。然後討論SocketServer和相關的類，並介紹地介紹同時處理多個連線的各種方法。最後，簡單地說一說Twisted

Mysql高手系列 - 第18篇：mysql流程控制語句詳解（高手進階）

Mysql系列的目標是：通過這個系列從入門到全面掌握一個高階開發所需要的全部技能。這是Mysql系列第18篇。環境：mysql5.7.25，cmd命令中進行演示。程式碼中被[]包含的表示可選，|符號分開的表示可選其一。上一篇儲存過程&自定義函式，對儲存過程和自定義函式做了一個簡單的介紹，但是如

算法（第四版）學習筆記（二）——初級排序算法

space 倒序優勢 name 算法 turn 資料 eply n) 時間復雜度（Time Complexity）：總運算次數表達式中受n的變化影響最大的那一項(不含系數)（註：若算法中語句執行次數為一個常數，則時間復雜度為O(1)）若T(n)/f(n)求極限可得

JavaScript權威指南（第6版）學習筆記一

未定義顯示註釋星期語句布爾運算垃圾 class ron 第2章詞法結構一、字符集 *JavaScript程序是用Unicode字符集編寫的。 *JavaScript嚴格區分大小寫。 *JavaScript註釋：（1）“//”用於單行註釋；（2）"/*

JavaScript權威指南（第6版）學習筆記三

設置 ray 每一個 main 需求創建 per ive customer 第六章對象對象可以看成其屬性的無序集合，每個屬性都是一個名/值對。JavaScript對象是動態的，可以新增也可以刪除屬性，可以通過引用而非值來操作對象。如果變量x是指向一個對象的引用，那麽執行

最完整的臺達PLC培訓教程（沈陽工大）學習筆記1

啟動 ces 編程管理可擴展開頭使用 body 出錯 1）可編程控制器的應用1 開關量邏輯控制：電動機啟動與停止2 運動控制：對步進電動機或伺服電動機的單軸或多軸系統實現位置控制3 過程控制：對溫度、壓力、流量等連續變化的模擬量進行閉環控制4 數據處理：數據采集-

Python爬蟲（入門+進階）學習筆記 1-1 什麼是爬蟲？

爬蟲的定義：

網頁的兩種載入方法

認識網頁原始碼的構成

檢視網頁請求

理解網頁請求過程

通用的網路爬蟲框架

相關推薦