1. 程式人生 > >爬蟲基礎篇1--爬蟲原理

爬蟲基礎篇1--爬蟲原理

響應 方式 狀態 key-value 狀態碼 正則 獲取網頁 res --

1.什麽是爬蟲?
請求網站並提取數據的自動化程序(讓程序替你去上網)


2.爬蟲的基本流程
(1)向服務器發起請求
(2)獲取網頁內容
(3)解析內容
(4)保存數據


3.什麽是request和response
請求與響應:
瀏覽器與服務器(也是一臺計算機)之間的交流。


4.request中包含了什麽?
(1)請求方式(get,post)
(2)請求的URL
(3)請求頭信息
(4)請求體(例如post請求的表單信息)


5.response中包含了什麽?
(1)響應狀態碼(200 0K 404 NO FOUND)
(2)響應頭
(3)響應體


6.爬蟲可以抓怎樣的數據?
網頁文本,圖片,視頻


7.如何解析?
(1)直接處理
(2)json解析
(3)正則表達式
(4)beautifulsoup解析庫(pyquery)


8如何保存數據?
文本,關系型數據庫,非關系型數據庫(key-value),二進制文本

爬蟲基礎篇1--爬蟲原理