Python網路資料爬取----網路爬蟲基礎（一）

阿新 • • 發佈：2018-11-02

The website is the API......(未來的資料都是通過網路來提供的，website本身對爬蟲來講就是自動獲取資料的API)。掌握定向網路資料爬取和網頁解析的基本能力。

##Requests 庫的使用，此庫是Python公認的優秀的第三方網路爬蟲庫。能夠自動的爬取HTML頁面；自動的生成網路請求提交。

##robots.tex 協議網路爬蟲排除標準（網路爬蟲的盜亦有道）

1.安裝Requests庫以管理員許可權進入cmd控制檯，通過" pip install requests "命令安裝Requests庫

#測試安裝Requests庫的效果，以爬取百度主頁為例 

>>> import requests
>>> r = requests.get("http://www.baidu.com")##一行程式碼就可以獲取任何對應的URL的資源
>>> r.status_code() #狀態碼
200
>>> r.encoding = "utf-8" #將編碼更改為UTF-8編碼
>>> r.text #列印網頁內容
......百度主頁的內容......

2. requests 的主要方法：

##2.1 r = requests.get(url) : get 方法為獲得一個網頁最常用的方法，此方法構建一個向伺服器傳送請求的Request（requests庫內部生產的）

物件；返回一個包含伺服器資源的Response（包含了網路爬蟲返回的內容）物件。

requests.get(url,params=None,**kwargs)

url :獲取URL頁面的連結

parmas:url 中額外的引數，可以是字典或位元組流格式，可選

**kwargs:12個控制訪問引數

其實get 方法採用request方法進行封裝，其他的方法也通過呼叫request方法來實現的。可以理解為requests庫只有一種request方法，為了程式設計方便才提供額外的6種方法。

3.Response物件包含了伺服器返回的所有資訊，同時也包含了向伺服器傳送請求的資訊

##Response 物件的5個屬性

3.1. r.status_code HTTP請求的返回狀態，200表示連線成功，404表示連線失敗；（有可能返回的是其他的值，只要不是200，都表示連線是失敗的）

3.2.r.text HTTP響應內容的所有字串形式，即URL對應的網頁內容

3.3. r.encoding 從 HTTP header中猜測響應內容的編碼方式(如果header中不存在charst欄位，則預設的是ISO--8859--1編碼)

3.４.r.apparent_encoding 從內容中分析出響應內容編碼方式（根據網頁內容分析出編碼方式，更加準確）

3.5.r.content 表示響應內容的二進位制形式

############################################################################################################

##爬取網頁的通用程式碼框架

##爬取網頁有風險，有可能有些網站不允許爬或者因為其他的原因無法爬取

理解requests庫的異常：

# requests.ConnectionError 網路連線錯誤異常，如查詢DNS失敗或者伺服器的防火牆拒絕連線等

# requests.HTTPError :HTTP錯誤異常

# requests.URLRequirde: URL缺失異常

# requests.TooManyRediecrts :重定向異常，超過最大重定向次數（對一些複雜的連線訪問的時候，容易產生這樣的錯誤）

# requests.ConnectTimeout :連線遠端伺服器超時異常（與伺服器連線超過一個預定的時間而產生的異常）

# requests.Timeout :發起URL請求到獲取URL內容，產生的超時異常

##Response 作為一個返回的物件，它提供了一個方法

r.raise_for_status() --->與異常打交道的方法，能夠判定返回的狀態碼是不是200，如果返回的不是200，將產生一個equests.HTTPError 異常

##爬取網頁的通用程式碼框架
import requests
def getHTMLText(url):
    try:
        r = requests.get(url,timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "產生異常"
    
if _name_ == "_main_":
    url ="http://www.baidu.com"
    print(getHTMLText(url))
####通用程式碼框架可以有效的處理，在訪問或者爬取網頁的時候產生的異常、錯誤，以及由於網路不穩定等因素產生的異常。使用者在使用通用程式碼框架後可以使得爬取網頁變得更加有效、穩定可靠###

####requests庫的7個主要方法：

1. requests.request()

2.requests.get()

3.requests.head()

4.requests.post()

5.requests.put()

6.requests.patch()

7.requests.delete()

HTTP 協議，超文字傳輸協議，是一種基於“”請求與響應“”模式的，無狀態的應用層協議。（無狀態指的是第一次請求與第二次請求並無關聯）

HTTP協議採用URL作為定位網路資源的標識

ＵＲＬ的格式　http://host[:port][path]（URL是通過HTTP協議存取網路資源的Internet路徑，一個URL對應一個數據資源）

host: 合法的主機域名和IP地址

port:埠號，預設的埠號為80

path:請求的資源在伺服器上的路徑

HTTP協議對資源的操作(其實這6個方法也是requests庫6個函式對應的功能)：

GET ：請求獲取URL位置資源　與　requests.get() 方法一致

POST ：請求向ＵＲＬ的資源後增加新的資訊，不改變現有的內容　與 requests.post()方法一致

HEAD ：請求獲取URL資源的響應訊息報告，即獲取該資源的頭部資訊與 requsts.head()方法一致

PUT ：請求向ＵＲＬ的位置存取一個資源，原來的資源將被覆蓋與 requests.put()方法一致

PATCH：請求向ＵＲＬ位置處的資源進行區域性更新，改變該出資源的部分資訊與 requests.patch()方法一致

DELETE：請求刪除ＵＲＬ位置處的相關資源與 requests.delete()方法一致

＃＃理解ＰＡＴＣＨ和ＰＵＴ的區別
假設ＵＲＬ位置有一組資料ＵｓｅｒＩｎｆｏ，包括ＵｓｅｒＩＤ，ＵｓｅｒＮａｍｅ等２０個欄位；
需求：使用者修改ＵｓｅｒＮａｍｅ其他不變
＊使用ＰＡＴＣＨ，僅向URL提交UserName的區域性更新請求（主要好處：節省網路頻寬）

＊採用PUT，必須將所以的20個欄位一併提交到ＵＲＬ，未提交的文欄位將被刪除（覆蓋）

####requests庫的head() 方法

#requests庫的head（）方法
import requests
r = requests.head("http://httpbin.org/get")#用很少的網路流量獲取網路資源的概要資訊
print(r.headers) 
>>>
{'Connection': 'keep-alive', 'Server': 'gunicorn/19.9.0', 'Date': 'Thu, 01 Nov 2018 14:33:19 GMT', 'Content-Type': 'application/json', 'Content-Length': '265', 'Access-Control-Allow-Origin': '*', 'Access-Control-Allow-Credentials': 'true', 'Via': '1.1 vegur'}
>>>r.text
..........(無)

Python網路資料爬取----網路爬蟲基礎（一）

The website is the API......(未來的資料都是通過網路來提供的，website本身對爬蟲來講就是自動獲取資料的API)。掌握定向網路資料爬取和網頁解析的基本能力。 ##Requests 庫的使用，此庫是Python公認的優秀的第三方網路爬蟲庫。能夠自動的爬取HTML頁面；自動的

python爬蟲系列之爬取百度文庫（一）

一、什麼是selenium 在爬取百度文庫的過程中，我們需要使用到一個工具selenium（瀏覽器自動測試框架），selenium是一個用於web應用程式測試的工具，它可以測試直接執行在瀏覽器中，就像我們平時用瀏覽器上網一樣，支援IE(7，8，9，10，11),firefo

Python爬蟲基礎（一）——HTTP

前言　　因特網聯絡的是世界各地的計算機（通過電纜），全球資訊網聯絡的是網上的各種各樣資源（通過文字超連結），如靜態的HTML檔案，動態的軟體程式······。由於全球資訊網的存在，處於因特網中的每臺計算機可以很方便地進行訊息交流、檔案資源交流······。基於因特網的幫助，我們可以在web客戶端（如瀏覽器

【利用python進行資料分析】準備與例項（一）

我已經分享了本書的ipynb，所以跟著我一起來實驗吧。如果你不懂怎麼開啟ipynb格式的檔案，那也沒關係，anaconda3讓一切變得更簡單（我像是打廣告的）。安裝玩anaconda之後，我們在開始裡就可以找到它的資料夾，裡面有一個Jupyter Notebook，就是它了。

雪球網爬取上市公司資訊（一）：爬取上市公司代號

條件：有一批5g相關公司，只知道公司名字或是簡稱，不知道公司是否上市以及股票程式碼，需要爬取公司資訊。網站：雪球網思路：上傳關鍵字，爬取搜尋結果網頁，將有結果的公司資訊抓取下來並存入資料庫 1、在雪球網輸入公司名搜尋，發現返回3個結果，其中search.json?c

資料視覺化三步走（一）：資料採集與儲存，利用python爬蟲框架scrapy爬取網路資料並存儲

前言最近在研究python爬蟲，突然想寫部落格了，那就寫點東西吧。給自己定個小目標，做一個完整的簡單的資料視覺化的小專案，把整個相關技術鏈串聯起來，目的就是為了能夠對這塊有個系統的認識，具體設計思路如下： 1. 利用python爬蟲框架scr

python爬蟲-爬取愛情公寓電影（2018）豆瓣短評並資料分析

說起這部電影，我本人並沒有看，其實原先是想為了情懷看一下，但是好友用親身經歷告訴我看來會後悔的，又去看了看豆瓣評分，史無前例的，，，低。出於興趣就爬取一下這部電影在豆瓣上的短評，並且用詞雲分析一下。 1.分析url 經過分析不難發現每一頁短評的url都是一致的除

python scrapy框架爬取豆瓣top250電影篇一明確目標&&爬蟲編寫

1.明確目標 1.1在url上找到要爬取的資訊 1.2.確定了資訊,編寫items檔案 class DoubanItem(scrapy.Item): &nb

Python 網路爬蟲學習（一）

最近在學習一些Python網路爬蟲的東西，現將所學習內容整理如下，希望與大家相互交流，共同進步。一、網路爬蟲基本概念 1.網路爬蟲(Web Spider) 是通過網頁的連結地址來尋找網頁的。從網站某一個頁面（通常是首頁）開始，讀取網頁的內

Python進行資料爬取

1.基本的爬蟲架構主要包括排程器，URL管理器，網頁下載器，網頁解析器這些部分，實現價值資料的獲取。1.1 URL管理器對待抓取的URL集合和已抓取的URL集合進行管理，避免重複抓取和迴圈抓取。主要有5個部分的功能，判斷待新增URL是否在容器中、新增新

python爬蟲系列（一）百度首頁爬取

前言經受不住爬蟲技術的吸引，為此決定踏入”爬蟲”這條不歸路。爬蟲介紹其實在我眼裡，爬蟲無非所見即所得，也就是一切皆可爬。至於url技術和python環境在此就不重複。在此使用urllib庫進行初步學習。 python:2.7 初次嘗試

python 爬蟲實戰（一）爬取豆瓣圖書top250

import requests from lxml import etree with open('booktop250.txt','w',encoding='utf-8') as f: f

網路資料抓取及其R實現（以鏈家樓盤為例）

本次資料抓取的鏈家新房樓盤，由於對網路抓取資料還不熟悉，所以現在只抓取了北京地區的樓盤。我在學習過程中主要參考資料為《基於R語言的自動資料收集》，這本書確實不錯，在前八章講解的基礎知識，以本書的配套網站資源為講解基礎,但是在按照書中抓取資料時有些地方和書本講的不

計算機網路基礎（一）

轉發： https://blog.csdn.net/baidu_37964071/article/details/80157498 一、背景知識作為一名程式設計師, 不可能不與網路打交道。我們一起來了解一下關於網路的基礎知識。 1、什麼是計算機網路計算機網路，是指地理位置不同，具有獨立功

python scrapy框架爬取豆瓣top250電影篇一代理編寫

爬蟲偽裝: UA中介軟體編寫 settings設定 from scrapy import signals import base64 import random class my_useragent(object): def process_req

python scrapy框架爬取豆瓣top250電影篇一儲存資料到mongogdb | mysql中

存到mongodb中環境 windows7 mongodb4.0 mongodb安裝教程設定具體引數在管道里面寫具體引數開啟settings 設定引數測試開始–結果程式碼 import pymongo from douban.

Python爬蟲開發（一）：零基礎入門

0×00 介紹本人對於Python學習建立了一個小小的學習圈子，為各位提供了一個平臺，大家一起來討論學習Python。歡迎各位到來Python學習群：960410445一起討論視訊分享學習。Python是未來的發展方向，正在挑戰我們的分析能力及對世界的認知方式，因此，我們與時俱進，迎接變化，並

C#.網路程式設計 Socket基礎（一）Socket TCP協議實現端到端（伺服器與客戶端）簡單字串通訊

簡介：本章節主要討論了Socket的入門知識，還未針對Socket的難點問題（比如TCP的無訊息邊界問題）展開討論，往後在其他章節中進行研究。注意點：伺服器（比如臺式電腦）的IP為1.1.1.2，那麼客戶端（其他裝置，比如手機，Ipad）連線的一定是

圖解HTTP之瞭解Web及網路基礎（一）

通常使用的網路（包括網際網路）是在TCP/IP協議族的基礎上運作的，而HTTP屬於它內部的一個子集。 TCP/IP協議族按照層次分別分為：應用層、傳輸層、網路層和資料鏈路層。應用層，決定了向用戶提供應用服務時通訊的活動。FTP檔案傳輸協議、DNS域名系統、HTTP協議均處於應用層。傳

Python爬蟲筆記（一）——基礎知識簡單整理

登陸時候的使用者名稱和密碼可以放在http的頭部也可以放在http的body部分。 HTTPS是否可以抓取由於https運用的加密策略是公開的，所以即使網站使用https加密仍然可以獲得資料，但是類似於微信這樣的app，它自己實現了一套加密演算法，想要抓取資料就變得

Python網路資料爬取----網路爬蟲基礎（一）

相關推薦