python3 urllib包與http包的使用

阿新 • • 發佈：2019-01-25

urllib包和http包都是面向HTTP協議的。其中urllib主要用於處理 URL，使用urllib操作URL可以像使用和開啟本地檔案一樣地操作。而 http包則實現了對 HTTP協議的封裝，是urllib.request模組的底層。

1.urllib包簡介

2. http 包簡介

1.urllib包簡介

urllib包主要模組有：

1.urllib.request -----用於開啟 URL網址；

2.urllib.error ---------定義了常見的urllib.request會引發的異常；

3.urllib.parse---------用於解析 URL；

具體方法：

urllib.request.urlopen( url，data，proxies ) ：用於開啟 url

引數如下：

url：要進行操作的 URL地址

data：可選項。向URL 傳遞的資料。

proxies：可選項。使用的代理地址

import urllib.request

url = 'http://www.baidu.com'         #網頁為百度首頁
respone  = urllib.request.urlopen(url)   #開啟url地址,並返回一個 HTTPRespone例項
html = respone.read().decode('utf-8')   #呼叫例項的 read()方法，並用 utf-8進行解碼處理。就得出完整的百度的HTML檔案
print(html)

部分列印結果：

<html>
<head>
    
    <meta http-equiv="content-type" content="text/html;charset=utf-8">
    <meta http-equiv="X-UA-Compatible" content="IE=Edge">
	<meta content="always" name="referrer">
    <meta name="theme-color" content="#2932e1">
    <link rel="shortcut icon" href="/favicon.ico" type="image/x-icon" />
    <link rel="search" type="application/opensearchdescription+xml" href="/content-search.xml" title="百度搜索" /> 
    <link rel="icon" sizes="any" mask href="//www.baidu.com/img/baidu.svg">

urllib.request.urlretrieve(url，filename，reporthook，data) ：用於將 URL的HTML檔案下載並儲存為本地檔案

引數如下：

url：要下載的網頁

filename：儲存在主機的路徑，可選項。

reporthook：一個回撥函式，可選項。

data：傳送的資料，一般用於 post，可選項。

特別：關於urlretrieve()的回撥函式reporthook：可以用來顯示下載的進度，幾乎已經封裝好

import urllib.request
def callbackfunc(blocknum, blocksize, totalsize):   #這三個引數是由 urlretrieve自動賦值的
    '''回撥函式
    @blocknum: 已經下載的資料塊
    @blocksize: 資料塊的大小
    @totalsize: 遠端檔案的大小
    '''
    percent = 100.0 * blocknum * blocksize / totalsize
    if percent > 100:
        percent = 100
    print( "%.2f%%"% percent)   #保留兩位小數

url = 'http://www.sina.com'

local = 'd:\\sina.html'                             #下載的html檔案儲存在 d盤的sina.html裡
urllib.request.urlretrieve(url,local,callbackfunc)    #沒下載完一個數據塊，就會執行回撥函式一次

執行結果：

//只顯示區域性
0.00%
1.38%
2.76%
4.13%
5.51%
6.89%

2. http包簡介

http包提供了 HTTP協議的一些功能，主要模組有：

http.client --- 底層的 HTTP 協議的一些功能，可以為 urllib.request 模組所用

http.server --- 提供了基於 socketserver模組的基本 HTTP伺服器類

http.cookies --- cookies 的管理工具

http.client ：

HttpClient不是一個瀏覽器。它是一個客戶端的HTTP通訊實現庫。HttpClient的目標是傳送和接收HTTP報文。

兩個主要類(用於客戶端)：

HTTPConnection ：基於HTTP協議的客戶端，指定 URL(網址) 後，可以傳送請求報文和接收響應報文

HTTPRespone ：基於 HTTP 協議的服務端迴應。一旦用 HTTPConnection 成功連線，可以呼叫相關方法返回該例項(HTTPRequest例項)。

（1）HTTPConnection 的方法：

構造方法： HTTPConnection( host，port，[timeout] ) 返回一個HTTPConnection 例項

host：表示主機域名或 ip 地址

port：表示埠

timeout：阻塞操作將會在給定時間後超時。可選項

傳送請求報文方法：HTTPConnection.request( method，url，body =None，headers = {} )

method：傳送的操作，一般為 GET 或者 POST

url ：進行操作的 url

body ：所傳送的資料

headers：傳送的 HTTP頭部，是一個字典型別

獲取響應報文方法：HTTPConnection.getrespone( )

關閉與伺服器的連線： HTTPConne.close()

傳送一個頭部：HTTPConnection.putheader( header，args[ ] ) #頭部以一個字典方式傳送

傳送一個空白行到伺服器，標誌頭部Header的結束：HTTPConnection.endheaders( )

傳送資料到伺服器：HTTPConnection.send( data ) ，應該在endheaders()之後和 getrespone()之前呼叫。

（2）HTTPRespone：

HTTPRespone物件：一旦用 HTTPConnection 成功連線，可以呼叫HTTPConnection.getrespone()返回該例項(HTTPRequest例項)。

HTTPRespone.getheader(name) ：返回頭部中的 name 欄位對應的值

HTTPRespone.getheaders( ) ：以元組的方式返回整個頭部的資訊

HTTPRespone.read() ：返回響應報文中的body部分，也即正文部分

HTTPRespone.status #返回狀態碼

HTTPRespone.version #返回 HTTP協議版本

http 包應用例項。

from http.client import HTTPConnection

con = HTTPConnection('www.baidu.com',80)
con.request('GET','/')           #傳送請求報文
res = con.getresponse()          #獲取響應報文物件
print(res.status)   #200   (表示狀態碼)
print(res.reason)   #OK	  （表示狀態碼對應的意義）
print(res.read().decode('utf-8'))   #列印www.baidu.com的html

python3 urllib包與http包的使用

urllib包和http包都是面向HTTP協議的。其中urllib主要用於處理 URL，使用urllib操作URL可以像使用和開啟本地檔案一樣地操作。而 http包則實現了對 HTTP協議的封裝，是urllib.request模組的底層。 1.urllib包簡介 2. h

eclipse 包與子包的視圖顯示方式切換

dao src mage ack 視圖 package .html nbsp 圖片上圖Package Presentation ---> Hierarchical（如下圖顯示父包與子包）參考：https://zhidao.baidu.com/question/

Apache網頁優化：網頁壓縮，網頁緩存（內含源碼包與抓包工具）

shadow 壓縮 bin oss 時間域名 img config 讓其網頁壓縮：在linux系統中利用Apache中的gzip模塊。可以使用gzip壓縮算法來對Apache服務器發布的網頁內容進行壓縮後再傳輸到客戶端瀏覽器，經過壓縮過後可以加快網頁加載的速度網頁緩存：

不定長參數的裝包與拆包

rec 不定 pan 編寫 str 為什麽 int strong 需求 #轉載請聯系 def task(a,b,c,*args,**kwargs): print(a) print(b) print(c) print(args)

SpringBoot系列——jar包與war包的部署

　　前言　　Spring Boot支援傳統部署和更現代的部署形式。jar跟war都支援，這裡參考springboot參考手冊學習記錄　　兩種方式　　jar 　　springboot專案支援建立可執行Jar，參考手冊第11.5. Creating an Executable Jar就有對這樣的介紹

TCP 的粘包與拆包問題

之前在做專案時，使用 Java NIO 來搭建伺服器端及客戶端程式，發現待發送的資料大於傳送緩衝區 ByteBuffer 大小時，將發生拆包情況，會把待發送的資料包分多次傳送到客戶端。當時是分配了更大的位元組緩衝區來解決這個問題，後來瞭解到這是 TCP 協議中的粘包與拆包問題。首先我們瞭解一下

Linux學習之軟體包管理-原始碼包管理-原始碼包與RPM包的區別

Linux原始碼安裝：一、原始碼包和RPM包的區別 1、原始碼包和RPM包安裝前的區別：安裝之前的區別：概念上的區別原始碼包開源安裝自由效率更高安裝慢容易出錯 rpm 安裝更快，不容易報錯，安裝之後的區別：安裝位置不同，帶來管理上的區別 r

war包與jar包區別以及如何打包

war包：是一個可以直接執行的web模組，通常用於網站，打成包部署到容器中。以Tomcat來說，將war包放置在其\webapps\目錄下,然後啟動Tomcat，這個包就會自動解壓，就相當於釋出了。war包是Sun提出的一種web應用程式格式，與jar類似，是很多檔案的壓縮包

linux原始碼包與RPM包的區別

1.區別 .安裝之前的區別：概念上的區別比如說：原始碼包是開源的，比RPM包安裝更自由，但是它安裝更慢，更容易報錯；RPM包是經過編譯的，不能看到原始碼，但是它安裝更快，報錯更容易解決，只有依賴性問題。 .安裝之後的區別：安裝位置不同 RPM包不需要指定安裝位置，它

嵌入式Linux網路程式設計，網路基礎，OSI七層模型，TCP/IP四層模型，TCP/IP通訊模型、協議結構、封包與拆包，TCP/UDP協議特點及適用情況

文章目錄 1，TCP協議分成了兩個不同的協議----->TCP/IP協議誕生 2，網路的體系結構 2.1，OSI開放系統互聯模型 2.2，TCP/IP協議族的體系結構 3，TCP/IP協議通訊模型 3.1

建立maven時選擇的war包與jar包的區別？

JAR檔案的目的是把類和相關的資源封裝到壓縮的歸檔檔案中，而對於WAR檔案來說，一個WAR檔案代表了一個Web應用程式，它可以包含 Servlet、HTML頁面、Java類、影象檔案，以及組成Web應用程式的其他資

Jar包與aar包檔案的區別

一，兩者區別： *.jar：只包含了class檔案與清單檔案，不包含資原始檔，如圖片等所有res中的檔案。 *.aar：包含所有資源，class以及res資原始檔全部包含如果你只是一個簡單的類庫那麼使用生成的*.jar檔案即可；如果你的是一個UI庫，包含一些自己寫的控制元件佈局檔案以及

python中的組包與解包

關於【組包與解包】：組包：python直譯器自動將多個數據組裝到一個容器中解包：將容器中的多個數據拆出來組包: 直譯器把1,2,3自動組包成一個元組,然後賦值給a,a的型別就是元組型別的　　a = 1,2,3 # 相當於 a = (1,2,3) 　　print(a) #

Android studio關於Jar包與aar包的匯入與使用

1.匯入aar 包匯入aar包需要在build.gradle中新增引數 dependencies { compile(name:'myaartest',ext:'aar') } repositories{ flatDir{ dirs '

centos7 原始碼包與RPM包區別，以及原始碼包安裝過程

原始碼包與RPM包的區別 1、概念上的區別軟體包分類原始碼包 RPM包包的形式 C原始檔包編譯之後的二進位制包優點開源；可以自由選擇所需功能；可看原始碼；解除安裝方便（直接刪除安裝位置）；使用

網路協議的封包與拆包方法

最近在處理rtsp拆包的時候，發現自己在網路協議方面存在著很大的問題，其中最大的問題就是不清楚如何根據協議進行解析？因此，在做網路協議的拆包的時候如果這些知識沒有想清楚，理解透徹，那麼在做起來的時候你會發現各種各樣的錯誤讓除錯起來總是困難重重！因此，我們在解網路

Maven專案打包及jar包與war包的區別

今日部署專案打包，maven專案，老大給了倆bat啟動檔案，路徑配好後，打包一直有毛病，原因未知，只好用傳統方式繼續，順手記錄下打包方法及war包及jar包的區別，看了些文章，摘出一些供以後學習檢視1.打包方式（war包）Maven install 打包：出現 build

專案二-任務七-管理rpm軟體包與壓縮包

子任務一管理rpm軟體包第一步：查詢rpm軟體是否已經安裝通過【rpm -q 軟體包名】命令檢視，具體命令如下：【rpm -qa | grep tomcat4】查詢已經安裝的tomcat的所有套件。【rpm -qip example。rpm】查詢example.rpm安

Python3 urllib.request與requests模組請求網頁程式碼

爬蟲的起點，獲取網頁程式碼 #!/usr/bin/env python3 # -*- encoding:utf-8 -*- # 請求網頁程式碼 import urllib.request r

URL編碼與解碼(使用 Python3 urllib.parse) 與貼吧小爬蟲案例

parse 頁碼這樣的 5.0 put 傳遞 range 通過組合一．parse.urlencode() 與parse.unquote() urllib 和urllib.request都是接受URL請求的相關模塊，但是提供了不同的功能。兩個最顯著的不同如下： 1.ur

python3 urllib包與http包的使用

相關推薦