urllib庫

urllib庫是python中的一個基本網路請求庫。用於模擬瀏覽器的行為，向指定伺服器傳送請求，並接收返回的資料。

在python3中所有的網路請求相關函式都集中在urllib.request模組下面

urlopen函式

向伺服器發起請求

urlopen函式的引數

url 目標地址
data 如果有這個引數，將變為post請求
返回值 http.client.HTTPResponse物件，其中含有下面幾個方法：
- read(size) size為空則讀取所有
- readline() 讀取一行
- readlines() 讀取多行
- getcode() 讀取狀態值
  基本的使用：
```
from urllib import request
res = request.urlopen("http://www.baidu.com")
print(res.read())
```

urlretrieve函式

這個函式可以方便的將網頁的一個檔案儲存到本地。

urlretrieve函式的引數

url 目標地址
下載路徑
基本使用

from urllib import request
request.urlretrieve("http://www.baidu.com","index.html") #下載百度首頁到index.html

urlencode函式

用於完成url中中文以及特殊字元的編碼和解碼

基本使用：

from urllib import parse
params = {
    "name": "張三",
    "age": 14,
    "地址": "上海市海河大道1544弄3號樓302"
}
res = parse.urlencode(params)
print(res)

執行結果：
age=14&name=%E5%BC%A0%E4%B8%89&%E5%9C%B0%E5%9D%80=%E4%B8%8A%E6%B5%B7%E5%B8%82%E6%B5%B7%E6%B2%B3%E5%A4%A7%E9%81%931544%E5%BC%843%E5%8F%B7%E6%A5%BC302

在百度上搜索劉德華

from urllib import request
from urllib import parse

# request.urlopen("http://www.baidu.com/s/?wd=劉德華") #直接這樣請求會報錯
url = "http://www.baidu.com/s/?"
# 定義引數字典
params = {
    "wd": "劉德華"
}
# 引數轉碼
qs = parse.urlencode(params)
# url拼接
url += qs
# 傳送請求
res = request.urlopen(url)
print(res.read())

parse_qs函式

將已經編碼的url進行解碼
基本使用

from urllib import parse
qs = "age=14&name=%E5%BC%A0%E4%B8%89&%E5%9C%B0%E5%9D%80=%E4%B8%8A%E6%B5%B7%E5%B8%82%E6%B5%B7%E6%B2%B3%E5%A4%A7%E9%81%931544%E5%BC%843%E5%8F%B7%E6%A5%BC302"  
res = parse.parse_qs(qs)
print(res)

執行結果
{'name': ['張三'], 'age': ['14'], '地址': ['上海市海河大道1544弄3號樓302']}

urlparse 和 urlsplit函式

用於將url各個部分進行分割

基本使用

from urllib import parse
url = "http://www.baidu.com/s/?wd=python"

res = parse.urlsplit(url)
print(res)
res = parse.urlparse(url)
print(res)

執行結果：
SplitResult(scheme='http', netloc='www.baidu.com', path='/s/', query='wd=python', fragment='')
ParseResult(scheme='http', netloc='www.baidu.com', path='/s/', params='', query='wd=python', fragment='')

可以發現兩個結果基本相同，唯一不同的是urlsplit()函式返回結果沒有params屬性

request.Request類

如果需要在請求中新增header資訊，則必須用request.Request類實現
基本使用：

# 通過構造請求頭 獲取拉勾網的招聘資訊
from urllib import request
from urllib import parse
url = "https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false"

headers = {
    'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36',
    'Referer': 'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=',
    "Cookie": "_ga=GA1.2.620765502.1560083999; _gid=GA1.2.758158058.1560083999; user_trace_token=20190609203959-b18d608c-8ab3-11e9-a228-5254005c3644; LGUID=20190609203959-b18d64d3-8ab3-11e9-a228-5254005c3644; index_location_city=%E5%85%A8%E5%9B%BD; JSESSIONID=ABAAABAAAIAACBI2C1935D6770E19BC5BE4390354414026; X_HTTP_TOKEN=b6c2ab256a325419948821065120ec66a55a5e4b49; _gat=1; LGSID=20190610090729-1e5547bf-8b1c-11e9-a22c-5254005c3644; PRE_UTM=; PRE_HOST=; PRE_SITE=; PRE_LAND=https%3A%2F%2Fwww.lagou.com%2F; LGRID=20190610090729-1e5549e6-8b1c-11e9-a22c-5254005c3644; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1560084000,1560090525,1560128850; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1560128850; TG-TRACK-CODE=index_search; SEARCH_ID=60cd24c737344a6f98c48dd4fc94c39c"
}

data = {
    "first": "true",
    "pn": 1,
    "kd": "python"
}


req = request.Request(url, headers=headers, data=(
    parse.urlencode(data)).encode("utf-8"), method="POST")
resp = request.urlopen(req)
print(resp.read().decode("utf-8")) 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    爬蟲基礎(1):urllib庫
      urllib庫
urllib庫是python中的一個基本網路請求庫。用於模擬瀏覽器的行為，向指定伺服器傳送請求，並接收返回的資料。

在python3中所有的網路請求相關函式都集中在urllib.request模組下面

urlopen函式

向伺服器發起請求

urlopen函式的引數

url 目標地址
 

  
 

    

    
    Python3爬蟲學習筆記（1.urllib庫詳解）
      
								
								            
						
                
1.什麼是爬蟲：略，到處都有講解。
雖然是入門，不過沒有Python基礎的同學看起來可能費勁，建議稍學下Python
之前學習前端知識也是為了能看懂HTML，便於爬蟲學習，建議瞭解下前端知識
2.re 

  
 

    

    
    第三百三十節，web爬蟲講解2—urllib庫爬蟲—實戰爬取搜狗微信公眾號
      文章   odin   data   模塊   webapi   頭信息   hone   微信   android   第三百三十節，web爬蟲講解2—urllib庫爬蟲—實戰爬取搜狗微信公眾號
封裝模塊

#!/usr/bin/env python
# -*- coding: utf-8 -*-
impo 

  
 

    

    
    Python爬蟲入門：Urllib庫的基本使用
      logs   模擬   第一個   tps   出了   訪問方式   post方式   %d   一段    
1.分分鐘扒一個網頁下來
怎樣扒網頁呢？其實就是根據URL來獲取它的網頁信息，雖然我們在瀏覽器中看到的是一幅幅優美的畫面，但是其實是由瀏覽器解釋才呈現出來的，實質它 是一段HTML代碼，加 JS、 

  
 

    

    
    爬蟲學習筆記-urllib庫
      服務器   中一   9.png   tro   編碼   網頁   如果   str   param   urllib庫是python中一個最基本的網絡請求庫。可以模擬瀏覽器的行為，向指定的服務器發送一個請求，並可以保存服務器返回的數據。
urlopen函數：在python3的urllib庫中，所有和網絡請 

  
 

    

    
    爬蟲基礎1 怎麼使用瀏覽器檢視網路請求
      推薦使用火狐和谷歌瀏覽器，一般兩個對照著看。 
 下面是兩個瀏覽器對同一個網址的頁面進行檢查的，對比，火狐直接是中文顯示，谷歌則是英文顯示。 
如下頁面是火狐的 
 
  
如下是谷歌瀏覽器的 
 
  
下面是這些欄位的介紹： 
　　1.Name:請求的名稱，一般是會將URL的 

  
 

    

    
    爬蟲基礎1 怎麽使用瀏覽器查看網絡請求
      init   網址   獲取   傳遞   document   eth   標記   狀態   終端   推薦使用火狐和谷歌瀏覽器，一般兩個對照著看。
 下面是兩個瀏覽器對同一個網址的頁面進行檢查的，對比，火狐直接是中文顯示，谷歌則是英文顯示。
如下頁面是火狐的

 
如下是谷歌瀏覽器的

 
下面是這些字 

  
 

    

    
    爬蟲基礎-1-爬取小說資源
      小生部落格：http://xsboke.blog.51cto.com 
小生 Q Q：1770058260 
                    -------謝謝您的參考，如有疑問，歡迎交流 
 
 
 使用BeautifulSoup爬取網站資源 
 注:此文僅供學習參考,如果該網站平凡文學負責人有異議 

  
 

    

    
    python3 2018分散式爬蟲教程 -3 urllib 庫詳解
       
 
 1.urllib 庫 
 安裝命令： 
 pip install urllib 
  urllib :Python內建的HTTP請求庫 
 # Python2
import urllib2
response = urllib2.urlopen('http://www.baidu.com') 

  
 

    

    
    python爬蟲學習之urllib庫
      
                urlopen

get型別的網頁：
	import urllib.request
 response = urllib.request.urlopen("http://www.baidu.com")
 print(response.read().decode('utf-8' 

  
 

    

    
    python3網路爬蟲第一章: urllib 庫的使用
      
							
							
							1.使用 urllib 庫爬取百度首頁



import urllib.request

file = urllib.request.urlopen("http://www.baidu.com")
data = file.read()
dataline = f 

  
 

    

    
    爬蟲入門-1.requests庫的用法
      utf   html   字節流   request   數據   con   bin   轉換   for   requests庫是第三方庫,使用之前需要安裝:
pip install requests
一.常見操作:

import requests

resp = requests.get( 

  
 

    

    
    爬蟲基礎-requests類庫
      
                                        
                                                簡介
python內建的HTTP請求庫，用於HTTP的請求和響應處理。程式碼比urllib類庫要簡潔很多
請求型別


reque 

  
 

    

    
    python3爬蟲基礎-pyquery解析庫
      
                                        
                                                簡介
看名稱和jQuery比較接近，對沒錯,pyQuery允許您對XML文件進行jQuery查詢。API儘可能類似於jQuery。 

  
 

    

    
    爬蟲1.1-基礎知識+requests庫
      形式   ...   turn   params   組合   ppm   index   字段   main   目錄

爬蟲-基礎知識+requests庫
1. 狀態返回碼
2. URL各個字段解釋
2. requests庫
3. requests庫爬蟲的基本流程


爬蟲-基礎知識+requests庫
 

  
 

    

    
    python爬蟲從入門到放棄（三）- Urllib庫的基本使用方法1
      
                Urllib 是Python自帶的標準庫，無需安裝，直接可以用。提供瞭如下功能：網頁請求響應獲取代理和cookie設定異常處理URL解析爬蟲所需要的功能，基本上在urllib中都能找到，學習這個標準庫，可以更加深入的理解後面更加便利的requests庫。----------- 

  
 

    

    
    數據庫基礎(1)：數據定義
      rop   數據庫基礎   class   red   教師   clas   教師表   屬性   sna   1．實驗內容
1)     用Management Studio創建數據庫University_Mis
2)     使用SQL語句創建關系數據庫基本表：
學生表Students(Sno,Snam 

  
 

    

    
    Python爬蟲入門三之Urllib庫的基本使用
      res   瀏覽器中   必須   答案   文件的   網頁   one   .com   屏幕截圖   1.分分鐘扒一個網頁下來

怎樣扒網頁呢？其實就是根據URL來獲取它的網頁信息，雖然我們在瀏覽器中看到的是一幅幅優美的畫面，但是其實是由瀏覽器解釋才呈現出來的，實質它是一段HTML代碼，加 JS、CSS 

  
 

    

    
    爬蟲新手學習1-爬蟲基礎
      計算機   china   用戶名   ges   wps   請求頭   重復內容   dnspod   tran   一、    為什麽要做爬蟲？首先：都說現在是"大數據時代"，那數據從何而來？企業產生的用戶數據：百度指數、阿裏指數、TBI騰訊瀏覽指數、新浪微博指數數據平臺購買數據：數據堂、國雲數據市場、 

  
 

    

    
    數據庫對象:表，視圖，索引，序列（基礎1）
      清空表   情況   name   ack   not null   相關   into   odi   情況下   創建表:CREATE TABLE employee_xxx(id NUMBER(4),name VARCHAR2(20),gender CHAR(1),birth DATE,salary NU