【Python】python3中urllib爬蟲開發

阿新 • • 發佈：2017-12-08

urlopen 狀態碼 tco processor span agent cond urllib 聲明

以下是三種方法

①First Method

最簡單的方法

②添加data,http header

使用Request對象

③CookieJar

import urllib.request
from http import cookiejar
url =‘http://www.baidu.com‘

print("First Method")

response1 = urllib.request.urlopen(url)
#返回狀態碼
print(response1.getcode())
print(len(response1.read()))

print("Second Method 
")
request = urllib.request.Request(url)
request.add_header("uese-agent","Mazilla/5.0")
response2 = urllib.request.urlopen(url)
#返回狀態碼
print(response2.getcode())
print(len(response2.read()))

print("Third Method")
#聲明一個CookieJar對象實例來保存cookie
cj = cookiejar.CookieJar()
#利用urllib.request庫的HTTPCookieProcessor對象來創建cookie處理器,也就CookieHandler 

handler = urllib.request.HTTPCookieProcessor(cj)
#通過CookieHandler創建opener
opener = urllib.request.build_opener(handler)
#此處的open方法同urllib.request的urlopen方法，也可以傳入request
response3 = opener.open(url)
#返回狀態碼
print(response3.getcode())
print(response3.read())

【Python】python3中urllib爬蟲開發

urlopen 狀態碼 tco processor span agent cond urllib 聲明以下是三種方法 ①First Method 最簡單的方法 ②添加data,http header 使用Request對象 ③CookieJar import urllib

【Python】python3-list列表引用

dex style span 訪問 logs 需求直接不能註意 print(names) #列出列表的內容 print(names[3]) #訪問列表中第4個值 print(names[1:3]) #訪問列表中從第2

【python】json中字典key不可為數值型

pre size color code 不可 bsp 存在 clas 問題遇到了一個很詭異的錯誤。寫一個字典，存入json文件。之後讀出判斷是否存在key。結果驚奇的發現，同一個key居然存在兩次。原因：json會將數值key轉換為unicode 結論：使用json

【Python】for中嵌套if使用

super print sleep span bdr time links 1.9 btn 1.9選課中心前兩頁課程名稱打印到固定系統文件夾的某個csv文件中。 1 #-*- coding: UTF-8 -*- 2 #coding==utf-8 3 #from se

【Python】xpath中為什麽粘貼進去代碼後老報錯？如何在定位元素的時候準確找到定位切入點？

ctrl+ 試用不能 -s 如何 ont mage F12 ctr 1. xpath後（）中雙引號("")裏面不能套用雙引號(""),把裏面的雙引號改成單引號(‘‘)報錯就沒有了。 2.如何在定位元素的時候準確找到定位切入點？要巧妙運用F12，確定要定位的頁面元素

【python】Numpy中stack()，hstack()，vstack()函數詳解

一起 int pan 控制意思 name 體會你們如何轉自 https://blog.csdn.net/csdn15698845876/article/details/73380803 這三個函數有些相似性，都是堆疊數組，裏面最難理解的應該就是stack()函數了，

【Python】Windows中Python直譯器下載安裝及安裝細節

Python直譯器下載官網地址: https://www.python.org/ 選擇適合自己的版本 Python直譯器安裝第一步：選擇install Now，會安裝在預設路徑很深的位置。不建議選擇。選擇第二個安裝，勾選安裝到環境變數path

【python】python3和ipython的安裝

1. 安裝python3 1.拿到原始碼安裝包(python3.6)—>去官網下載 2.解壓安裝包到/opt目錄 3.安裝編譯過程中需要的依賴包：gcc,zlib,zlib-devel,openssl-devel 4.進入解壓的安裝包進行編譯其中 --prefix= 表示安

【Python】PyCharm中matplotlib.pyplot.imshow()無法繪圖

問題描述在利用Anaconda3 + PyCharm 2018 實現神經網路的實踐中，涉及到一個根據畫素陣列繪製圖像的實踐，如下所示（這裡只需要關心image_array即可，對源資料的預處理可忽略）： # coding=utf-8 # author: BebDong # 10

【python】python3的包pymysql的坑

由於堅定的想堅持用python3，所以連結mysql的時候使用pymysql庫，以下是遇到的坑： 1，連線的時候port是一個數字不是字串如下所示： mport pymysql conn = pymysql.connect(host='127.0.0.1',port = 330

【python】numpy中的tile函式

tile函式在看機器學習實戰這本書時，遇到numpy.tile(A,B)函式，愣是沒看懂怎麼回事，裝了numpy模組後，實驗了幾把，原來是這樣子：重複A，B次，這裡的B可以時int型別也可以是遠組型別。 >>> import num

【python】py35中使用requests庫爬https協議下的網站

使用requests庫可以非常簡單地爬https協議下的網站： import requests url='https://www.baidu.com/' r = requests.get(url,verify=False) r.encoding = 'utf-8' print(r.t

【Python】numpy 中的 copy 問題詳解

這篇文章本是我在 segmentfault 上的一個回答，但是越來越覺得有必要單獨拿出來，畢竟這個問題挺常見的。具體可參看 numpy 官方文件。正文 numpy關於copy有三種情況，完全不復制

【python】pytorch中如何使用DataLoader對資料集進行批處理

第一步：我們要建立torch能夠識別的資料集型別（pytorch中也有很多現成的資料集型別，以後再說）。首先我們建立兩個向量X和Y，一個作為輸入的資料，一個作為正確的結果：隨後我們需要把X和Y組成一個完整的資料集，並轉化為pytorch能

【Python】list中刪除某個元素

1.remove: 刪除單個元素，刪除首個符合條件的元素，按值刪除舉例說明: >>> str=[1,2,3,4,5,2,6] >>> str.remove(2) >>> str [1, 3, 4, 5, 2, 6] 2.pop: &nb

【Python】numpy中的sum函式的使用

sum() 沒有axis引數表示全部資料相加 axis=0，表示按列相加 axis=1，表示按行相加 a = array([[1,2,3],[4,5,6]]) print(a) b = sum(a) print (b) c = sum(a, axis=0) print(

【Python】Python3 List 列表複製

程式碼： a = [1,2,3] b = a c = [] c = a d = a[:] a,b,c,d print("a,b,c,d：",a,b,c,d) print("id(a),id(b),

【python】執行中常見錯誤

builtins.AttributeErrorAttributeError: 'list' object has no attribute 'paginate'@app.route('/admin/')

【Python】Python3 字典 fromkeys()方法

描述 Python字典fromkeys()函式用於建立一個新字典，以序列seq中元素做字典的鍵，value為字典所有鍵對應的初始值。語法 fromkeys()方法語法： dict.fromke

【python】pycharm中新開啟一個專案都提示no python interpreter的解決辦法

一、前言：最近使用pycharm總是遇到這樣一個問題：每次開啟一個新的專案都會提示no python interpreter，意思是沒有找到python編譯器。具體表現方式就是：二

【Python】python3中urllib爬蟲開發

①First Method

②添加data,http header

③CookieJar

相關推薦