網頁資料壓縮(python deflate gzip)，解壓縮

阿新 • • 發佈：2019-01-06

在寫爬蟲抓取網頁時，通過下面程式碼可以將網頁程式碼抓取回來，一般直接就是HTML的相關網頁程式碼。

data = urllib2.urlopen(url).read()

但有時，返回的是一些看不懂的資料。

這是通過Fiddler抓取回來的資料，其實在上面這個截圖中就可以看到，這個資料是被encoded過的，點選Response body is encoded.Click to decode.即可解密：

deocde後，就可以看到HTML程式碼：

其實，這些資料是被壓縮過的，而網頁壓縮一般有2種方式：

deflate 和 gzip，但實際上deflate已經比較過時了。

在通過爬蟲抓取後，需要對資料進行解壓縮，才能看到相應的網頁程式碼，這時，可以通過下面的python程式碼進行解壓縮：

import urllib2
from gzip import GzipFile
from StringIO import StringIO
import zlib

def loadData(url):
    request = urllib2.Request(url)
    request.add_header('Accept-encoding', 'gzip,deflate')
    response = urllib2.urlopen(request)
    content = response.read()
    encoding = response.info().get('Content-Encoding')
    if encoding == 'gzip':
        content = gzip(content)
    elif encoding == 'deflate':
        content = deflate(content)
    return content

def gzip(data):
    buf = StringIO(data)
    f = gzip.GzipFile(fileobj=buf)
    return f.read()

def deflate(data):
    try:
        return zlib.decompress(data, -zlib.MAX_WBITS)
    except zlib.error:
        return zlib.decompress(data)

def main():
    url = "http://www.xxx.com/"
    content = loadData(url)
    print content

if __name__ == '__main__':
    main()

網頁資料壓縮(python deflate gzip)，解壓縮

在寫爬蟲抓取網頁時，通過下面程式碼可以將網頁程式碼抓取回來，一般直接就是HTML的相關網頁程式碼。data = urllib2.urlopen(url).read()但有時，返回的是一些看不懂的資料。這是通過Fiddler抓取回來的資料，其實在上面這個截圖中就可以看到，這個資

網路爬蟲--網頁資料壓縮(python deflate gzip)

轉自：http://www.jianshu.com/p/2c2781462902 做專案就伴隨著一個問題--資料來源。在網路資料獲取的過程，考慮到資料的動態下載需要爬蟲。這也是必經之路吧。我在運用urllib2做相當簡單的爬蟲入門實驗的時候，出現編碼以及壓縮等問題。這一

zlib gzip http gizp 壓縮，解壓縮 isize 記憶體分配

最近做http的專案時遇到了關於gzip解壓的問題。說下問題： http服務端通過gzip方式壓縮的內容，需要對其進行解壓。問題來了：壓縮後的內容B解壓後為A，解壓後的大小A最大可以達到5MB，但是一般來說只有幾百KB。解壓：查看了 http://zlib.n

gzip，zip壓縮格式和png影象格式的本質壓縮演算法----DEFLATE及其實現:zlib

"Deflate" redirects here. For other uses, see Deflation (disambiguation). In computing, DEFLATE is a lossless data compression algorithm and associated

linux中 gzip bizp2 xz zip怎麼用，解壓縮

linux 中常用的壓縮指令壓縮 gzip bzip2 xz ，解壓gunzip unxz bunzip2 解壓對應的壓縮包 *.tar.gz *.tar.xz *.tar.bz2（由於 compress 效率底下，已經丟棄不用啦) 選項

通過調用支付寶查詢對賬單接口返回bill_download_url下載zip，解壓縮

read new edi p2s turn zipentry path public ipa 通過url下載zip對賬單文件，進行解壓。讀取壓縮文件內容 import java.io.BufferedOutputStream; import java.io.Buffer

tar、zip、gzip等解壓縮命令

解壓縮tar命令：壓縮：tar cf 壓縮後的文件名.tar.gz 壓縮前的文件或者目錄解壓：tar xf 壓縮後的文件名.tar.gz查看壓縮裏的內容：tar tf 壓縮後的文件名.tar.gz zip命令：壓縮目錄：zip –r /opt/etc.zip /etc 解壓：unzip /opt/etc.

馬哥學習-----李洋個人筆記之壓縮，解壓縮及歸檔

壓縮解壓縮歸檔 compress 文件名-v 詳細信息 -d 等於 uncompress 默認只識別 .Z 如果使用別的後綴，會導致不識別，解壓縮失敗。也可以使用 -d -c 壓縮包 > 解壓縮的形式,解壓被改了後綴的壓縮包.這種方式不會覆蓋源文件.優點是這種方式不會覆蓋源文件.缺點是

Linux基礎知識【網路管理，解壓縮】

Linux基礎知識目錄 1、VI文字編輯器... 1 2、網路管理... 4 2.1、ifconfig命令... 4 2.2、網路配置... 4 2.3、修改主機名... 8 2.4、配置主機對映（域名和IP對映）... 8 2.5、其他常用網路管理命令... 9

Linux下tar壓縮，解壓縮詳細命令

tar -c: 建立壓縮檔案 -x：解壓 -t：檢視內容 -r：向壓縮歸檔檔案末尾追加檔案 -u：更新原壓縮包中的檔案這五個是獨立的命令，壓縮解壓都要用到其中一個，可以和別的命令連用但只能用其中一個。下面的引數是根據需要在壓縮或解壓檔案時可選的。 -z：有gzip屬性的 -j：有bz2

tar---打包，解壓縮linux的檔案和目錄

tar命令可以為linux的檔案和目錄建立檔案。利用tar，可以為某一特定檔案建立檔案（備份檔案），也可以在檔案中改變檔案，或者向檔案中加入新的檔案。tar最初被用來在磁帶上建立檔案，現在，使用者可以在任何裝置上建立檔案。利用tar命令，可以把一大堆的檔案和目錄全部打包成一個檔案，這對於備份檔案或將幾個檔案組

tar---打包，解壓縮linux的文件和目錄

並且 perm target 文件備份 -name xtra 備份文件 creat 14. tar命令可以為linux的文件和目錄創建檔案。利用tar，可以為某一特定文件創建檔案（備份文件），也可以在檔案中改變文件，或者向檔案中加入新的文件。tar最初被用來在磁帶上創建檔案

python通過zlib實現壓縮檔案內容(str)，和解壓縮還原檔案內容

#!/usr/bin/env.python # -*- coding: utf-8 -*- import zlib ''' 壓縮infile檔案內容，寫入dst檔案中 ''' def compres

TAR GZ 壓縮，解壓縮命令

01-.tar格式解包：[＊＊＊＊＊＊＊]$ tar xvf FileName.tar 打包：[＊＊＊＊＊＊＊]$ tar cvf FileName.tar DirName（注：tar是打包，不是壓縮！） 02-.gz格式解壓1：[＊＊＊＊＊＊＊]$ gunzip Fi

壓縮，解壓縮

壓縮格式：gz , bz2, xz, zip ,Z壓縮演算法：演算法不同，壓縮比也會不同最流行壓縮xz , bz2 , gzgzip ： .gzgzip /PATH/TO/SOMEFILE：壓縮完成後會刪除原檔案-d：解壓縮-#：1-9，指定壓縮比，預設為6gunzip gunzip /PATH/TO/SOM

Apache啟用效能優化——啟用Gzip，JS壓縮

#Add deflate module for enable GZIP function LoadModule deflate_module modules/mod_deflate.so #Add GZIP config filetype AddOutputFilt

Maven 打包，Resource下有jar包，整個工程打包成war包，解壓縮war包發現原先Resource下jar包打不開解決辦法

Maven 工具使用問題描述： Maven 打包，Resource下有jar包，整個工程打包成war包，解壓縮war包發現原先Resource下jar包打不開出現如下資訊：解決辦法： maven 打包修改pom.xml 主體思想，打包的時候不壓縮Resou

4周第4次課壓縮打包介紹 gzip bzip2 xz壓縮工具

壓縮打包介紹 gzip bzip2 xz壓縮工具壓縮打包介紹壓縮的目的是為了節約磁盤空間、節約帶寬提高傳輸效率，也利於文件的管理。常見壓縮文件平臺類型/後綴Windows.rar .zip .7zLinux.zip .gz .bz2 .xz .tar.bz2 .tar.xz常見壓縮工具和壓縮比率gzip &l

【Linux】【二】linux 壓縮文件（txt）、查看壓縮文件內容、解壓縮文件、

str tool div png gun medium spa clas info 通過Xshell 壓縮文件、解壓縮文件 gzip　　tools.txt　　　　　　　　壓縮【tools.txt】文件 zcat　　tools.txt.gz　　　　　　查看壓縮文件

壓縮打包介紹 gzip bzip2 xz壓縮工具

gzip bzip2 xz一、壓縮打包介紹壓縮打包文件對磁盤來講，節省空間，對傳輸來講，傳輸速度變短，帶寬資源耗費減少二、gzip壓縮工具#find /etc/ -type f -name "*.conf" -exec cat {} >> 1.txt \;// 查找

網頁資料壓縮(python deflate gzip)，解壓縮

相關推薦