python爬蟲要用到的庫總結

阿新 • • 發佈：2020-07-29

python爬蟲要用到的庫：

請求庫：實現 HTTP 請求操作

urllib：一系列用於操作URL的功能。
requests：基於 urllib 編寫的，阻塞式 HTTP 請求庫，發出一個請求，一直等待伺服器響應後，程式才能進行下一步處理。
selenium：自動化測試工具。一個呼叫瀏覽器的 driver，通過這個庫你可以直接呼叫瀏覽器完成某些操作，比如輸入驗證碼。
aiohttp：基於 asyncio 實現的 HTTP 框架。非同步操作藉助於 async/await 關鍵字，使用非同步庫進行資料抓取，可以大大提高效率。
解析庫：從網頁中提取資訊
beautifulsoup：html 和 XML 的解析,從網頁中提取資訊，同時擁有強大的API和多樣解析方式。

pyquery：jQuery 的 Python 實現，能夠以 jQuery 的語法來操作解析 HTML 文件，易用性和解析速度都很好。
lxml：支援HTML和XML的解析，支援XPath解析方式，而且解析效率非常高。
tesserocr：一個 OCR 庫，在遇到驗證碼（圖形驗證碼為主）的時候，可直接用 OCR 進行識別。
儲存庫：Python 與資料庫互動
pymysql：一個純 Python 實現的 MySQL 客戶端操作庫。
pymongo：一個用於直接連線 mongodb 資料庫進行查詢操作的庫。
redisdump：一個用於 redis 資料匯入/匯出的工具。基於 ruby 實現的，因此使用它，需要先安裝 Ruby。

爬蟲框架
Scrapy：很強大的爬蟲框架，可以滿足簡單的頁面爬取（比如可以明確獲知url pattern的情況）。用這個框架可以輕鬆爬下來如亞馬遜商品資訊之類的資料。但是對於稍微複雜一點的頁面，如 weibo 的頁面資訊，這個框架就滿足不了需求了。
Crawley：高速爬取對應網站的內容，支援關係和非關係資料庫，資料可以匯出為 JSON、XML 等。
Portia：視覺化爬取網頁內容。
newspaper：提取新聞、文章以及內容分析。
python-goose：java 寫的文章提取工具。
cola：一個分散式爬蟲框架。專案整體設計有點糟，模組間耦合度較高。
Web框架庫

flask：輕量級的 web 服務程式，簡單，易用，靈活，主要來做一些 API 服務。做代理時可能會用到。
django：一個 web 伺服器框架，提供了一個完整的後臺管理，引擎、介面等，使用它可做一個完整網站。

觀點擴充套件：

學習爬蟲，最初的操作便是模擬瀏覽器向伺服器發出請求，那麼我們需要從哪個地方開始做起呢？請求需要我們自己來構造嗎？需要關心請求這個資料結構的實現嘛？需要了解HTTP、TCP、IP層的網路傳輸通訊嗎？需要直到伺服器的響應和應答原理嗎？

可能你對這些根本不瞭解，也沒辦法下手。但是沒關係，python為我們提供了功能齊全的類庫來幫助我們完成這些請求。最基礎的HTTP庫有urllib、requests、treq等。

以urllib為例，有了它，我們只需要關心請求的連線是什麼。需要傳的引數是什麼，以及如何設定可選的請求頭就好了，不用深入到底層去了解它到底是怎樣傳輸和通訊的。有了它，兩行程式碼就可以完成一個請求和相應的處理過程，得到網頁內容，是不是感覺方便極了？

以上就是python爬蟲要用到的庫總結的詳細內容，更多關於python爬蟲要用到哪些庫的資料請關注我們其它相關文章！

python爬蟲要用到的庫總結

python爬蟲要用到的庫：請求庫：實現 HTTP 請求操作 urllib：一系列用於操作URL的功能。

python安裝讀取grib庫總結(推薦)

無論安裝以下哪種庫，強烈建議在新環境下安裝，之前在base環境下安裝各種報錯！！！如何在新環境下安裝可參見我之前的總結或網上其他文章。

Python 爬蟲中 wad庫的‘gbk‘編碼問題

Python 爬蟲中 wad庫的\'gbk\'編碼問題最近開始學習python的爬蟲。在呂雲翔等編寫的Python網路爬蟲-從入門到精通一書之中，在介紹檢視網站所用的技術時，提到了使用wad庫的方法。但我在使用的過程中

10-python爬蟲之lxml庫

lxml 是一種使用 Python 編寫的庫,可以迅速、靈活地處理 XML ，支援 XPath (XML Path Language)

Python爬蟲之Selenium庫的使用方法

Selenium是一個用於Web應用程式測試的工具。Selenium測試直接執行在瀏覽器中，就像真正的使用者在操作一樣。支援的瀏覽器包括IE（7,8,9,10,11），Mozilla Firefox，Safari，Google Chrome，Opera等。這個工具的主要功

Python爬蟲中最重要、最常見、一定要熟練掌握的庫

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

常用python爬蟲庫介紹與簡要說明

這個列表包含與網頁抓取和資料處理的Python庫 python網路庫通用 urllib -網路庫(stdlib)。

使用Python爬蟲庫requests傳送請求、傳遞URL引數、定製headers

首先我們先引入requests模組 import requests 一、傳送請求 r = requests.get(\'https://api.github.com/events\') # GET請求

Python爬蟲庫requests獲取響應內容、響應狀態碼、響應頭

首先在程式中引入Requests模組 import requests 一、獲取不同型別的響應內容在傳送請求後，伺服器會返回一個響應內容，而且requests通常會自動解碼響應內容

使用Python爬蟲庫requests傳送表單資料和JSON資料

匯入Python爬蟲庫Requests import requests 一、傳送表單資料要傳送表單資料，只需要將一個字典傳遞給引數data

Python爬蟲庫BeautifulSoup的介紹與簡單使用例項

一、介紹 BeautifulSoup庫是靈活又方便的網頁解析庫，處理高效，支援多種解析器。利用它不用編寫正則表示式即可方便地實現網頁資訊的提取。

使用Python爬蟲庫BeautifulSoup遍歷文件樹並對標籤進行操作詳解

下面就是使用Python爬蟲庫BeautifulSoup對文件樹進行遍歷並對標籤進行操作的例項，都是最基礎的內容

Python爬蟲庫BeautifulSoup獲取物件(標籤)名,屬性,內容,註釋

一、Tag(標籤)物件 1.Tag物件與XML或HTML原生文件中的tag相同。 from bs4 import BeautifulSoup

python爬蟲庫scrapy簡單使用例項詳解

最近因為專案需求，需要寫個爬蟲爬取一些題庫。在這之前爬蟲我都是用node或者php寫的。一直聽說python寫爬蟲有一手，便入手了python的爬蟲框架scrapy.

python爬蟲開發之使用python爬蟲庫requests，urllib與今日頭條搜尋功能爬取搜尋內容例項

使用python爬蟲庫requests，urllib爬取今日頭條街拍美圖程式碼均有註釋 import re,json,requests,os

python爬蟲開發之使用Python爬蟲庫requests多執行緒抓取貓眼電影TOP100例項

使用Python爬蟲庫requests多執行緒抓取貓眼電影TOP100思路：檢視網頁原始碼抓取單頁內容

Python爬蟲requests庫多種用法例項

requests安裝和使用　　下載安裝：pip install requests #requests模組 import requests #傳送請求 content:以二進位制的形式獲取網頁的內容

詳解用Python爬蟲獲取百度企業信用中企業基本資訊

一、背景希望根據企業名稱查詢其經緯度，所在的省份、城市等資訊。直接將企業名稱傳給百度地圖提供的API，得到的經緯度是非常不準確的，因此希望獲取企業完整的地理位置，這樣傳給API後結果會更加準確。

Python 爬蟲乾貨之urllib庫

1. 小試牛刀怎樣扒網頁呢？其實就是根據URL來獲取它的網頁資訊，雖然我們在瀏覽器中看到的是一幅幅優美的畫面，但是其實是由瀏覽器解釋才呈現出來的，實質它是一段HTML程式碼，加 JS、CSS，如果把網頁比作一個人，

但是上述介面的params變數無法在Python中實現，只能採用RESTFul形式，傳遞的引數一定要用JSON格式

LiveBos的WSDL模式下有通用的介面 1 execBizProcess(xs:string sessionId, xs:string bizProcessName, xs:string id, lbParameter[] params, lbParameter[] variables, )