1. 程式人生 > >python爬蟲相關庫的下載配置

python爬蟲相關庫的下載配置

BeautifulSoup4 : 解析HTML

//安裝:
pip install beautifulsoup4

lxml : 解析HTML

1.安裝lxml:

pip install lxml

2.wheel下載

找到lxml的位置,會看到一系列.whl檔案,根據自己的Python版本和Windows版本選擇相應的檔案下載,

cp代表Python版本,cp35指Python3.5,win32指Windows32位,amd64指Windows64位。下載後不要修改檔名。

3.wheel安裝

pip install lxml-4.2.5-cp27-cp27m-win_amd64.whl

requests : HTTP庫

python實現的簡單易用的HTTP庫,使用起來比urllib簡潔很多

//安裝:
pip install requests

其他

pip版本

pip --version

pip版本過低進行升級

python -m pip install --upgrade pip

檢視python安裝的包:

pip list

python解析HTML的方式對比

抓取工具 速度 使用難度 安裝難度
正則 最快 困難 無(內建)
beautifulsoup 最簡單 簡單
lxml 簡單 一般

pycharm下載庫

注意: 除了使用easy_insatll和pip工具安裝Python第三方庫外還可以使用pycharm安裝Python第三方庫,步驟如下:

在這裡插入圖片描述

點選Install Package即可安裝此庫。

安裝scrapy

準備工作:下載 .whl 檔案

lxml-4.2.5-cp27-cp27m-win_amd64.whl

Twisted-18.9.0-cp27-cp27m-win_amd64.whl

在這裡插入圖片描述

在這裡插入圖片描述

注意:

根據自己的Python版本和Windows版本選擇相應的檔案下載,

cp代表Python版本,cp35指Python3.5,

win27指Windows27位,amd64指Windows64位。

下載後不要修改檔名。

//安裝lxml
pip install lxml
//進入到 lxml-4.2.5-cp27-cp27m-win_amd64.whl 目錄下:
pip install lxml-4.2.5-cp27-cp27m-win_amd64.whl

//安裝Twisted
//進入到 Twisted-18.9.0-cp27-cp27m-win_amd64.whl 目錄下:
pip install Twisted-18.9.0-cp27-cp27m-win_amd64.whl

安裝pywin32

注意:要跟python版本和windows版本一致:

64位系統選amd64 , python版本2.7選py2.7

安裝pyOpenSSL

pip install pyOpenSSL

安裝wheel

//首先安裝wheel
pip install wheel

//安裝完成後驗證是否成功
wheel

//https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml
//搜尋scrapy並下載,cmd到目錄進行安裝
pip install Scrapy-1.5.1-py2.py3-none-any.whl

在這裡插入圖片描述

安裝scrapy

首先scrapy的安裝之前需要安裝這個模組:

wheel、lxml、Twisted、pywin32,最後在安裝scrapy

pip install Scrapy

建立scrapy專案:

新建python專案:

在這裡插入圖片描述

在pycharm的terminal中輸入scrapy startproject module(自定義模組名)

在這裡插入圖片描述

建好後可檢視到專案結構
在這裡插入圖片描述