python爬蟲相關庫的下載配置
阿新 • • 發佈:2019-01-08
BeautifulSoup4 : 解析HTML
//安裝:
pip install beautifulsoup4
lxml : 解析HTML
1.安裝lxml:
pip install lxml
2.wheel下載
找到lxml的位置,會看到一系列.whl檔案,根據自己的Python版本和Windows版本選擇相應的檔案下載,
cp代表Python版本,cp35指Python3.5,win32指Windows32位,amd64指Windows64位。下載後不要修改檔名。
3.wheel安裝
pip install lxml-4.2.5-cp27-cp27m-win_amd64.whl
requests : HTTP庫
python實現的簡單易用的HTTP庫,使用起來比urllib簡潔很多
//安裝:
pip install requests
其他
pip版本
pip --version
pip版本過低進行升級
python -m pip install --upgrade pip
檢視python安裝的包:
pip list
python解析HTML的方式對比
抓取工具 | 速度 | 使用難度 | 安裝難度 |
---|---|---|---|
正則 | 最快 | 困難 | 無(內建) |
beautifulsoup | 慢 | 最簡單 | 簡單 |
lxml | 快 | 簡單 | 一般 |
pycharm下載庫
注意: 除了使用easy_insatll和pip工具安裝Python第三方庫外還可以使用pycharm安裝Python第三方庫,步驟如下:
點選Install Package即可安裝此庫。
安裝scrapy
準備工作:下載 .whl 檔案
lxml-4.2.5-cp27-cp27m-win_amd64.whl
Twisted-18.9.0-cp27-cp27m-win_amd64.whl
注意:
根據自己的Python版本和Windows版本選擇相應的檔案下載,
cp代表Python版本,cp35指Python3.5,
win27指Windows27位,amd64指Windows64位。
下載後不要修改檔名。
//安裝lxml pip install lxml //進入到 lxml-4.2.5-cp27-cp27m-win_amd64.whl 目錄下: pip install lxml-4.2.5-cp27-cp27m-win_amd64.whl //安裝Twisted //進入到 Twisted-18.9.0-cp27-cp27m-win_amd64.whl 目錄下: pip install Twisted-18.9.0-cp27-cp27m-win_amd64.whl
安裝pywin32
注意:要跟python版本和windows版本一致:
64位系統選amd64 , python版本2.7選py2.7
安裝pyOpenSSL
pip install pyOpenSSL
安裝wheel
//首先安裝wheel
pip install wheel
//安裝完成後驗證是否成功
wheel
//https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml
//搜尋scrapy並下載,cmd到目錄進行安裝
pip install Scrapy-1.5.1-py2.py3-none-any.whl
安裝scrapy
首先scrapy的安裝之前需要安裝這個模組:
wheel、lxml、Twisted、pywin32,最後在安裝scrapy
pip install Scrapy
建立scrapy專案:
新建python專案:
在pycharm的terminal中輸入scrapy startproject module(自定義模組名)
建好後可檢視到專案結構