Python爬蟲實戰入門一:工具準備(轉載)
一、基礎知識
使用Python編寫爬蟲,當然至少得了解Python基本的語法,瞭解:
- 基本資料結構
- 資料型別
- 控制流
- 函式的使用
- 模組的使用
不需要過多過深的Python知識,僅此而已。
個人推薦《Python簡明教程》http://www.kuqin.com/abyteofpython_cn/(本人沒找到)
Python官方的《Python教程》http://python.usyiyi.cn/translate/python_352/tutorial/index.html
如果需要PDF版Python入門資料,可以關注我的微信公眾號:州的先生,回覆關鍵字:python入門資料
二、開發環境、
- 作業系統:Windows 7
- Python版本:Python 3.4
- 程式碼編輯執行環境:個人推薦PyCharm社群版,當然,Python自帶的IDLE也行,Notepad++亦可,只要自己使用得習慣。
三、第三方依賴庫
- requests:一個方便、簡潔、高效且人性化的HTTP請求庫
- BeautifulSoup:HTML解析庫
- pymongo:MongoDB的Python封裝模組
- selenium:一個Web自動化測試框架,用於模擬登入和獲取JS動態資料
- pytesseract:一個OCR識別模組,用於驗證碼識別
- Pillow:Python影象處理模組
四、第三方庫安裝:
上面列出的第三方模組大多可以通過pip install ××的方式直接安裝,部分模組安裝方式不一樣,下面一一演示:
requestspip install requests
BeautifulSoup
pip install bs4
pymongo
pip install pymongo
selenium
pip install selenium
Pillow
1、開啟http://www.lfd.uci.edu/~gohlke/pythonlibs/
2、搜尋找到“pillow”
3、根據自己系統的版本選擇對應的下載包
pip install Pillow‑4.0.0‑cp34‑cp34m‑win32.whl
本人用的:pip install Pillow
pytesseract
1、pip install pytesseract
2、安裝tesseract
下載並安裝:
這樣,我們的準備工作就基本完成,如果有另外的需求,在實戰中再進行安裝,接下來就可以實戰Python爬蟲了。