1. 程式人生 > 其它 >Python爬蟲實戰入門一:工具準備(轉載)

Python爬蟲實戰入門一:工具準備(轉載)

一、基礎知識

使用Python編寫爬蟲,當然至少得了解Python基本的語法,瞭解:

  • 基本資料結構
  • 資料型別
  • 控制流
  • 函式的使用
  • 模組的使用

不需要過多過深的Python知識,僅此而已。
個人推薦《Python簡明教程》http://www.kuqin.com/abyteofpython_cn/(本人沒找到)

Python官方的《Python教程》http://python.usyiyi.cn/translate/python_352/tutorial/index.html
如果需要PDF版Python入門資料,可以關注我的微信公眾號:州的先生,回覆關鍵字:python入門資料

二、開發環境、

  • 作業系統:Windows 7
  • Python版本:Python 3.4
  • 程式碼編輯執行環境:個人推薦PyCharm社群版,當然,Python自帶的IDLE也行,Notepad++亦可,只要自己使用得習慣。

三、第三方依賴庫

  • requests:一個方便、簡潔、高效且人性化的HTTP請求庫
  • BeautifulSoup:HTML解析庫
  • pymongo:MongoDB的Python封裝模組
  • selenium:一個Web自動化測試框架,用於模擬登入和獲取JS動態資料
  • pytesseract:一個OCR識別模組,用於驗證碼識別
  • Pillow:Python影象處理模組

四、第三方庫安裝:

上面列出的第三方模組大多可以通過pip install ××的方式直接安裝,部分模組安裝方式不一樣,下面一一演示:
requests
pip install requests

BeautifulSoup

pip install bs4

pymongo

pip install pymongo

selenium

pip install selenium

Pillow

1、開啟http://www.lfd.uci.edu/~gohlke/pythonlibs/
2、搜尋找到“pillow”
3、根據自己系統的版本選擇對應的下載包

4、安裝

pip install Pillow‑4.0.0‑cp34‑cp34m‑win32.whl

本人用的:pip install Pillow

pytesseract
1、pip install pytesseract

2、安裝tesseract
下載並安裝:

https://tesseract-ocr.googlecode.com/files/tesseract-ocr-setup-3.02.02.exe

這樣,我們的準備工作就基本完成,如果有另外的需求,在實戰中再進行安裝,接下來就可以實戰Python爬蟲了。