1. 程式人生 > >簡單爬蟲學習記錄

簡單爬蟲學習記錄

技術 RM block 管理 ffffff png size images 51cto

技術分享圖片

  • 實現思路解析:

爬蟲調度器:啟動/停止爬蟲,規定爬蟲的範圍;
URL管理器:管理2個URL:新的沒有爬過的urls;舊的爬過的urls;
URL下載器:下載url對應的html數據;
HTML解析器:解析並過濾下載到的html數據;
數據輸出器:把解析過濾後的數據,按一定的格式存儲到對應的文件中。

簡單爬蟲學習記錄