1. 程式人生 > >Heritrix3.0教程 使用入門(一) 下載安裝與執行

Heritrix3.0教程 使用入門(一) 下載安裝與執行

本部落格屬原創文章,轉載請註明出處:http://www.yun5u.com/articles/heritrix3-1.html

Heritrix3.0.0在2009年底釋出,但資料甚少.我這裡就先拋磚引用,以前也分析過Heritrix1.4.3,但只是原始碼,不繫統.這裡就係統的介紹Heritrix的使用,原始碼分析和借鑑.先介紹Heritrix的下載與使用吧.

這裡大家可以看下README.TXT檔案.這裡面有對Heritrix基本的介紹.

2.下面開始使用Heritrix3.0.0

進入CMD(開始->執行),進入Heritrix3.0.0所在目錄,我這裡是D:/heritrix/heritrix3.0.0/bin,這裡大家截圖也可以看到.輸入以下命令:heritrix -a admin:admin,這裡會跳出一個cmd,截圖如下:

就表示你已經啟動Heririx成功,然後在瀏覽器裡輸入,https://localhost:8443(注意,是https,不是http).由於Heritrix3.0.0已通過https登入,使用者名稱跟密碼就是以上輸入的admin:admin.所以不同於早期版本,我這裡用的是火狐瀏覽器,介面可能如下

ie等可能不一樣.然後點選我已充分了解可能的風險,點新增例外,再輸入使用者名稱跟密碼,也就是剛才的admin,admin後,便可以進入Heritrix3.0.0 web介面了.大概如下:

出現以上介面,就表示你可以使用Heritrix去抓取資料了,但這裡還需配置Job,也就是抓取任務.

這裡先大概介紹下介面:

  1. Memory 表示記憶體使用情況
  2. Jobs Directory:表示抓取job目錄,預設是Heritrix_home/jobs
  3. rescan按鈕表示掃描jobs目錄,目錄有改動,也就是抓取任務有增加或者刪除,這裡則都會顯示
  4. create按鈕表示建立一個Job
  5. add按鈕表示新增一個已經存在的job,這裡是輸入這個job所在的路徑

好了,這裡基本上可以下載並使用Heririx了.下一篇則介紹如何配置CrawlJob,也就是抓取任務去抓取資料.