Heritrix3.0教程使用入門(一) 下載安裝與執行

阿新 • • 發佈：2019-01-11

本部落格屬原創文章,轉載請註明出處:http://www.yun5u.com/articles/heritrix3-1.html

Heritrix3.0.0在2009年底釋出,但資料甚少.我這裡就先拋磚引用,以前也分析過Heritrix1.4.3,但只是原始碼,不繫統.這裡就係統的介紹Heritrix的使用,原始碼分析和借鑑.先介紹Heritrix的下載與使用吧.

這裡大家可以看下README.TXT檔案.這裡面有對Heritrix基本的介紹.

2.下面開始使用Heritrix3.0.0

進入CMD(開始->執行),進入Heritrix3.0.0所在目錄,我這裡是D:/heritrix/heritrix3.0.0/bin,這裡大家截圖也可以看到.輸入以下命令:heritrix -a admin:admin,這裡會跳出一個cmd,截圖如下:

就表示你已經啟動Heririx成功,然後在瀏覽器裡輸入,https://localhost:8443(注意,是https,不是http).由於Heritrix3.0.0已通過https登入,使用者名稱跟密碼就是以上輸入的admin:admin.所以不同於早期版本,我這裡用的是火狐瀏覽器,介面可能如下

ie等可能不一樣.然後點選我已充分了解可能的風險,點新增例外,再輸入使用者名稱跟密碼,也就是剛才的admin,admin後,便可以進入Heritrix3.0.0 web介面了.大概如下:

出現以上介面,就表示你可以使用Heritrix去抓取資料了,但這裡還需配置Job,也就是抓取任務.

這裡先大概介紹下介面:

Memory 表示記憶體使用情況
Jobs Directory:表示抓取job目錄,預設是Heritrix_home/jobs
rescan按鈕表示掃描jobs目錄,目錄有改動,也就是抓取任務有增加或者刪除,這裡則都會顯示
create按鈕表示建立一個Job
add按鈕表示新增一個已經存在的job,這裡是輸入這個job所在的路徑

好了,這裡基本上可以下載並使用Heririx了.下一篇則介紹如何配置CrawlJob,也就是抓取任務去抓取資料.

Heritrix3.0教程使用入門(一) 下載安裝與執行

Heritrix3.0教程使用入門(一) 下載安裝與執行

kafka入門一：安裝與使用

Python3入門筆記 —— windows安裝與執行

Nginx初學（一）安裝與執行

【Kibana6.3.0】Kibana6入門小白教程之下載安裝與資料準備

【Source教程】3DsMax SMD Plugin的下載安裝與使用方法

網絡爬蟲學習軟件篇-Python(一)下載安裝（超詳細教程,傻瓜式說明）

ElasticSearch教程（一）——簡介與安裝

Kaldi學習筆記（一）——Kaldi的下載安裝與編譯

Ubuntu系統Anaconda下載安裝與切換源教程

JDK11 JAVA11下載安裝與快速配置環境變數教程

【opencv學習筆記一】opencv下載安裝與VS2017開發環境配置

android開發（0）：android studio的下載安裝與簡單使用 | sdk的安裝與編譯

skywalking8.1.0（一）安裝與部署

Django入門一之安裝

JDK的下載安裝與環境變量配置

.NET中使用Redis之ServiceStack.Redis學習（一）安裝與簡單的運行

Intellij idea史上最簡單的教程之Linux下安裝與破解Intellij idea2017

[Web][DreamweaverCS6][高中同學畢業分布去向網站+服務器上掛載]一、安裝與破解DreamweaverCS6+基本規劃

python3.5+django2.0快速入門(一)

Heritrix3.0教程 使用入門(一) 下載安裝與執行

相關推薦

Heritrix3.0教程使用入門(一) 下載安裝與執行