1. 程式人生 > >Python爬蟲(一):基本概念

Python爬蟲(一):基本概念

popu 通用 字符 spider dai 自身 部分 螞蟻 people

網絡爬蟲的定義

網絡爬蟲(Web Spider。又被稱為網頁蜘蛛。網絡機器人,又稱為網頁追逐者),是一種依照一定的規則,自己主動的抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻,自己主動索引。模擬程序或者蠕蟲。假設把互聯網比喻成一個蜘蛛網,那麽Spider就是在網上爬來爬去的蜘蛛。

網絡蜘蛛是通過網頁的鏈接地址來尋找網頁的。從站點某一個頁面(一般是首頁)開始,讀取網頁的內容。找到在網頁中的其他鏈接地址。然後通過這些鏈接地址尋找下一個網頁。這樣一直循環下去,直到把這個站點全部的網頁都抓取完為止。假設把整個互聯網當成一個站點。那麽網絡蜘蛛就能夠用這個原理把互聯網上全部的網頁都抓取下來。這樣看來,網絡爬蟲就是一個爬行程序,一個抓取網頁的程序。

簡單地說,網絡爬蟲的基本任務就是抓取網頁內容

URL概念

抓取網頁的過程事實上和讀者平時使用IE瀏覽器瀏覽網頁的道理是一樣的。比方說你在瀏覽器的地址欄中輸入 www.baidu.com 這個地址。

打開網頁的過程事實上就是瀏覽器作為一個瀏覽的“client”,向server端發送了 一次請求,把server端的文件“抓”到本地,再進行解釋、展現。HTML是一種標記語言。用標簽標記內容並加以解析和區分。瀏覽器的功能是將獲取到的HTML代碼進行解析,然後將原始的代碼轉變成我們直接看到的站點頁面。


在理解URL之前,首先要理解URI的概念

Web上每種可用的資源,如 HTML文檔、圖像、視頻片段、程序等都由一個通用資源標誌符(Universal Resource Identifier, URI)進行定位。 URI通常由三部分組成:
①訪問資源的命名機制;
②存放資源的主機名。
③資源自身 的名稱。由路徑表示。
如URI:http://www.baidu.com.cn/myhtml/html1223/,我們能夠這樣解釋它:
①這是一個能夠通過HTTP協議訪問的資源,
②位於主機www.baidu.com.cn上,
③通過路徑“/html/html40”訪問。

URL的概念 URL是URI的一個子集。它是Uniform Resource Locator的縮寫,譯為“統一資源定位 符”。

通俗地說。URL是Internet上描寫敘述信息資源的字符串,主要用在各種WWW客戶程序和server程序上。採用URL能夠用一種統一的格式來描寫敘述各種信息資源,包含文件、server的地址和文件夾等。


URL演示樣例

1.HTTP協議的URL演示樣例:
使用超級文本傳輸協議HTTP,提供超級文本信息服務的資源。

例:http://www.peopledaily.com.cn/channel/welcome.htm
其計算機域名為www.peopledaily.com.cn。
超級文本文件(文件類型為.html)是在文件夾 /channel下的welcome.htm。
這是中國人民日報的一臺計算機。


例:http://www.rol.cn.net/talk/talk1.htm
其計算機域名為www.rol.cn.net。


超級文本文件(文件類型為.html)是在文件夾/talk下的talk1.htm。
這是瑞得聊天室的地址,可由此進入瑞得聊天室的第1室。


2.文件的URL
用URL表示文件時。server方式用file表示,後面要有主機IP地址、文件的存取路 徑(即文件夾)和文件名稱等信息。
有時能夠省略文件夾和文件名稱。但“/”符號不能省略。


例:file://ftp.yoyodyne.com/pub/files/foobar.txt
上面這個URL代表存放在主機ftp.yoyodyne.com上的pub/files/文件夾下的一個文件,文件名稱是foobar.txt。


例:file://ftp.yoyodyne.com/pub
代表主機ftp.yoyodyne.com上的文件夾/pub。


例:file://ftp.yoyodyne.com/
代表主機ftp.yoyodyne.com的根文件夾。

Python爬蟲(一):基本概念