Python爬蟲（一）：基本概念

阿新 • • 發佈：2017-07-10

popu 通用字符 spider dai 自身部分螞蟻 people

網絡爬蟲的定義

網絡爬蟲（Web Spider。又被稱為網頁蜘蛛。網絡機器人，又稱為網頁追逐者），是一種依照一定的規則，自己主動的抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻，自己主動索引。模擬程序或者蠕蟲。假設把互聯網比喻成一個蜘蛛網，那麽Spider就是在網上爬來爬去的蜘蛛。

網絡蜘蛛是通過網頁的鏈接地址來尋找網頁的。從站點某一個頁面（一般是首頁）開始，讀取網頁的內容。找到在網頁中的其他鏈接地址。然後通過這些鏈接地址尋找下一個網頁。這樣一直循環下去，直到把這個站點全部的網頁都抓取完為止。假設把整個互聯網當成一個站點。那麽網絡蜘蛛就能夠用這個原理把互聯網上全部的網頁都抓取下來。這樣看來，網絡爬蟲就是一個爬行程序，一個抓取網頁的程序。

簡單地說，網絡爬蟲的基本任務就是抓取網頁內容。

URL概念

抓取網頁的過程事實上和讀者平時使用IE瀏覽器瀏覽網頁的道理是一樣的。比方說你在瀏覽器的地址欄中輸入 www.baidu.com 這個地址。

打開網頁的過程事實上就是瀏覽器作為一個瀏覽的“client”，向server端發送了一次請求，把server端的文件“抓”到本地，再進行解釋、展現。HTML是一種標記語言。用標簽標記內容並加以解析和區分。瀏覽器的功能是將獲取到的HTML代碼進行解析，然後將原始的代碼轉變成我們直接看到的站點頁面。

在理解URL之前，首先要理解URI的概念

。
Web上每種可用的資源，如 HTML文檔、圖像、視頻片段、程序等都由一個通用資源標誌符(Universal Resource Identifier， URI)進行定位。 URI通常由三部分組成：
①訪問資源的命名機制；
②存放資源的主機名。
③資源自身的名稱。由路徑表示。
如URI：http://www.baidu.com.cn/myhtml/html1223/，我們能夠這樣解釋它：
①這是一個能夠通過HTTP協議訪問的資源，
②位於主機www.baidu.com.cn上，
③通過路徑“/html/html40”訪問。

URL的概念 URL是URI的一個子集。它是Uniform Resource Locator的縮寫，譯為“統一資源定位符”。

通俗地說。URL是Internet上描寫敘述信息資源的字符串，主要用在各種WWW客戶程序和server程序上。採用URL能夠用一種統一的格式來描寫敘述各種信息資源，包含文件、server的地址和文件夾等。

URL演示樣例

1.HTTP協議的URL演示樣例：
使用超級文本傳輸協議HTTP，提供超級文本信息服務的資源。

例：http://www.peopledaily.com.cn/channel/welcome.htm
其計算機域名為www.peopledaily.com.cn。
超級文本文件(文件類型為.html)是在文件夾 /channel下的welcome.htm。
這是中國人民日報的一臺計算機。

例：http://www.rol.cn.net/talk/talk1.htm
其計算機域名為www.rol.cn.net。

超級文本文件(文件類型為.html)是在文件夾/talk下的talk1.htm。
這是瑞得聊天室的地址，可由此進入瑞得聊天室的第1室。

2．文件的URL
用URL表示文件時。server方式用file表示，後面要有主機IP地址、文件的存取路徑(即文件夾)和文件名稱等信息。
有時能夠省略文件夾和文件名稱。但“/”符號不能省略。

例：file://ftp.yoyodyne.com/pub/files/foobar.txt
上面這個URL代表存放在主機ftp.yoyodyne.com上的pub/files/文件夾下的一個文件，文件名稱是foobar.txt。

例：file://ftp.yoyodyne.com/pub
代表主機ftp.yoyodyne.com上的文件夾/pub。

例：file://ftp.yoyodyne.com/
代表主機ftp.yoyodyne.com的根文件夾。

Python爬蟲（一）：基本概念

popu 通用字符 spider dai 自身部分螞蟻 people 網絡爬蟲的定義網絡爬蟲（Web Spider。又被稱為網頁蜘蛛。網絡機器人，又稱為網頁追逐者），是一種依照一定的規則，自己主動的抓取萬維網信息的程序或者腳本。另外一些不常使用

Python爬蟲（一）：基本概念

網絡爬蟲的定義

URL概念

Python爬蟲（一）：基本概念

Python爬蟲（一）：編寫簡單爬蟲之新手入門

各種音視訊編解碼學習詳解之編解碼學習筆記（一）：基本概念

JVM調優總結（一）：基本概念

iOS/OS X記憶體管理（一）：基本概念與原理

VxWorks6.6 pcPentium BSP 使用說明（一）：基本概念

GCD教程（一）：基本概念

Python爬蟲（一）：爬蟲偽裝

[Python]網路爬蟲（一）：抓取網頁的含義和URL基本構成

小白學 Python 爬蟲（2）：前置準備（一）基本類庫的安裝

Python地理位置資訊庫geopy的使用（一）：基本使用

python手記（五）：requests寫爬蟲（一）：爬蟲簡介

Python-OpenCV 處理影象（一）：基本操作 cv2

python爬蟲（一）urllib庫基本使用

Python學習筆記（一）：基本資料型別

Python-OpenCV 處理影象（一）：基本操作

網路爬蟲（一）：爬蟲的含義和URL基本構成——（瞭解）

小白學 Python 爬蟲（11）：urllib 基礎使用（一）

小白學 Python 爬蟲（33）：爬蟲框架 Scrapy 入門基礎（一）

python爬蟲（一）

Python爬蟲（一）：基本概念

網絡爬蟲的定義

URL概念

相關推薦