1. 程式人生 > 程式設計 >小白學 Python 爬蟲(8):網頁基礎

小白學 Python 爬蟲(8):網頁基礎

人生苦短,我用 Python

前文傳送門:

小白學 Python 爬蟲(1):開篇

小白學 Python 爬蟲(2):前置準備(一)基本類庫的安裝

小白學 Python 爬蟲(3):前置準備(二)Linux基礎入門

小白學 Python 爬蟲(4):前置準備(三)Docker基礎入門

小白學 Python 爬蟲(5):前置準備(四)資料庫基礎

小白學 Python 爬蟲(6):前置準備(五)爬蟲框架的安裝

小白學 Python 爬蟲(7):HTTP 基礎

先贊後看是個好習慣

網頁的組成

我們的資料來源是網頁,那麼我們在真正抓取資料之前,有必要先了解一下一個網頁的組成。

網頁是由 HTML 、 CSS 、JavaScript 組成的。

HTML 是用來搭建整個網頁的骨架,而 CSS 是為了讓整個頁面更好看,包括我們看到的顏色,每個模組的大小、位置等都是由 CSS 來控制的, JavaScript 是用來讓整個網頁“動起來”,這個動起來有兩層意思,一層是網頁的資料動態互動,還有一層是真正的動,比如我們都見過一些網頁上的動畫,一般都是由 JavaScript 配合 CSS 來完成的。

我們開啟 Chrome 瀏覽器,訪問部落格站的首頁,開啟 F12 開發者工具,可以看到:

在選項 Elements 中可以看到網頁的原始碼,這裡展示的就是 HTML 程式碼。

不同型別的文字通過不同型別的標籤來表示,如圖片用 標籤表示,視訊用

標籤表示,段落用

標籤表示,它們之間的佈局又常通過佈局標籤 巢狀組合而成,各種標籤通過不同的排列和巢狀才形成了網頁的框架。

在右邊 Style 標籤頁中,顯示的就是當前選中的 HTML 程式碼標籤的 CSS 層疊樣式,“層疊”是指當在HTML中引用了數個樣式檔案,並且樣式發生衝突時,瀏覽器能依據層疊順序處理。“樣式”指網頁中文字大小、顏色、元素間距、排列等格式。

而 JavaScript 就厲害了,它在 HTML 程式碼中通常使用