數學之美系列六圖論和網路爬蟲 (Web Crawlers)

阿新 • • 發佈：2019-02-11

發表者: 吳軍，Google 研究員

[離散數學是當代數學的一個重要分支，也是電腦科學的數學基礎。它包括數理邏輯、集合論、圖論和近世代數四個分支。數理邏輯基於布林運算，我們已經介紹過了。這裡我們介紹圖論和網際網路自動下載工具網路爬蟲 (Web Crawlers) 之間的關係。順便提一句，我們用 Google Trends 來搜尋一下“離散數學”這個詞，可以發現不少有趣的現象。比如，武漢、哈爾濱、合肥和長沙市對這一數學題目最有興趣的城市。]

我們上回談到了如何建立搜尋引擎的索引，那麼如何自動下載網際網路所有的網頁呢，它要用到圖論中的遍歷（Traverse) 演算法。

圖論的起源可追溯到大數學家尤拉（Leonhard Euler）。1736 年尤拉來到德國的哥尼斯堡（Konigsberg，大哲學家康德的故鄉，現在是俄羅斯的加里寧格勒），發現當地市民們有一項消遣活動，就是試圖將下圖中的每座橋恰好走過一遍並回到原出發點，從來沒有人成功過。尤拉證明了這件事是不可能的，並寫了一篇論文，一般認為這是圖論的開始。

圖論中所討論的的圖由一些節點和連線這些節點的弧組成。如果我們把中國的城市當成節點，連線城市的國道當成弧，那麼全國的公路幹線網就是圖論中所說的圖。關於圖的演算法有很多，但最重要的是圖的遍歷演算法，也就是如何通過弧訪問圖的各個節點。以中國公路網為例，我們從北京出發，看一看北京和哪些城市直接相連，比如說和天津、濟南、石家莊、南京、瀋陽、大同直接相連。我們可以依次訪問這些城市，然後我們看看都有哪些城市和這些已經訪問過的城市相連，比如說北戴河、秦皇島與天津相連，青島、煙臺和濟南相連，太原、鄭州和石家莊相連等等，我們再一次訪問北戴河這些城市，直到中國所有的城市都訪問過一遍為止。這種圖的遍歷演算法稱為“廣度優先演算法”（BFS)，因為它先要儘可能廣地訪問每個節點所直接連線的其他節點。另外還有一種策略是從北京出發，隨便找到下一個要訪問的城市，比如是濟南，然後從濟南出發到下一個城市，比如說南京，再訪問從南京出發的城市，一直走到頭。然後再往回找，看看中間是否有尚未訪問的城市。這種方法叫“深度優先演算法”（DFS)，因為它是一條路走到黑。這兩種方法都可以保證訪問到全部的城市。當然，不論採用哪種方法，我們都應該用一個小本本，記錄已經訪問過的城市，以防同一個城市訪問多次或者漏掉哪個城市。

現在我們看看圖論的遍歷演算法和搜尋引擎的關係。網際網路其實就是一張大圖，我們可以把每一個網頁當作一個節點，把那些超連結（Hyperlinks)當作連線網頁的弧。很多讀者可能已經注意到，網頁中那些藍色的、帶有下劃線的文字背後其實藏著對應的網址，當你點下去的的時候，瀏覽器是通過這些隱含的網址轉到相應的網頁中的。這些隱含在文字背後的網址稱為“超連結”。有了超連結，我們可以從任何一個網頁出發，用圖的遍歷演算法，自動地訪問到每一個網頁並把它們存起來。完成這個功能的程式叫做網路爬蟲，或者在一些文獻中稱為"機器人"（Robot)。世界上第一個網路爬蟲是由麻省理工學院 (MIT)的學生馬休.格雷（Matthew Gray)在 1993 年寫成的。他給他的程式起了個名字叫“網際網路漫遊者”("www wanderer")。以後的網路爬蟲越寫越複雜，但原理是一樣的。

我們來看看網路爬蟲如何下載整個網際網路。假定我們從一家入口網站的首頁出發，先下載這個網頁，然後通過分析這個網頁，可以找到藏在它裡面的所有超連結，也就等於知道了這家入口網站首頁所直接連線的全部網頁，諸如雅虎郵件、雅虎財經、雅虎新聞等等。我們接下來訪問、下載並分析這家入口網站的郵件等網頁，又能找到其他相連的網頁。我們讓計算機不停地做下去，就能下載整個的網際網路。當然，我們也要記載哪個網頁下載過了，以免重複。在網路爬蟲中，我們使用一個稱為“

雜湊表”(Hash Table)的列表而不是一個記事本紀錄網頁是否下載過的資訊。

現在的網際網路非常巨大，不可能通過一臺或幾臺計算機伺服器就能完成下載任務。比如雅虎公司（Google 沒有公開公佈我們的數目，所以我這裡舉了雅虎的索引大小為例）宣稱他們索引了 200 億個網頁，假如下載一個網頁需要一秒鐘，下載這 200 億個網頁則需要 634 年。因此，一個商業的網路爬蟲需要有成千上萬個伺服器，並且由快速網路連線起來。如何建立這樣複雜的網路系統，如何協調這些伺服器的任務，就是網路設計和程式設計的藝術了。

數學之美系列六圖論和網路爬蟲 (Web Crawlers)

數學之美系列六 -- 圖論和網路爬蟲 (Web Crawlers)

數學之美系列六圖論和網路爬蟲 (Web Crawlers)

數學之美系列八賈里尼克的故事和現代語言處理

數學之美系列九如何確定網頁和查詢的相關性

數學之美系列十有限狀態機和地址識別

《數學之美》——維特比和他維特比算法

數學之美系列二十一－布隆過濾器（Bloom Filter）

數學之美系列十三資訊指紋及其應用

數學之美系列五簡單之美：布林代數和搜尋引擎的索引

數學之美系列十四談談數學模型的重要性

數學之美系列 12

數學之美（吳軍著）學習總結和經典摘抄

數學之美讀書筆記——自然語言處理教父和他的弟子們

《數學之美》讀書記錄【思維導圖記錄】：第四章，談談中文分詞

《數學之美》第11章—如何確定網頁和查詢的相關性（TF-IDF演算法）

數學之美：餘弦定理和新聞分類

數學之美——google大腦和人工神經網路

餘弦定理和新聞的分類(數學之美)

《數學之美》讀書筆記和知識點總結

吳軍博士系列書籍讀後感（《數學之美》、《浪潮之巔》、《文明之光》、《智慧時代》）

數學之美 系列六 圖論和網路爬蟲 (Web Crawlers)

相關推薦

數學之美系列六圖論和網路爬蟲 (Web Crawlers)