1. 程式人生 > >2-2 搜索引擎工作原理簡介

2-2 搜索引擎工作原理簡介

搜索引擎 搜索結果 工作原理 數據庫

搜索引擎的工作過程大體上可以分成三個階段:

1、爬行和抓取:搜索引擎蜘蛛通過跟蹤鏈接訪問網頁,獲得頁面HTML代碼存入數據庫。

(1)蜘蛛

(2)跟蹤鏈接

(3)吸引蜘蛛

(4)地址庫

(5)文件存儲

(6)爬行時的復制內容檢測

2、預處理:索引程序對抓取來的頁面數據進行文字提取、中文分詞、索引等處理,以備排名程序調用。

(1)提取文字

(2)中文分詞

(3)去停止詞

(4)消除噪聲

(5)去重

(6)正向索引

(7)倒排索引

(8)鏈接關系計算

(9)特殊文件處理

3、排名:用戶輸入關鍵詞後,排名程序調用索引庫數據,計算相關性,然後按一定格式生成搜索結果頁面。

(1)搜索詞處理

(2)文件匹配

(3)初始子集的選擇

(4)相關性計算

(5)排名過濾及調整

(6)排名顯示

(7)搜索緩存

(8)查詢及點擊日誌


本文出自 “11934408” 博客,請務必保留此出處http://11944408.blog.51cto.com/11934408/1940669

2-2 搜索引擎工作原理簡介