1. 程式人生 > >海量資料處理專題(七)——資料庫索引及優化(轉)

海量資料處理專題(七)——資料庫索引及優化(轉)

索引是對資料庫表中一列或多列的值進行排序的一種結構,使用索引可快速訪問資料庫表中的特定資訊。

資料庫索引

什麼是索引

資料庫索引好比是一本書前面的目錄,能加快資料庫的查詢速度。

例如這樣一個查詢:select * from table1 where id=44。如果沒有索引,必須遍歷整個表,直到ID等於44的這一行被找到為止;有了索引之後(必須是在ID這一列上建立的索引),直接在索引裡面找44(也就是在ID這一列找),就可以得知這一行的位置,也就是找到了這一行。可見,索引是用來定位的。

索引分為聚簇索引和非聚簇索引兩種,聚簇索引 是按照資料存放的物理位置為順序的,而非聚簇索引就不一樣了;聚簇索引能提高多行檢索的速度,而非聚簇索引對於單行的檢索很快。

概述

建立索引的目的是加快對錶中記錄的查詢或排序。

為表設定索引要付出代價的:一是增加了資料庫的儲存空間,二是在插入和修改資料時要花費較多的時間(因為索引也要隨之變動)。

B樹索引-Sql Server索引方式

B樹索引-Sql Server索引方式

為什麼要建立索引

建立索引可以大大提高系統的效能。

第一,通過建立唯一性索引,可以保證資料庫表中每一行資料的唯一性。
第二,可以大大加快資料的檢索速度,這也是建立索引的最主要的原因。
第三,可以加速表和表之間的連線,特別是在實現資料的參考完整性方面特別有意義。
第四,在使用分組和排序子句進行資料檢索時,同樣可以顯著減少查詢中分組和排序的時間。
第五,通過使用索引,可以在查詢的過程中,使用優化隱藏器,提高系統的效能。

也許會有人要問:增加索引有如此多的優點,為什麼不對錶中的每一個列建立一個索引呢?因為,增加索引也有許多不利的方面。

第一,建立索引和維護索引要耗費時間,這種時間隨著資料量的增加而增加。
第二,索引需要佔物理空間,除了資料表佔資料空間之外,每一個索引還要佔一定的物理空間,如果要建立聚簇索引,那麼需要的空間就會更大。
第三,當對錶中的資料進行增加、刪除和修改的時候,索引也要動態的維護,這樣就降低了資料的維護速度。

在哪建索引

索引是建立在資料庫表中的某些列的上面。在建立索引的時候,應該考慮在哪些列上可以建立索引,在哪些列上不能建立索引。一般來說,應該在這些列上建立索引:

在經常需要搜尋的列上,可以加快搜索的速度;
在作為主鍵的列上,強制該列的唯一性和組織表中資料的排列結構;
在經常用在連線的列上,這些列主要是一些外來鍵,可以加快連線的速度;在經常需要根據範圍進行搜尋的列上建立索引,因為索引已經排序,其指定的範圍是連續的;
在經常需要排序的列上建立索引,因為索引已經排序,這樣查詢可以利用索引的排序,加快排序查詢時間;
在經常使用在WHERE子句中的列上面建立索引,加快條件的判斷速度。

同樣,對於有些列不應該建立索引。一般來說,不應該建立索引的的這些列具有下列特點:

第一,對於那些在查詢中很少使用或者參考的列不應該建立索引。這是因為,既然這些列很少使用到,因此有索引或者無索引,並不能提高查詢速度。相反,由於增加了索引,反而降低了系統的維護速度和增大了空間需求。

第二,對於那些只有很少資料值的列也不應該增加索引。這是因為,由於這些列的取值很少,例如人事表的性別列,在查詢的結果中,結果集的資料行佔了表中資料行的很大比例,即需要在表中搜索的資料行的比例很大。增加索引,並不能明顯加快檢索速度。

第三,對於那些定義為text, image和bit資料型別的列不應該增加索引。這是因為,這些列的資料量要麼相當大,要麼取值很少,不利於使用索引。

第四,當修改效能遠遠大於檢索效能時,不應該建立索引。這是因為,修改效能和檢索效能是互相矛盾的。當增加索引時,會提高檢索效能,但是會降低修改效能。當減少索引時,會提高修改效能,降低檢索效能。因此,當修改操作遠遠多於檢索操作時,不應該建立索引。

資料庫優化

此外,除了資料庫索引之外,在LAMP結果如此流行的今天,資料庫(尤其是MySQL)效能優化也是海量資料處理的一個熱點。下面就結合自己的經驗,聊一聊MySQL資料庫優化的幾個方面。

首先,在資料庫設計的時候,要能夠充分的利用索引帶來的效能提升,至於如何建立索引,建立什麼樣的索引,在哪些欄位上建立索引,上面已經講的很清楚了,這裡不在贅述。另外就是設計資料庫的原則就是儘可能少的進行資料庫寫操作(插入,更新,刪除等),查詢越簡單越好。如下:

資料庫設計

資料庫設計

其次,配置快取是必不可少的,配置快取可以有效的降低資料庫查詢讀取次數,從而緩解資料庫伺服器壓力,達到優化的目的,一定程度上來講,這算是一個“圍魏救趙”的辦法。可配置的快取包括索引快取(key_buffer),排序快取(sort_buffer),查詢快取(query_buffer),表描述符快取(table_cache),如下圖:

配置快取

配置快取

第三,切表,切表也是一種比較流行的資料庫優化方法。分表包括兩種方式:橫向分表和縱向分表,其中,橫向分表比較有使用意義,故名思議,橫向切表就是指把記錄分到不同的表中,而每條記錄仍舊是完整的(縱向切表後每條記錄是不完整的),例如原始表中有100條記錄,我要切成2個表,那麼最簡單也是最常用的方法就是ID取摸切表法,本例中,就把ID為1,3,5,7。。。的記錄存在一個表中,ID為2,4,6,8,。。。的記錄存在另一張表中。雖然橫向切表可以減少查詢強度,但是它也破壞了原始表的完整性,如果該表的統計操作比較多,那麼就不適合橫向切表。橫向切表有個非常典型的用法,就是使用者資料:每個使用者的使用者資料一般都比較龐大,但是每個使用者資料之間的關係不大,因此這裡很適合橫向切表。最後,要記住一句話就是:分表會造成查詢的負擔,因此在資料庫設計之初,要想好是否真的適合切表的優化:

分表

分表

第四,日誌分析,在資料庫運行了較長一段時間以後,會積累大量的LOG日誌,其實這裡面的蘊涵的有用的資訊量還是很大的。通過分析日誌,可以找到系統性能的瓶頸,從而進一步尋找優化方案。

效能分析

效能分析

以上講的都是單機MySQL的效能優化的一些經驗,但是隨著資訊大爆炸,單機的資料庫伺服器已經不能滿足我們的需求,於是,多多節點,分散式資料庫網路出現了,其一般的結構如下:

分散式資料庫結構

分散式資料庫結構

這種分散式叢集的技術關鍵就是“同步複製”。。。《未完待續。。。》