資料庫分庫分表存在的問題及解決方案

阿新 • • 發佈：2018-11-11

讀寫分離分散了資料庫讀寫操作的壓力，但是沒有分散儲存壓力，當資料庫的資料量達到千萬甚至上億條的時候，單臺數據庫伺服器的儲存能力就會達到瓶頸，主要體現在以下幾個方面：

資料量太大，讀寫效能會下降，即使有索引，索引也會變得很大，效能同樣會下降
資料檔案會變得很大，資料庫備份和恢復需要消耗更長的時間
資料檔案越大，極端情況下丟失資料的風險就會越高

基於上述原因，單個數據庫伺服器儲存的資料量不能太大，需要控制在一定的範圍內，為了滿足業務資料儲存的需求，需要將儲存分散到多臺資料庫伺服器上

常見的分散儲存的方法有分庫和分佈兩大類

業務分庫業務分庫之的是按照業務模組將資料分散到不同的資料庫伺服器，雖然業務分庫能夠分散儲存和訪問的壓力，但是同時也帶來了新的問題，主要存在的問題如下：

join操作問題業務分庫後，原本在同一個資料庫中的表分散到不同資料庫中，導致無法使用SQL中的join查詢
事務問題原本在同一個資料庫中不同的表可以在同一個事物中修改，業務分庫後，表分散到不同的資料庫中，無法通過事務統一修改，雖然資料庫廠商針對此問題提供了一些分散式事務解決方案（例如，MySQL的XA），但是效能實在太低，與高性功能儲存的目標是相違背的
成本問題業務分庫同時也帶來了成本的代價，本來1臺伺服器搞定的事情，現在需要3臺，如果考慮備份，那就是2臺變成了6臺

基於上述原因，對於初創業務，並不建議一開始就這樣拆分，主要有幾個原因：

初創業務存在很大的不確定性，業務不一定能發展起來，業務開始的時候並沒有真正的儲存和訪問壓力，業務分庫並不能為業務帶來價值
業務分庫後，表之間的join查詢，資料庫事務無法簡單實現了發
業務分庫後，因為不同的資料要讀寫不同的資料庫，程式碼需要增加根據資料型別對映到不同資料庫的邏輯，增加了工作量，而業務初創期最重要的是快速實現，快速驗證，業務分庫會拖慢業務節奏

分表將不同的業務資料分散儲存到不同的資料庫伺服器，能夠支撐百萬甚至千萬使用者規模的業務，但是如果業務繼續發展，同一個業務的單表資料也會達到單臺數據庫伺服器的處理瓶頸，此時就需要對單表進行拆分，單表資料拆分有兩種方式：垂直分表和水平分表

分表能夠有效的分散儲存壓力和帶來效能提升，但是和分庫一樣，也會引入各種複雜性，主要存在的問題如下：

垂直分表垂直分表適合將表中某些不常用而且佔了大量空間的列拆分出去，垂直分表的引入的複雜性主要體現在表操作的數量會增加，例如原來只要一次查詢的就可以獲取，現在要查詢兩次或者多次才能獲得想要的資料
水平分表水平分表適合錶行數特別大的表，如果單錶行數超過5000萬就必須進行分表，這個數字可以作為參考，但是並不是絕對的標準，關鍵還是要看錶的訪問效能

水平分表相比垂直分表，會引入更多的複雜性，主要表現在以下幾個方面：

路由水平分表後，某條資料具體屬於哪個切分後的表，需要增加路由演算法進行計算，這個演算法會引入一定的複雜性，常見的路由演算法有如下幾種：

範圍路由選擇有序的資料列作為路由條件，不同分段分散到不同的資料庫表中，以常見的使用者ID為例，路由演算法可以按照10000的範圍大小進行分段 1-9999放到資料庫1中的表，10000-19999的資料放到資料庫2中的表，依次類推，範圍路由演算法的複雜性主要體現在分段大小的選取上，分段太小會導致切分後的子表資料量過多，增加維護複雜度；分段太大可能會導致單表依然存在效能問題，一般建議分段大學在100萬到200萬之間，具體要根據業務選擇合適的大小分段，路由演算法的優點就是可以隨著資料的增加可以平滑的擴充新的表，原有的資料不需要懂，範圍路由的一個比較隱含的缺點就是分佈不均勻
Hahs路由演算法選擇某個列（或者某幾個列組合也可以）的進行Hash運算，然後根據Hash結果分散到不同的資料庫表中，同樣根據使用者ID為例，假如一開始就規劃10個數據庫表，路由演算法可以簡單的用user_id%10的值來表示資料所屬的資料庫表編號，ID為985的使用者放到編號為5的子表中，ID為10086的使用者放到編號為6的子表中；Hash 路由演算法設計的複雜點主要體現在初始表數量的選取上，表數量太多維護比較麻煩，表資料量太少又可能導致單表效能問題，而用了Hash路由後，增加表的數量非常麻煩，所有資料都要重新分佈，Hash路由演算法的優缺點和範圍路由基本相反，Hash路由演算法的優點是表分佈比較均勻，缺點是擴充新的表很麻煩，所有資料需要重新分佈
配置路由配置路由就是路由表，用一張獨立的表來記錄路由資訊，同樣根據使用者ID為例，我們新增一張user_router表，這個表包含user_id和table_id兩列，根據user_id就可以查詢對應的table_id，配置路由設計簡單，使用起來非常靈活，尤其是在擴充表的時候，只需要遷移指定書，然後修改路由表就可以。配置路由的缺點就是必須多查詢一次，會影響整體的效能；而且路由表本身如果太大，效能同樣可能成為瓶頸，如果我們再次將路由表分庫分表，則面臨一個死迴圈式的路由演算法選擇問題

分表操作和分庫操作一樣，同樣會存在一些問題，主要體現在如下幾個方面：

join操作水平分表後，資料分散到多個表中，如果需要與其他表進行join 查詢，需要在業務程式碼或者資料庫中介軟體中進行多次join查詢，然後將結果合併
count()操作水平分表後，雖然物理上資料分散到多個表中，但是某些業務邏輯上還是會將這些表當作一個表進行處理，例如，獲取記錄總數用於分頁或展示，水平分表之前用一個count()就能完成的操作，在分表之後就沒有那麼簡單了，常見的處理方式有如下兩種：

count()相加具體做法就是在業務程式碼或者資料庫中介軟體中對每個表進行count()操作，然後將結果相加，這種方式實現簡單，缺點就是效能比較低
記錄數表具體做法就是新建一張表，例如表名為：記錄數表，包含table_name,row_count兩個欄位，每次插入或刪除子表資料成功後，都更新記錄數表，這種方式獲取表記錄數的效能要大大優於count()相加方式，因為只需要一次簡單的查詢就可以獲得資料，缺點是複雜度增加不少，對子表的操作要同步操作記錄數表，如果一個業務邏輯遺漏了，資料就會不一致；而且針對記錄數表的操作和針對子表的操作無法放在同一個事物中進行處理，異常的情況會出現操作子表成功了而操作記錄數表示不，同樣導致資料不一致，同時，記錄數表的方式也增加了資料庫的寫壓力，因為每次針對子表的insert 和 delete操作需要update記錄數表，所以對於一些不要去記錄數實時保持精確的業務，也可以通過後臺定時更新記錄數表，定時更新實際上就是count()相加和記錄數表的結合，定時通過count()相加計算表的記錄數，然後更新記錄數表中的資料

3 order by 操作水平分表後，資料分散到多個子表中，排序操作無法在資料庫中完成，只能由業務程式碼或資料庫中介軟體分表查詢美國子表中的資料，然後彙總進行排序

資料庫分庫分表思路及案例分析

一. 資料切分關係型資料庫本身比較容易成為系統瓶頸，單機儲存容量、連線數、處理能力都有限。當單表的資料量達到 1000W 或 100G 以後，由於查詢維度較多，即使新增從庫、優化索引，做很多操作時效能仍下降嚴重。此時就要考慮對其進行切分了，切分的目的就在於減少資料庫的負擔，縮短查詢時間

資料庫分庫分表存在的問題及解決方案

讀寫分離分散了資料庫讀寫操作的壓力，但是沒有分散儲存壓力，當資料庫的資料量達到千萬甚至上億條的時候，單臺數據庫伺服器的儲存能力就會達到瓶頸，主要體現在以下幾個方面：資料量太大，讀寫效能會下降，即使有索引，索引也會變得很大，效能同樣會下降資料檔案會變得很大，資料庫備份和恢復需要消耗更長的時間

資料庫分庫分表的應用場景及解決方案

現實業務場景中，為了保障客戶體驗並滿足業務的線性增長。會對資料量巨大，且業務會始終進行的產品進行分表分庫策略。但是如何合理的根據業務採取爭取的分表分庫策略至關重要。下面以具體例項來進行分析。場景一：使用者中心資料庫切分架構實踐|場景介紹使用者中心是一個十分常見

資料庫分庫分表(sharding)系列(五) 一種支援自由規劃無須資料遷移和修改路由程式碼的Sharding擴容方案（轉）...

作為一種資料儲存層面上的水平伸縮解決方案，資料庫Sharding技術由來已久，很多海量資料系統在其發展演進的歷程中都曾經歷過分庫分表的Sharding改造階段。簡單地說，Sharding就是將原來單一資料庫按照一定的規則進行切分，把資料分散到多臺物理機（我們稱之為Shard)上儲存，從

為什麼選擇第三代分散式關係資料庫而不是分庫分表的二代方案

“網際網路經濟”所帶來的巨大流量使得企業、機構面臨外部訪問負載以及資料量的大幅飆升，很多企業資訊系統目前所採用的傳統集中式關係型資料庫越來越不適應海量資料以及高併發環境下對資料處理能力的要求，在應對此類場景時資料庫逐漸成為整體系統的瓶頸，擴充套件

資料庫分庫分表 sharding 系列五一種支援自由規劃無須資料遷移和修改路由程式碼的Sharding擴容方案

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

資料庫分庫分表、讀寫分離的實現原理及使用場景

為什麼要分庫分表和讀寫分離？類似淘寶網這樣的網站，海量資料的儲存和訪問成為了系統設計的瓶頸問題，日益增長的業務資料，無疑對資料庫造成了相當大的負載，同時對於系統的穩定性和擴充套件性提出很高的要求。隨著時間和業務的發展，資料庫中的表會越來越多，表中的資料量也會越來越

資料庫分庫分表策略的具體實現方案

相關文章：一、MySQL擴充套件具體的實現方式隨著業務規模的不斷擴大，需要選擇合適的方案去應對資料規模的增長，以應對逐漸增長的訪問壓力和資料量。關於資料庫的擴充套件主要包括：業務拆分、主從複製，資料庫分庫與分表。這篇文章主要講

mysql資料庫分庫分表策略的具體實現方案

相關文章：：http://blog.csdn.net/xlgen157387/article/details/51331244 ：http://blog.csdn.net/xlgen157387/article/details/52451613 一、My

資料庫分庫分表的應用場景及方法分析

flickr開發團隊在2010年撰文介紹了flickr使用的一種主鍵生成測策略，同時表示該方案在flickr上的實際執行效果也非常令人滿意。它與一般Sequence表方案有些類似，但卻很好地解決了效能瓶頸和單點問題，是一種非常可靠而高效的全域性主鍵生成方案。整體思想是：建立兩臺以上的資料庫ID生成伺服器，

[置頂] 資料庫分庫分表(sharding)系列(五) 一種支援自由規劃無須資料遷移和修改路由程式碼的Sharding擴容方案

作為一種資料儲存層面上的水平伸縮解決方案，資料庫Sharding技術由來已久，很多海量資料系統在其發展演進的歷程中都曾經歷過分庫分表的Sharding改造階段。簡單地說，Sharding就是將原來單一資料庫按照一定的規則進行切分，把資料分散到多臺物理機（我們稱之為Sh

資料庫分庫分表策略的具體實現方案【從MySQL開始】

一、MySQL擴充套件具體的實現方式隨著業務規模的不斷擴大，需要選擇合適的方案去應對資料規模的增長，以應對逐漸增長的訪問壓力

阿里P8架構師談：資料庫分庫分表、讀寫分離的原理實現，使用場景

為什麼要分庫分表和讀寫分離？類似淘寶網這樣的網站，海量資料的儲存和訪問成為了系統設計的瓶頸問題，日益增長的業務資料，無疑對資料庫造成了相當大的負載，同時對於系統的穩定性和擴充套件性提出很高的要求。隨著時間和業務的發展，資料庫中的表會越來越多，表中的資料量也會越來越大，相應地，

資料庫分庫分表 sharding 系列四多資料來源的事務處理

資料庫分庫分表(sharding)系列(三) 關於使用框架還是自主開發以及sharding實現層面的考量資料庫分庫分表(sharding)系列(二) 全域性主鍵生成策略資料庫分庫分表(sharding)系列(一) 拆分實施策略和示例演示

資料庫分庫分表——擴容無須資料遷移的分片演算法

擴容無須資料遷移的分片演算法常見的分庫分表方案大都用主鍵mod一個數（如分為8個庫，則 id % 8 根據餘數決定落到哪個分片）。此種方案中，如果要拓展資料庫將是十分複雜的事情（例如拓展為10個，則程式碼需要改為 id % 10 之前的舊資料也要做遷移）。我們希望有一種支援自由規劃無須資料遷移和修

MySQL 分庫分表及其平滑擴容方案 MySQL 分庫分表及其平滑擴容方案

MySQL 分庫分表及其平滑擴容方案 <a class="follow-nickName" href="https://me.csdn.net/kefengwang" target=

資料庫分庫分表（持續更新中）

今天學習了資料庫分表分庫，感覺記錄下一些東西以便以後的檢視。 1、資料庫建立索引，可以加快表資料的查詢，但是過多的索引，會佔用大量的記憶體，維護難度較大，因為索引底層的演算法是B-tree,樹的特點就是查詢資料快按時資料增刪改比較慢。 2、資料庫的表拆分，分為水平拆分，垂直拆分，水平垂直拆分（自定義的）。

day81_淘淘商城專案_14_專案釋出 + Linux下安裝mysql + tomcat熱部署 + 資料庫分庫分表 + Mycat學習_匠心筆記

第十四天： 1、Linux上mysql的安裝 2、系統的部署 3、mycat的介紹 4、專案總結 5、面試中的問題 1、開發流程淺解 2、專案釋出前的準備 1、測試 a) 本地單元測試 b) 測試環境測試(1，2，3，4，5) c) 使用

mysql資料庫分庫分表

一、分庫分表前的問題 1、使用者請求量太大因為單伺服器TPS，記憶體，IO都是有限的。解決方法：分散請求到多個伺服器上；其實使用者請求和執行一個sql查詢是本質是一樣的，都是請求一個資源，只是使用者請求還會經過閘道器，路由，http伺服器等。 2、單庫太大單個

資料庫分庫分表存在的問題及解決方案

相關推薦