解決方案之網站大資料高併發

阿新 • • 發佈：2018-11-11

大資料處理

1、資料庫

垂直拆分：根據業務把表放到不同的資料庫，解決表之間的IO競爭

水平拆分：根據某種規則把單表資料分成多張表儲存，解決單表資料量大的問題

索引：根據業務場景建立合理的索引，如果資料量很小建議使用索引（300條以內）

索引使用場景：

動作描述	聚集索引	非聚集索引
主鍵列	是	是
外來鍵列	是	是
列經常被分組排序	是	是
返回某範圍內的資料	是	否
一個或極少不同值	否	否
小數目的不同值	是	否
大數目的不同值	否	是
頻繁更新的列	否	是
頻繁修改索引列	否	是

分離活躍資料：把常用的資料和不常用的資料分離，例如活躍使用者和不活躍使用者

讀寫分離：寫用主庫，讀用從庫

其它：表結構優化、SQL語句優化

2、快取

讀資料時先從快取中取，命中不到再讀庫

3、叢集

使用hadoop做叢集，可以同時處理相同的資料

高併發處理

1、硬體

叢集：多臺伺服器分流，靜態資源叢集和動態資源叢集，需要考慮session同步問題

CDN:使用CDN存放靜態資源

反向代理：用別的伺服器代理處理

2、軟體

動靜分離：靜態資源和動態資源分離，把靜態資源放到單獨的伺服器

頁面快取：經常訪問的頁面可以做成靜態頁面放到快取裡

縮短請求路徑：縮短請求服務的路徑，便於解析

批量讀取：多個請求合併到一起請求，減少資料庫訪問次數

延遲修改：把多次修改請求先放到快取中，然後同步到庫

Sql語句優化：

Where語句中不要出現Null、or、!=、<>、in、not in否則會避開索引進行全表掃描

儘量避免在索引過的字元資料中，使用非打頭字母搜尋，否則會避開索引進行全表掃如：SELECT * FROM T1 WHERE NAME LIKE ‘%L%’
SELECT * FROM T1 WHERE SUBSTING(NAME,2,1)=’L’

必要時強制查詢優化器使用某個索引，如在 where 子句中使用引數，也會導致全表掃描如：select id from t where [email protected]
可以改為強制查詢使用索引：
select id from t with(index(索引名)) where [email protected]

應儘量避免在 where 子句中對欄位進行表示式操作，這將導致引擎放棄使用索引而進行全表掃描。如：
SELECT * FROM T1 WHERE F1/2=100
應改為:
SELECT * FROM T1 WHERE F1=100*2

SELECT * FROM RECORD WHERE SUBSTRING(CARD_NO,1,4)=’5378’
應改為:
SELECT * FROM RECORD WHERE CARD_NO LIKE ‘5378%’

SELECT member_number, first_name, last_name FROM members
WHERE DATEDIFF(yy,datofbirth,GETDATE()) > 21
應改為:
SELECT member_number, first_name, last_name FROM members
WHERE dateofbirth < DATEADD(yy,-21,GETDATE())
即：任何對列的操作都將導致表掃描，它包括資料庫函式、計算表示式等等，查詢時要儘可能將操作移至等號右邊。

應儘量避免在where子句中對欄位進行函式操作，這將導致引擎放棄使用索引而進行全表掃描。如：
select id from t where substring(name,1,3)='abc'--name以abc開頭的id
select id from t where datediff(day,createdate,'2005-11-30')=0--‘2005-11-30’生成的id
應改為:
select id from t where name like 'abc%'
select id from t where createdate>='2005-11-30' and createdate<'2005-12-1'
不要在 where 子句中的“=”左邊進行函式、算術運算或其他表示式運算，否則系統將可能無法正確使用索引。
在使用索引欄位作為條件時，如果該索引是複合索引，那麼必須使用到該索引中的第一個欄位作為條件時才能保證系統使用該索引，否則該索引將不會被使用，並且應儘可能的讓欄位順序與索引順序相一致。

很多時候用 exists是一個好的選擇：
elect num from a where num in(select num from b)
用下面的語句替換：
select num from a where exists(select 1 from b where num=a.num)

SELECT SUM(T1.C1)FROM T1 WHERE(
(SELECT COUNT(*)FROM T2 WHERE T2.C2=T1.C2>0)
SELECT SUM(T1.C1) FROM T1WHERE EXISTS(
SELECT * FROM T2 WHERE T2.C2=T1.C2)
兩者產生相同的結果，但是後者的效率顯然要高於前者。因為後者不會產生大量鎖定的表掃描或是索引掃描。

如果你想校驗表裡是否存在某條紀錄，不要用count(*)那樣效率很低，而且浪費伺服器資源。可以用EXISTS代替。如：
IF (SELECT COUNT(*) FROM table_name WHERE column_name = 'xxx')
可以寫成：
IF EXISTS (SELECT * FROM table_name WHERE column_name = 'xxx')

經常需要寫一個T_SQL語句比較一個父結果集和子結果集，從而找到是否存在在父結果集中有而在子結果集中沒有的記錄，如：
SELECT a.hdr_key FROM hdr_tbl a---- tbl a 表示tbl用別名a代替
WHERE NOT EXISTS (SELECT * FROM dtl_tbl b WHERE a.hdr_key = b.hdr_key)
SELECT a.hdr_key FROM hdr_tbl a
LEFT JOIN dtl_tbl b ON a.hdr_key = b.hdr_key WHERE b.hdr_key IS NULL
SELECT hdr_key FROM hdr_tbl
WHERE hdr_key NOT IN (SELECT hdr_key FROM dtl_tbl)
三種寫法都可以得到同樣正確的結果，但是效率依次降低。

儘量使用表變數來代替臨時表。如果表變數包含大量資料，請注意索引非常有限（只有主鍵索引）。
避免頻繁建立和刪除臨時表，以減少系統表資源的消耗。
在新建臨時表時，如果一次性插入資料量很大，那麼可以使用 select into 代替 create table，避免造成大量 log ，以提高速度；如果資料量不大，為了緩和系統表的資源，應先create table，然後insert。
如果使用到了臨時表，在儲存過程的最後務必將所有的臨時表顯式刪除，先 truncate table ，然後 drop table ，這樣可以避免系統表的較長時間鎖定。
臨時表並不是不可使用，適當地使用它們可以使某些例程更有效，例如，當需要重複引用大型表或常用表中的某個資料集時。但是，對於一次性事件，最好使用匯出表。
在所有的儲存過程和觸發器的開始處設定 SET NOCOUNT ON ，在結束時設定 SET NOCOUNT OFF 。無需在執行儲存過程和觸發器的每個語句後向客戶端傳送 DONE_IN_PROC 訊息。
儘量避免大事務操作，提高系統併發能力。
儘量避免向客戶端返回大資料量，若資料量過大，應該考慮相應需求是否合理。
避免使用不相容的資料型別。例如float和int、char和varchar、binary和varbinary是不相容的。資料型別的不相容可能使優化器無法執行一些本來可以進行的優化操作。例如:
SELECT name FROM employee WHERE salary > 60000
在這條語句中,如salary欄位是money型的,則優化器很難對其進行優化,因為60000是個整型數。我們應當在程式設計時將整型轉化成為錢幣型,而不要等到執行時轉化。
充分利用連線條件，在某種情況下，兩個表之間可能不只一個的連線條件，這時在 WHERE 子句中將連線條件完整的寫上，有可能大大提高查詢速度。
例：
SELECT SUM(A.AMOUNT) FROM ACCOUNT A,CARD B WHERE A.CARD_NO = B.CARD_NO
SELECT SUM(A.AMOUNT) FROM ACCOUNT A,CARD B WHERE A.CARD_NO = B.CARD_NO AND A.ACCOUNT_NO=B.ACCOUNT_NO
第二句將比第一句執行快得多。
使用檢視加速查詢
把表的一個子集進行排序並建立檢視，有時能加速查詢。它有助於避免多重排序操作，而且在其他方面還能簡化優化器的工作
能用DISTINCT的就不用GROUP BY
能用UNION ALL就不要用UNION
儘量不要用SELECT INTO語句。
SELECT INOT 語句會導致表鎖定，阻止其他使用者訪問該表。
儘量避免使用遊標，因為遊標的效率較差

解決方案之網站大資料高併發

大資料處理

高併發處理

解決方案之網站大資料高併發

企業產業升級解決方案之BI大資料分析系統搭建

大資料高併發之-Mysql分表與分庫使用場景以及設計方式

大資料高併發網站基礎架構

大資料解決方案：挖掘大資料價值，讓選擇更有依據

mysql大資料高併發處理(轉載)

mysql大資料高併發處理

大資料/高併發利器--activeMQ 減輕資料庫壓力

mysql大資料高併發處理(優化)

每天TB級資料處理，攜程大資料高併發應用架構涅槃

PHP解決網站大資料大流量與高併發

Java高併發解決方案之非同步處理

海量資料高併發的解決方案

高併發解決方案之負載均衡

如何處理大量資料高併發大流量併發操作方案

java系統高併發解決方案之圖片伺服器分離

【海量資料+高併發】網路高併發量解決方案

大型網際網路高併發解決方案之訊息中介軟體技術-activeMQ詳解

Web網站架構演變—高併發、大資料

關係型資料庫大資料效能優化解決方案之：分表(當前表歷史表)、表分割槽、資料清理原則

解決方案之網站大資料高併發

大資料處理

高併發處理

相關推薦