SQL Server 大資料管理——資料歸檔（主檔案備份）

阿新 • • 發佈：2019-01-24

SQL Server 大資料管理——資料歸檔

背景：

資料庫幾百GB，甚至TB級別資料庫，歷史資料偶爾會用到，不能直接刪除，就需要定期歸檔歷史資料。以往在歸檔歷史資料方案：

方案1：做全備儲存歸檔資料，刪除線上庫歸檔資料

方案2：建立一個新庫，將歸檔資料匯入到新庫，備份保留新庫，刪除線上庫歸檔資料

對於方案1，這樣會有較多的不需要或者不能歸檔的資料重複備份，佔用大量空間，並且一旦歸檔資料需要使用，拷貝、還原需要時間較長，效率低；同時對還原需要空間也較難以匹配；方案2解決了資料重複備份佔用空間的問題，但資料轉移需要時間較長

因此，採用本文敘述的方案，表分割槽+資料庫主檔案備份的備份策略，可以同時很好的解決方案1、2的問題。

一. 主檔案資料移動到輔檔案

因為在進行檔案/組還原時，還需要用到主檔案，所以在每次資料歸檔時，同時要對主檔案備份歸檔，所以主檔案要儘可能的小。需要儘可能的將資料移動到輔助檔案上

1.1 新表處理：

修改資料庫預設檔案組，或者建立表時指定檔案組，使得新建立的表均在輔助檔案組上

--建立測試資料庫
CREATE DATABASE [test]
 CONTAINMENT = NONE
 ON  PRIMARY
( NAME = N'test', FILENAME = N'D:\DB\test.mdf' , SIZE = 8192KB , FILEGROWTH = 65536KB )
 LOG ON
( NAME = N'test_log', FILENAME = N'D:\DB\test_log.ldf' , SIZE = 8192KB , FILEGROWTH = 65536KB )
 
--增加檔案組和輔助檔案
alter database test add filegroup data
alter database test add file
(name=data,filename='D:\DB\data.ndf', SIZE = 8192KB , FILEGROWTH = 65536KB ) TO FILEGROUP [data]
alter database test add file
(name=data1,filename='D:\DB\data1.ndf',size=8192KB,filegrowth=65536KB) to filegroup data

修改預設檔案組指令碼

USE [test]
GO
IF NOT EXISTS (SELECT name FROM sys.filegroups WHERE is_default=1 AND name = N'data')
ALTER DATABASE [test] MODIFY FILEGROUP [data] DEFAULT
GO

create table testdd(id int)
select OBJECT_NAME(object_id) tableName,i.name indexName,s.name spaceName
from sys.indexes i
left join sys.data_spaces s on i.data_space_id=s.data_space_id
where object_id =OBJECT_ID('dbo.testdd','U')

通過系統檢視發現，建立的testdd表是在預設的data檔案組下：

1.2 已經存在的表

1.2.1 不需要歸檔的表

不需要歸檔的表，可以通過建立、或刪除聚集索引將資料移動到輔助檔案上

alter database test add filegroup tableMetaData
alter database test add file
(name=tableMetaData,filename='D:\DB\tableMetaData.ndf', SIZE = 8192KB , FILEGROWTH = 65536KB ) TO FILEGROUP tableMetaData
alter database test add filegroup dataMD
alter database test add file(
       name= dataMD,filename='D:\DB\dataMD.ndf',size=8192KB,filegrowth=65536KB
) to filegroup dataMD
 
create table testp(id int) on [primary]
create table testd(id int) on data
create table testMD(id int) on dataMD
create table testm(id int) on tableMetaData
 
--testp中插入100萬行資料
DECLARE @max AS INT, @rc AS INT;
SET @max = 1000000;
SET @rc = 1;
INSERT INTO testp VALUES(1);
WHILE @rc * 2 <= @max
BEGIN
    INSERT INTO dbo.testp SELECT id + @rc FROM dbo.testp;
    SET @rc = @rc * 2;
END
INSERT INTO dbo.testp
SELECT id + @rc FROM dbo.testp WHERE id + @rc <= @max;
go
 
--testm中插入100萬行資料
DECLARE @max AS INT, @rc AS INT;
SET @max = 100000;
SET @rc = 1;
INSERT INTO testm VALUES(1);
WHILE @rc * 2 <= @max
BEGIN
    INSERT INTO dbo.testm SELECT id + @rc FROM dbo.testm;
    SET @rc = @rc * 2;
END
INSERT INTO dbo.testm
SELECT id + @rc FROM dbo.testm WHERE id + @rc <= @max;
go

為testp表在檔案組data上建立聚集索引

建立索引之前檔案資料量

主檔案和輔檔案tableMetaData已經增長至9216，其他檔案任然初始大小

1.2.1.1 建立聚集索引移動資料

CREATE CLUSTERED INDEX [CIx_testp] ON [dbo].[testp]
(
       [id] ASC
)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, SORT_IN_TEMPDB = OFF, DROP_EXISTING = OFF, ONLINE = ON, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON)
ON [data]
GO

從下圖可以看到此時testp的資料已經移到data檔案組下

通過下圖可以看到，data檔案大小增加一次，但主檔案大小並沒有減少

1.2.1.2 刪除聚集索引移動資料

CREATE CLUSTERED INDEX [CIx_testm] ON [dbo].[testm]
(
       [id] ASC
)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, SORT_IN_TEMPDB = OFF, DROP_EXISTING = OFF, ONLINE = ON', ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON)
ON [data]
GO
--  刪除聚集索引，並指資料定儲存的檔案組 
DROP INDEX [CIx_testm] ON dbo.testm WITH (MOVE TO [dataMD], ONLINE=ON) 
GO

從下圖可以看到，testm表資料已經從tableMetaData檔案組移動到dataMD檔案組

同時從下圖可以看到，通過刪除聚集索引轉移資料，原檔案大小仍然沒有改變（tableMetaData仍然是9216KB）

1.3 需要定期歸檔表資料的轉移

根據歸檔規則，一般按資料產生的時間進行分割槽，建立表分割槽，一個分割槽對應一個檔案組的一個檔案

create table testpp(id int,date datetime) on [primary]

DECLARE @max AS INT, @rc AS INT;
SET @max = 1000000;
SET @rc = 1;
INSERT INTO testpp VALUES(1,'2018-01-01');
WHILE @rc * 2 <= @max
BEGIN
INSERT INTO dbo.testpp SELECT id + @rc,DATEADD(MI,@rc,[date]) FROM dbo.testpp;
SET @rc = @rc * 2;
END
INSERT INTO dbo.testpp
SELECT id + @rc,DATEADD(MI,@rc,[date]) FROM dbo.testpp WHERE id + @rc <= @max;
go

此時主檔案大小仍然為9216KB沒有增長

系統檢視更新遲緩，導致檔案大小和真實資料大小不一致

下面對testpp表進行分割槽

--新增檔案組、檔案
use test
alter database test
	add filegroup Before2019
alter database test
	add filegroup After2019

alter database test
	add file(name=N'Before2019',filename='D:\DB\testPartion\Before2019.ndf'
		,size=1mb, filegrowth=1mb)
	to filegroup Before2019

alter database test
	add file(name=N'After2019',filename='D:\DB\testPartion\After2019.ndf'
	,size=1mb,  filegrowth=1mb)
	to filegroup After2019
--建立分割槽函式
create partition function RangeTime(datetime)
as range left for values('2019-01-01')
--建立分割槽方案
create partition scheme RangeSchema_CreateTime
as partition [RangeTime]
to(Before2019,After2019)
GO
--為testpp表新增分割槽
USE [test]
GO
BEGIN TRANSACTION

CREATE CLUSTERED INDEX [ClusteredIndex_on_RangeSchema_CreateTime_636570819394124711] ON [dbo].[testpp]
(
	[date]
)WITH (SORT_IN_TEMPDB = OFF, DROP_EXISTING = OFF, ONLINE = OFF) ON [RangeSchema_CreateTime]([date])

DROP INDEX [ClusteredIndex_on_RangeSchema_CreateTime_636570819394124711] ON [dbo].[testpp]

COMMIT TRANSACTION

1.4 收縮主檔案

不管是建立聚集索引轉移資料,刪除聚集索引轉移資料，或者建立表分割槽轉移資料，原始檔的空間都不會自動釋放，需要對原始檔進行收縮

USE [test]
GO
DBCC SHRINKFILE(N'test', 0) withno_infomsgs
--引數說明
--emptyfile 轉移資料到同文件組的其他檔案
--notruncate 移動資料頁到檔案前段，但不釋放空間
--truncateonly 不移動資料頁，釋放尾部空間
--with no_infomsgs 取消顯示所有資訊訊息
GO

二. 歸檔歷史資料

2.1 將歸檔分割槽資料轉為普通表資料

--在歸檔資料所在的分割槽檔案組上建立和歸檔表結構相同的表
create table testpp2018(id int,date datetime) on Before2019
--查詢partition_number 及其對應資料所在的檔案組
;with cte as
	(select 
		object_id
		,OBJECT_NAME(i.object_id) tableName
		,i.index_id
		,dds.partition_scheme_id
		,dds.destination_id as partition_number
		,fg.groupid
		,fg.groupname
		,f.fileid
		,f.name
		,f.filename
		--,p.partition_id
		--,p.rows
	 from sys.destination_data_spaces dds,sys.indexes i,sys.sysfilegroups fg,sys.sysfiles f
	 where dds.partition_scheme_id=i.data_space_id
		and dds.data_space_id=fg.groupid
		and fg.groupid=f.groupid
		)
,cte1 as(
	select
		ps.data_space_id as partition_scheme_id
		,ps.name partiton_schemes_name
		,pf.name partition_function_name
		,pf.function_id
		--,prv.value AS BoundaryValue
	from sys.partition_schemes ps ,sys.partition_functions pf--,sys.partition_range_values prv
	where ps.function_id=pf.function_id
		--and pf.function_id=prv.function_id
)
select cte.tableName,cte.groupname,cte.name,cte.filename
	,cte.partition_number,cte1.partiton_schemes_name,cte1.partition_function_name,p.rows
	,prv.boundary_id,prv.value BoundaryValue
from cte
inner join cte1	on cte.partition_scheme_id=cte1 .partition_scheme_id
left join sys.partition_range_values prv on cte1.function_id=prv.function_id and cte.partition_number=prv.boundary_id
left join sys.partitions  p on cte.object_id=p.object_id and cte.index_id=p.index_id and cte.partition_number=p.partition_number

where  cte.object_id=OBJECT_ID('dbo.testpp','U')

--要移出2019年以前的資料,即partition_number=1 的分割槽，從分割槽表中移除歸檔資料到普通表
alter table testpp switch partition 1 to testpp2018

從上圖可以看到分割槽1的記錄數已經為0，下面將把分割槽1合併掉，並移除對應的檔案和檔案組

use test
go
--合併分割槽1
alter partition function RangeTime()
merge range('2019-01-01 0:00:00')

--移除歸檔分割槽的檔案和檔案組
alter database test remove file [Before2019]
alter database test remove filegroup [Before2019]

通過建立聚集索引的方式將表資料從分割槽檔案移動到主檔案

CREATE CLUSTERED INDEX [ClusteredIndex-20180321-145814] ON [dbo].[testpp2018]
(
	[id] ASC
) ON [PRIMARY]

GO

DROP INDEX [ClusteredIndex-20180321-145814] ON [dbo].[testpp2018] WITH ( ONLINE = OFF )
GO

2.2 備份主檔案

BACKUPDATABASE [test] FILEGROUP=N'PRIMARY'
TO  DISK=N'E:\backup\test_PRIMARY_2018.bak'
WITHNOFORMAT,INIT,  NAME =N'test-完整 資料庫 備份',SKIP,NOREWIND,NOUNLOAD,  STATS= 10
GO

2.3 資料恢復測試

RESTOREDATABASE [test1] FILE=N'test'
FROM  DISK=N'E:\backup\test_PRIMARY.bak'
WITH  FILE= 1, 
MOVEN'test'TON'D:\DB\test1\test1.mdf',  
MOVEN'test_log'TON'D:\DB\test1\test1_1.ldf',   
RECOVERY,  replace,  STATS= 10
GO

2.4 歸檔說明

備份的表格、時間區間列表

備份檔案路徑名稱

資料恢復指令碼，見2.3

2.5 刪除歸檔資料

truncatetable [dbo].[testpp2018]
droptable [dbo].[testpp2018]

SQL Server 大資料管理——資料歸檔（主檔案備份）

SQL Server 大資料管理——資料歸檔背景：資料庫幾百GB，甚至TB級別資料庫，歷史資料偶爾會用到，不能直接刪除，就需要定期歸檔歷史資料。以往在歸檔歷史資料方案：方案1：做全備儲存歸檔資料，刪除線上庫歸檔資料方案2：建立一個新庫，將歸檔資料匯入到新庫，備

SQL Server調優系列基礎篇（並行運算總結）

前言上三篇文章我們介紹了檢視查詢計劃的方式，以及一些常用的連線運算子、聯合運算子的優化技巧。本篇我們分析SQL Server的並行運算，作為多核計算機盛行的今天，SQL Server也會適時調整自己的查詢計劃，來適應硬體資源的擴充套件，充分利用硬體資源，最大限度的提高效能。閒言少敘，直接進入本篇的

SQL Server調優系列基礎篇（索引運算總結）

前言上幾篇文章我們介紹瞭如何檢視查詢計劃、常用運算子的介紹、並行運算的方式，有興趣的可以點選檢視。本篇將分析在SQL Server中，如何利用先有索引項進行查詢效能優化，通過了解這些索引項的應用方式可以指導我們如何建立索引、調整我們的查詢語句，達到效能優化的目的。閒言少敘，進入本篇的正題。技術

SQL Server調優系列基礎篇（聯合運算子總結）

前言上兩篇文章我們介紹了檢視查詢計劃的方式，以及一些常用的連線運算子的優化技巧，本篇我們總結聯合運算子的使用方式和優化技巧。廢話少說，直接進入本篇的主題。技術準備基於SQL Server2008R2版本，利用微軟的一個更簡潔的案例庫（Northwind）進行解析。一、聯合運算子所謂的聯

SQL Server 2014新特性——基數評估（白皮書閱讀筆記）

基數評估目錄說明查詢優化器的目的是為了找出有效的執行計劃，根據cost運算，取出cost最小的計劃，作為執行計劃。其中影響cost最重要的一項就是基數評估（估計行數）。SQL Server 2014

SQL Server 索引和表體系結構（非聚集索引）

非聚集索引概述對於非聚集索引，涉及的資訊要比聚集索引更多一些，由於整個篇幅比較大涉及接下來的要寫的“包含列的索引”，“索引碎片”等一些知識點，可能要結合起來閱讀理解起來要更容易一些。非聚集索引和聚集索引一樣都是B-樹結構，但是非聚集索引不改變資料的儲存方式，所以一個表允許建多個非聚集索引；非

Windows10安裝SQL server 2016/2014 失敗解決方法（錯誤程式碼: 0x851A0019）

最近想學資料庫，但是在安裝SQL2014時總是失敗，原因是（錯誤程式碼: 0x851A0019）找不到資料庫引擎啟動控制代碼！網上找了很多解決方法都無效。我以為是應為Win10系統的原因，就裝了SQL2016但是依然因同樣的原因而失敗，直到我看到這個部落格：http

使用者sa登入失敗,該使用者與可信SQL server連線無關聯錯誤18452（遠端資料庫訪問）

//******************************************************** 在這裡插一點：SQL server 安裝時（不論是2000還是2005）需要選擇使用本地連線和混合模式。在SQL server 2000安裝時，例項名最好選

SQL Server 索引和表體系結構（包含列索引）

包含列索引概述包含列索引也是非聚集索引，索引結構跟聚集索引結構是一樣，有一點不同的地方就是包含列索引的非鍵列只儲存在葉子節點；包含列索引的列分為鍵列和非鍵列，所謂的非鍵列就是INCLUDE中包含的列，至少需要有一個鍵列，且鍵列和非鍵列不允許重複，非鍵列最多允許1023列（也就是表的最多列-1），由於索

給SQL Server儲存過程,傳送陣列引數（多個引數）的變通辦法

最近在做開發過程中碰到這麼一個糾結的問題,需要同時插入N條資料,不想在程式裡控制,但是SQL Sever又不支援陣列引數.所以只能用變通的辦法了.利用SQL Server強大的字串處理傳把陣列格式化為類似"3500320083208#350060052089

sql server 2008 r2安裝相關問題（安裝成功之後沒有管理工具，只有匯入匯出資料選項以及配置工具目錄下相關內容）

這學期學了資料庫知識，因為學習知識以及課程設計需要用到資料庫，所以必須安裝資料庫。我選擇的是sql server 2008 r2，一個多月以前安裝過sql server 2008 r2（具體的安裝教程和下載地址網上都有），但反反覆覆好幾次都沒有安裝成功，反而因為解除安裝相關構件可能誤刪了

SQL Server 大資料搬遷之檔案組備份還原實戰

一.本文所涉及的內容（Contents）二.背景（Contexts）　　有一個數據庫大概在700G左右，需要從伺服器A搬遷到伺服器B，兩臺伺服器網路傳輸速度可以達到8MB/s，怎麼做才能更快的搬遷並且宕機時間最短呢？　　資料庫業務邏輯概述：這個資料庫只會插入資料，每天大概有300W條資料，不會

SQL SERVER 經典語句大全必學（4）——資料開發-經典篇

四、資料開發 1.按姓氏筆畫排序:Select * From TableName Order By CustomerName Collate Chinese_PRC_Stroke_ci_as //從少到多 2.資料庫加密:select encrypt('原始密碼') select pwd

SQL Server中將多行資料拼接為一行資料（一個字串）

SELECT @Users = @Users + ‘,’ + UserName FROM dbo.[User] WHERE RoleID = 1 SELECT @Users 方法二:使用for xml path(”) 和stuff –使用自連線、f

asp.net學習總結——ADO.net（對Sql Server進行操作的資料訪問類）

ADO.net物件 System.Data.SqlClient（對Sql Server進行操作的資料訪問類）： 1)SqlConnection：資料庫聯結器2)SqlCommand：資料庫命名

SQL Server大資料匯入匯出:將一張表的資料匯入到另一張表

今天下午休息的時候又被扔給一項任務：把全國的街道資料匯入街道表。但是他們扔給我的SQL指令碼是從網上down的一個，跟平臺這邊的資料庫設計的完全不一樣。

SQL Server 表的管理_關於表的操作增刪查改的操作的詳解（案例代碼）

har table 詳解增刪 .com ble tab SQ eat SQL Server 表的管理_關於表的操作增刪查改的操作的詳解（案例代碼）概述：表由行和列組成，每個表都必須有個表名。 SQL CREATE TABLE 語法 CREATE T

SQL SERVER匯出表中資料的sql指令碼形式

CREATE proc spGenInsertSQL (@tablename varchar(256)) as begin declare @sql varchar(8000) declare @sqlValues varchar(8000) set @sql =' (' set @sqlVal

SQL Server 2008 R2匯出資料指令碼的方法

SQL Server 2008才能匯出包含資料的指令碼，後來仔細研究發現其實SQL Server 2008 R2也是可以的，只需在匯出的時候在高階中設定一下即可。 1.首先在資料庫上右鍵依次選擇任務=>生成指令碼。 2.在彈出的視窗中選擇要操作的表，然後點選下一步。

大資料基礎學習路線（從零開始）

大資料已經火了很久了，一直想了解它學習它結果沒時間，瞭解了一些資料，結合我自己的情況，整理了一個學習路線，。學習路線 Linux(shell,高併發架構,lucene,solr) Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,

SQL Server 大資料管理——資料歸檔（主檔案備份）

一. 主檔案資料移動到輔檔案

1.1 新表處理：

1.2 已經存在的表

1.2.1 不需要歸檔的表

1.2.1.1 建立聚集索引移動資料

1.2.1.2 刪除聚集索引移動資料

1.3 需要定期歸檔表資料的轉移

1.4 收縮主檔案

二. 歸檔歷史資料

2.1 將歸檔分割槽資料轉為普通表資料

2.2 備份主檔案

2.3 資料恢復測試

2.4 歸檔說明

2.5 刪除歸檔資料

相關推薦