海量數據模型實施方法論恢復
阿新 • • 發佈:2017-10-01
log 模型設計 基於 完整 定義 數據接口 二義性 多對多 全量 模型是現實世界實物特征的一種抽象,比如地圖,沙盤,氣象圖或者星象圖等。數據模型是實物數據特征的抽象。
一。LDM(邏輯數據模型)
三要素:實體,屬性和關系,采用實體-關系模型,用ERwin建模。
模型設計的好壞直接關系到數據的:
-穩定性
-易用性
-查詢性能
-存儲空間
-維護成本
理想的邏輯數據模型結構應該如下:
-將相關的主題域進行組合,形成更少的高階分組。
-主題域至少應該包含在一個主要主題域裏面,達到可重用性。
-不同行業的主要主題域都不相同
-真實世界實物的描述,靜態實體,以及它們之間動態的關系
-實體代表一個人,一個組織,概念或者事件
-屬性描述了實體的特征和數據事實
-它們的關系有一對多,多對一,多對多
-相關對象的組合(實體,屬性和關系)以表達一個特定的業務功能
-實體可以屬於一個或者多個主題域,達到可重用性。
-一個主題域可以由一個或者多個ER圖構成,以表達主要目標的不同方面
統一的邏輯數據模型框架構成:
-用於管理數據建模的標準和規範
-用於創建可用於業務功能描述的模型方法論
-將邏輯數據模型封裝到行業邏輯數據模型的方法論
二。模型設計流程
1)信息分析和數據提取
-了解源業務系統:業務種類和規則
-源業務系統的關系:數據接口,加工規則,怎樣保持一致性
-了解源數據結構和流向
-數據概況:數據量,增全量導出方式,數據格式,數據質量
重點講樣本數據檢驗規則!!:
- 驗證業務規則
-表間數據關系分析
-每個字段的分析:
字段業務含義,字段取值範圍, 字段間有無關聯關系, 字段關系是否完整, 數據質量情況(非代碼字段的空值,非法值,主鍵完整性,唯一性,外鍵完整性)
-填寫樣本數據和代碼表取值
2)邏輯模型的設計
目標:
- 不針對某個特定的應用而設計
- 以第三範式存放數據,業務發生變化時易於擴展,適應復雜業務情況
- 穩定性:能夠在很長時間(比如5年內)適應和回答不斷變化的業務問題
- 易解釋性:使用業務語言設計,易於IT和業務人員進行交流
步驟:
- 統一業務術語:對重要的業務元素進行統一定義
- 構建LDM原型框架:確定著數據倉庫的數據組織原則和基本形式,也確定著數據倉庫的應用範圍和應用模式
確定模型設計的主題範圍,主題重要的LOGICAL VIEW, 各主題重要的實體,分類和關系,確定各實體的主鍵和候選鍵
- 基於LDM原型框架,進行各主題的詳細設計:
創建各主題的實體和屬性,盡可能簡單,用業務無法二義性解釋的語言進行說明
建立各實體的關系,準確體現業務規則
選擇主鍵:邏輯主鍵或者代理主鍵
整理相關代碼表:建立主外鍵關系
- 定義轉化規則:從源系統到LDM的映射,數據類型,業務轉換規則,對數據質量差和缺失的數據的業務規則進行補充說明
- 完善與跟蹤:
與技術人員進行討論:
- 如果源業務系統的數據與業務描述不對應
- 如果重要的數據缺失
- 如果實體之間的關系不正確
與業務人員或者分析師進行討論:
- 是否能準確實現業務需求
- 是否能方便理解
- 重要的業務規則是否得以體現
3)物理模型的設計:
在邏輯數據模型的框架和原則上,針對系統性能和應用需求進行適當的非範式化的物理模型設計:
與LDM相同點:
- 主題,實體,屬性和關系一致
海量數據模型實施方法論恢復