Data Vault 2.0的结构简介

本文为《Building a Scalable Data Warehouse with Data Vault 2.0》的阅读笔记

合格的企业数据仓库

合格的企业数据仓库（Enterprise Data Warehouse，EDW）应当具备以下特点：

Access：快速连接，快速处理请求，请求结果易于理解
多主题：数据仓库能够面向多个业务部门，保证同时满足不同部门的业务要求
只有一个真相：不同部门的请求结果应保证一致性
保证数据质量
可伸缩性：能够应对不断增长的数据量和用户量
Big Data的特点
- volume：超过硬件处理能力的数据量
- velocity：需要快速加载外部数据源
- variety：各种非结构化的数据，文本音频图片等等
高性能：主要体现在处理请求和加载数据两个方面

为了应对快速变化的业务需求，数据仓库必须保证足够的灵活性。Data Vault 2.0 便是一种灵活的建模方案。

Data Vault 2.0 的分层结构

按照从源头到终端的数据流动顺序，Data Vault 2.0 包含以下几层：

Staging Area layer，强制实现
Data Warehouse layer，强制实现
Business Vault layer，可选实现
Information Delivery/Mart layer，强制实现

数据的转换

当数据从源头进入EDW，以及从EDW呈现给终端用户时，会经历数据转换的过程，这个转换依赖于两类规则：

Hard 业务规则：这类规则不会修改数据内涵，会修改其存储形式，依照业务本身定义。规则相对稳定。
Soft 业务规则：由业务人员确定，一般会频繁的变化。

过去，这两类规则都体现在数据从源头导入EDW的阶段。然而灵活多变的Soft规则导致ETL工具不断的重构，降低了EDW系统的伸缩性。 Data Vault 2.0则将ETL拆分为两个部分。数据从源头进入EDW时执行Hard规则，数据将要呈现给终端用户的时候执行Soft规则。减少了ETL工具的重构开销。

Staging Area layer

这一层主要作用是快速的从操作性数据库（operational database）提取数据，减少对业务系统的影响。

不包含历史数据，只存储下一次需要加载到DW层的数据；如果又一次ETL执行失败，需要清除加载到一半的数据，重新执行ETL。

staging通常需要完整的复制source表中的数据，需要包含主键但不包含外键和索引之类确保数据引用完整性的数据。

staging环境的表中需要包含如下列作为元数据，会将来加载到DW层：

顺序编号：记录数据在source系统的顺序
时间戳：记录数据进入edw的时间
记录源
business key的hash计算与其组合的hash计算：用于标示数据身份

这一层需要快速写入数据，容错要求不高，因此推荐使用RAID0磁盘架构。如果数据完全结构化且类型明确，可以使用关系型数据库存储数据，否则可使用NoSQL。

Data Warehouse layer

又称作Raw Data Vault layer。

这一层是主要的数据存储层，存储所有随时间变化的历史数据。这里的数据都是面向功能的（function-oriented）。

这一层存储了所有历史性的数据，难以恢复，因此要求系统有良好的纠错能力，建议使用RAID1或RAID5磁盘架构。同时建议使用异地机房确保数据的安全。机房间通信安全可以考虑用SSL或VPN来保证。

这一层使用Hub、Link、Satellite三种表来组织数据。

Hub 存储业务实体的元信息metadata，例如业务键 business key，一个业务键对应一个业务实体 business object
Satellite 包含了Hub和Link对应的业务context
Link 链接各个hub与link，也可以为下一层的维度模型的fact表提供参考

Hub表

Hub所使用的business key需要注意使用范围，避免冲突。business key多用于join操作，使用int类型比char类型更具性能优势

Hub的4+1属性：

Hash Key - 用于join操作、主键、外键。hash key应该是可计算的（允许重复生成），固定长度的。建议的计算方式见Chapt.11。hash key不能暴露于Data Vault结构之外
Business Key - hub的核心内容；对于复合bk，不要求只用一列存储；一个hub对应一个bk，如果一个业务实体有多个bk，那应当用多个hub分别存储
Load Date - 进入dw系统的时间戳，一旦生成永不可改，用于审计
Record Source - 也用于数据审计和溯源，如果bk有多个源头，就填写master源头
Last Seen Date - 可选属性。遇到只能全量加载数据，而不能增量加载数据时，可以标示出一个bk是否已被源头删除，等等。

Link表

Link用于关联多个Hub，如果Hub之间的关系从1-1变成了n-n或者1-n，那么Link的存在保证了表关系变更范围降低到了最小：增加新的link表就好了。

Link还可以关联位于不同数据库系统里的Hub。例如一个在Postgres，另一个在MongoDB。

Link的粒度：Link关联的Hub越多，粒度就越小。有点像维度模型里的fact事实表。

如果需要修改Link的粒度，直接修改表结构是不推荐的。因为相应的ETL工具也需要较大的重构，甚至会发生历史数据丢失的情况。推荐的方式是，新建一张Link表，存储新的关系。旧的Link表则封存起来。

Link的属性：

Hash Key - 需要从link的特征属性计算得出，方便ETL检查重复数据，以及后续查询的join操作
Load Fate
Record Source
Last Seen Date - 可选属性。
Dependent child key - 可选属性，某些依赖于link属性才能有意义的属性。例如某本里的页码。需要注意，可能符合该条件的属性应该放在Satellite表中。

Satellite表

Satellite表用于存储业务实体或关系的描述信息，往往会随时间变化。这些变化也在Sat表的存储范围内。

一个Sat表关联于一个Link或Hub，用其hash key和修改时间共同标示。需要注意的是，一个Link或Hub可能有多个Sat，各类属性按照业务分类或者数据类型的不同放在不同的Sat表中。

Satellite表是DV中唯一能够存储历史数据的位置。重构时需要小心，一定要保留好历史数据。也因此，数据只能一次性写入，永不可改。

不同的属性可能保存在不同的Sat表中，建议两种区别方式：

数据源。
- 增加数据源时，可以不改动当前Sat表的结构
- 维持数据的追溯轨迹
- 数据导入时，不会出现对目标Sat表的竞争使用（IO层面或数据库层面）；保证了并行化导入的效率
- 不要求实时数据与批量数据同时导入
数据变动频率

Sat表包含如下属性：

Record Source
Parent Hash Key - 构成自身Primary Key的第一部分
Load Date - 构成自身Primary Key的第二部分，填写进入DW的时间。
Load End Date - 当前Sat记录失效的时间
Hash Diff - 可选属性。所有描述信息的hash值。便于快速比对。根据业务规则，也可以剔除某些列
Extract Date - 可选属性。数据从Source系统读取的时间

给Link表加Link的时候，考虑一下是否会提升后期重构的复杂度。

过宽的表会降低查询性能，因为页的大小是有限的。一个页能够存储的行越多，性能越好。

Business Vault layer

这一层介于Data Warehouse vault 和 Information Mart layer之间。在数据上应用了Soft转换规则，例如构建PIT表和Bridge表。

Point in Time table

PIT表是为了提高查询效率，在数据库内根据源数据预先计算，因此无法审计。

当查询因为涉及一个Hub/Link与其对应的多个Sat表而效率低下的时候，建议引入PIT表到Business Vault或Information Mart层。PIT表也可以包含计算结果列。

PIT实际上是某一时间的数据快照。当查询对时效性不敏感时，使用PIT可以避免过多的join操作。

为了保证PIT表的查询效率，应该尽量减少表内的数据量，及时清理陈旧的数据。

Bridge table

同样是为了减少join次数，提高查询性能，预先计算好放置在Business Vault层中，Bridge表像一种特殊的Link表，其中包含了多个Link/Hub表的Hash key。同时也要有Snapshot date存储行数据的生成时间。

Bridge表中也可以放置一些推导列，但是为出于性能考虑，表列不能太宽。过宽的Bridge表，会抵减这一表结构带来的性能提升。

Information Delivery/Mart layer

这一层对接终端用户，其中的information是面向主题的，可以用于关系型报告或者OLAP的多维cube计算。

Information Mart Layer通常使用维度模型（在关系型数据库中为星形模型）来建模，也就是1张fact表关联多张dimension表的形式。

Fact表中的dimension数量称作表粒度。fact表粒度小，则有助于终端用户更自由的组织数据，粒度大可以帮助用户做一些预先计算。

这一层可以不存储任何数据，只做虚拟表。也可以出于性能考虑，复制一些数据。因此建议使用RAID0磁盘架构。

Metric layer

可选层。用于记录运行时数据，运行历史、CPU占用率、内容/磁盘负载，网络吞吐等等。

Operational Vault layer

可选层。便于操作性应用直接读取或修改Data Warehouse layer的数据，是Data Warehouse layer的拓展。

参考资料

Data Vault Series. Part 3 - The Business Data Vault