精品文档
精品文档
1.
什么是逻辑数据映射?它?/p>
ETL
项目组的作用是什么?
答:逻辑数据映射?/p>
Logical
Data
Map
)用来描述源系统的数据定义、目标数据仓库的模型
以及将源系统的数据转换到数据仓库中需要做操作和处理方式的说明文档,通常以表格或
Excel
的格式保存如下的信息?/p>
目标表名?/p>
目标列名?/p>
目标表类型:注明是事实表、维度表或支架维度表?/p>
SCD
类型:对于维度表而言?/p>
源数据库名:源数据库的实例名,或者连接字符串?/p>
源表名:
源列名:
转换方法:需要对源数据做的操作,?/p>
Sum(amount)
等?/p>
逻辑数据映射应该贯穿数据迁移项目的始终,在其中说明了数据迁移中的
ETL
策略。在?/p>
行物理数据映射前进行逻辑数据映射?/p>
ETL
项目组是重要的,它起着元数据的作用。项?/p>
中最好选择能生成逻辑数据映射的数据迁移工具?/p>
2.
在数据仓库项目中,数据探索阶段的主要目的是什么?
答:
在逻辑数据映射进行之前?/p>
需要首先对所有的源系统进行分析?/p>
对源系统的分析通常?/p>
括两个阶段,一个是数据探索阶段?/p>
Data Discovery Phase
?/p>
,另一个是异常数据检测阶段?/p>
数据探索阶段包括以下内容?/p>
1)
收集所有的源系统的文档、数据字典等内容?/p>
2)
收集源系统的使用情况,如谁在用、每天多少人用、占多少存储空间等内容?/p>
3)
判断出数据的起始来源?/p>
System-of-Record
?/p>
?/p>
4)
通过数据概况?/p>
Data Profiling
)来对源系统的数据关系进行分析?/p>
数据探索阶段的主要目的是理解源系统的情况?/p>
为后续的数据建模和逻辑数据映射打下坚实
的基础?/p>
3.
如何确定起始来源数据?/p>
答:这个问题的关键是理解什么是
System-of-Record
?/p>
System-of-Record
和数据仓库领域内
的其他很多概念一样,
不同的人对它有不同的定义?/p>
?/p>
Kimball
的体系中?/p>
System-of-Record
是指最初产生数据的地方?/p>
即数据的起始来源?/p>
在较大的企业内,
数据会被冗余的保存在?/p>
同的地方?/p>
在数据的迁移过程中,会出现修改、清洗等操作?/p>
导致与数据的起始来源产生?/p>
同?/p>
起始来源数据对数据仓库的建立有着非常重要的作用,
尤其是对产生一致性维度来说?/p>
我们
从起始来源数据的越下游开始建立数据仓库,我们遇到垃圾数据的风险就会越大?/p>
4.
?/p>
ETL
过程中四个基本的过程分别是什么?
答:
Kimball
数据仓库构建方法中,
ETL
的过程和传统的实现方法有一些不同,主要分为?/p>
个阶段,分别是抽取(
extract
?/p>
、清洗(
clean
?/p>
、一致性处理(
comform
)和交付?/p>
delivery
?/p>
?/p>
简称为
ECCD
?/p>
1)
抽取阶段的主要任务是?/p>
读取源系统的数据模型?/p>
连接并访问源系统的数据?/p>
变化数据捕获?/p>