数据立方体模型总结
数据立方体认识
定义:数据立方体是一类多维矩阵,让用户从多个角度探索和分析数据集,通常是一次同时考虑三个因素(维度)。数据立方体模型属于数据仓库的多维数据模型。 意义:当我们试图从一堆数据中提取信息时,我们需要工具来帮助我们找到那些有关联的和重要的信息,以及探讨不同的情景。一份报告,不管是印在纸上的还是出现在屏幕上,都是数据的二维表示,是行和列构成的表格。在我们只有两个因素要考虑时,这就足矣,但在真实世界中我们需要更强的工具。数据立方体模型在预测趋势和分析业绩时,数据立方体是极其有用的。
数据立方体的构成:数据立方体由两个单元构成
1)维度:因素 2)测度:实际的数据值
建立数据立方体模型的方法(OLAP)
OLAP(On-line Analytical Processing,联机分析处理)是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。联机分析处理(OLAP)系统是数据仓库系统最主要的
应用,专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观而易懂的形式将查询结果提供给决策人员,以便他们准确掌握企业(公司)的经营状况,了解对象的需求,制定正确的方案。在国外,不少软件厂商采取了发展其前端产品来弥补关系数据库管理系统支持的不足,力图统一分散的公共应用逻辑,在短时间内响应非数据处理专业人员的复杂查询要求。
(拓展)当今数据处理大致分为两类:OLAP(On-line Analytical Processing,联机分析处理)OLTP(On-line Transaction Processing,联机事务处理),两者的区
别:
OLAP与OLTP
数据处理类型 面向对象 功能实现 数据模型 数据量 操作类型 OLTP 业务开发人员 日常事务处理 关系模型 几条或几十条记录 查询、插入、更新、删除 OLAP 分析决策人员 面向分析决策 多维模型 百万千万条记录 查询为主 OLAP的基本操作
我们已经知道OLAP的操作是以查询——也就是数据库的SELECT操作为主,但是查询可以很复杂,比如基于关系数据库的查询可以多表关联,可以使用COUNT、SUM、AVG等聚合函数。OLAP正是基于多维模型定义了一些常见的面向分析的操作类型是这些操作显得更加直观。
OLAP的多维分析操作包括:钻取(Drill-down)、上卷(Roll-up)、切片(Slice)、切块(Dice)以及旋转(Pivot),下面还是以上面的数据立方体为例来逐一解释下:
钻取(Drill-down):在维的不同层次间的变化,从上层降到下一层,或者说是将汇总数据拆分到更细节的数据,比如通过对2010年第二季度的总销售数据进行钻取来查看2010年第二季度4、5、6每个月的消费数据,如上图;当然也可以钻取浙江省来查看杭州市、宁波市、温州市……这些城市的销售数据。
上卷(Roll-up):钻取的逆操作,即从细粒度数据向高层的聚合,如将江苏省、上海市和浙江省的销售数据进行汇总来查看江浙沪地区的销售数据,如上图。
切片(Slice):选择维中特定的值进行分析,比如只选择电子产品的销售数据,或者2010年第二季度的数据。
切块(Dice):选择维中特定区间的数据或者某批特定值进行分析,比如选择2010年第一季度到2010年第二季度的销售数据,或者是电子产品和日用品的销售数据。
旋转(Pivot):即维的位置的互换,就像是二维表的行列转换,如图中通过旋转实现产品维和地域维的互换。
OLAP的类型(根据存储方式的不同进行分类)
根据多维数据模型存储方式不同,OLAP主要可以分为三类:基于多维数据库OLAP(MOLAP),基于关系数据库的OLAP(ROLAP)和混合型的HOLAP。 1 MOLAP
MOLAP表示基于多维数据组织的OLAP实现(Multidimensional OLAP)。以多维数据组织方式为核心,也就是说,MOLAP使用多维数组存储数据。多维数据在存储中将形成\立方块(Cube)\的结构,在MOLAP中对\立方块\的\旋转\、\切块\、\切片\是产生多维数据报表的主要技术。特点是将细节数据和聚合后的数据均保存在cube中,所以以空间换效率,查询时效率高,但生成cube时需要大量的时间和空间。 2 ROLAP
ROLAP表示基于关系数据库的OLAP实现(Relational OLAP)。以关系数据库为核心,以关系型结构进行多维数据的表示和存储。ROLAP将多维数据库的多维结构划分为两类表:一类是事实表,用来存储数据和维关键字;另一类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。维表和事实表通过主关键字和外关键字联系在一起,形成了\星型模式\。对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模式的扩展称为\雪花模式\。特点是将细节数据保留在关系型数据库的事实表中,聚合后的数据也保存在关系型的数据库中。这种方式查询效率最低,不推荐使用。 3 HOLAP
HOLAP表示基于混合数据组织的OLAP实现(Hybrid OLAP)。由于MOLAP和ROLAP有着各自的优点和缺点,他们的结构也是迥然不同,这给分析人员设计OLAP结构提出难题。为此提出一个新的结构HOLAP(混合型olap),它能将MOLAP和ROLAP两种结构的优点结合起来。但是迄今为止还没能给HOLAP一个明确的定义。很明显HOLAP不是简单的MOLAP和ROLAP简单的有机结合,而是这两种技术的优点的集合,能满足用户各种的分析请求。如低层是关系型的,高层是多维矩阵型的。这种方式具有更好的灵活性。特点是将细节数据保留在关系型数据库的事实表中,但是聚合后的数据保存在cube中,聚合时需要比ROLAP更多的时间,查询效率比ROLAP高,但低于MOLAP。 RLOAP和MOLAP的区别:
OLAP的衡量标准
1.多维性 2.直观性 3.可访问性
4.解释性批处理提取 5.OLAP分析模型
6.客户机/服务器结构性 7.透明性或开放性 8.多用户性
9.处理非正规数据性 10.存储OLAP结果 11.提取丢失值 12.处理丢失值 13.弹性报告 14.一致性能报告
15.对物理层的自动调整 16.通用维
17.无限维与聚合层 18.无限制跨维操作
OLAP的实现
数据库去实现的即时记录的功能,在数据准备区进行ETF处理,数据经过抽取、转换之后加载到数据仓库中,因此也说数据仓库是利用的已经存在的历史记录去整合,是利用原有数据分析下一步行动的决策,是有风险的。分析完主题和数据元后建立数据模型(概念模型、逻辑模型、物理模型)并形成事实表和纬度表,然后通过粒度分析将历史记录先抽取整合,然后再根据决策者可能用到的数据集合分解成若干记录,以备不同决策者使用;再利用OLAP工具技术进行数据的分析导出。当然,这些都在了解了管理者即客户的需求之后进行的,或者是由企业的管理者自己进行的技术应用或分析。
OLAP的优势
OLAP的优势是基于数据仓库面向主题、集成的、保留历史及不可变更的数据存储,以及多维模型多视角多层次的数据组织形式,如果脱离的这两点,OLAP将不复存在,也就没有优势可言。
数据展现方式
基于多维模型的数据组织让数据的展示更加直观,它就像是我们平常看待各种事物的方式,可以从多个角度多个层面去发现事物的不同特性,而OLAP正是将这种寻常的思维模型应用到了数据分析上。
查询效率
多维模型的建立是基于对OLAP操作的优化基础上的,比如基于各个维的索引、对于一些常用查询所建的视图等,这些优化使得对百万千万甚至上亿数量级的运算变得得心应手。
分析的灵活性
我们知道多维数据模型可以从不同的角度和层面来观察数据,同时可以用上面介绍的各类OLAP操作对数据进行聚合、细分和选取,这样提高了分析的灵活性,可以从不同角度不同层面对数据进行细分和汇总,满足不同分析的需求。
是不是觉得其实OLAP并没有想象中的那么复杂,一旦多维数据模型建成后,在上面做OLAP其实是一件很cool的事情。