数据分析讲堂 第二课 OLAP系统的功能性需求 第四讲 事务处理和决策支持处理的差别(2) 不同于面向操作的和基于较低频率事件的信息活动,管理者和分析师会提出一些更高层次的分析型问题,比如:
(1) 今年以来,公司的哪些产品是最有利润的
(2) 最有利润的产品和去年的是不是一样
(3) 公司今年这个季度的运营和去年相比情况如何
(4) 哪些类型的客户是最忠诚的
这些问题的答案就是典型的基于分析面向决策的信息。
基于分析面向决策的软件活动量在一天中会有很大的波动。平均来说,更多进行的是数据的读取而不是写入,如果有写入的话,也往往是采用批量更新的方式。数据可以代表现在、过去和计划中未来的状态,同时常常一次数据操作就会立刻牵涉很多部分的信息。分析型的查询常常在派生数据上进行,而且查询的内容往往是事先不可知的。例如,一个品牌经理可能会以查询品牌利润按地区分布情况来开始他的分析活动。每一个利润的数值指的是,在指定时间内,某个品牌所有产品在该地区的所有地方销售利润的平均值。每一个利润数值都可能是由成千上万的原始数据汇聚而成的。从这个意义上来说,这些利润数值是高层的,且是派生出来的信息。如果它们是计划中的数字,那么它们依然可能是很高层的信息,但却是直接输入的而不是派生的,数据层次和是否派生并不是等义的。如果有些利润数值看起来不太寻常,这时候经理可能就会开始寻找不寻常的原因了。这种非结构化的探索会将经理带到数据库中的任何角落。
图2.3.3总结了操作型和基于分析的面向决策的信息处理活动的比较。
由于操作型和基于分析的面向决策的软件活动之间存在着这些差别,大多数中等规模或者更大型的公司都在不同的硬件平台运行不同的软件产品,分别用于日常事务和分析。这样做是非常必要的,原因有三点:
(1) 典型的全球2000家企业需要软件在进行事务处理和分析决策处理的时候都拥有最高的效率
(2) 快速更新,对于最高效的事务处理是必需的;快速计算,对于最高效的面向分析的处理是必需的,而两者需要的索引方式却是互斥的
(3) 基于分析的面向决策的活动应该对于操作型系统没有性能上的影响简单地说,一般的家庭只要开着旅行车在公路上巡游和运送物品就可以了,但是大型的企业需要的是赛车和卡车。

专注于商业中事务处理的软件产品,基本上都是架构于大型的数据库系统之上的,并被人们称为联机事务处理系统。在过去35年间,OLAP软件的发展遵循了一条非常清晰的路线。OLAP系统发展的目标就是能够处理更大量的数据,每时间单元能够处理更多的事务,能够支持更多的并发用户,具有更好的系统健壮性。
图2.3.4表示的就是OLAP环境。它显示了从原始数据到最终用户的流程链。在数据源到用户之间,可能存在多个数据存取和数据处理层。下面让我们更仔细地分析一下这些情况。
在图2.3.4的一端,是指向数据源的链接。这些数据源可能包括事务处理和外部数据源,比如Internet或其他信息供应商。需要注意的是实际的数据源,包括Internet,都是跨越了OLAP环境边界的,因为这些数据同时也参与了其他一些功能类别。例如,交易数据同时也属于OLAP系统。由于原始数据一般都是被复制到 OLAP系统中来的,所以必须注意保持数据源中数据元数据和OLAP中数据的同步。
当可能存在多个数据源的时候,就有必要将不同数据源中的信息整合标准化,形成一种统一的形式。对于大型企业来说,整合经常是分为多个阶段进行的。通常整合的类型包括主题维度整合和度量整合。通常的标准化包括:标准化男/女等二元变量的编码方式和标准化数值变量的编码方式。
用于分析的原始数据可以是实际的,也可以是虚拟的。如果是实际的,那就意味着确实存在一个数据集。如果是虚拟的,那就只存在和实际数据源的连接,有请求时数据才会被读入,因此,数据请求者不用知道请求的数据是否存放在一个数据集中。如果数据是实际的,那就至少需要一个数据服务器。

在OLAP链的每个阶段,从原始数据到最终使用,数据就象其他原料加工处理一样也是逐步求精的。当数据到达最终用户的时候,它应该经过了清理、整合、汇总、拓展和其他一些为达到目的进行的提升,以便这些信息能够直接被利用于决策的制定。
OLAP是一种自然的信息处理类别,同时可以作为数据挖掘、决策优化、数据抽取工具和关系型数据库的基础框架,也可以用于创建与数据仓库类似的决策支持模式。为数据获取而不是数据更新进行了优化的OLAP产品更关注于面向分析的活动,而不是操作型活动。
|