华远智德(北京)科技有限公司 Jupiter Consulting (Beijing) Ltd.
  
技术讲堂


您的位置: 首页 技术讲堂 第一课 数据分析过程中的多维技术
        第一讲 如何在N维空间中思考数据分析

第一课 数据分析过程中的多维技术
  
第一讲 如何在N维空间中思考数据分析
    
     理解超立方体,或者说一个大于三维的立方体,是理解多维数据分析的基础,多维数据分析的超立方体与电子表格中的工作表和数据库中的表相对应。多维数据分析所有的浏览、报表、分析都是在超立方体上进行的。

     超立方体通常是在低维空间的点、线、面、立方体基础上开始展开的。我们可以通过类比来想象一个多维的立方体。尽管这不是一个最好的方法,因为对于超立方体的理解并不遵循物理立方体的长、宽和高。

       这一讲将指导我们如何考虑N维数据集或者现实世界的事物,我们采用的方法是在一个大家都熟悉的二维行列数据的基础上来增加维度。在讲解完本节课后,大家将会对超立方体有一个完整的认识,从而能够有效地吸取任何多维信息系统的信息。

       让我们从一个典型的二维数据出发,无论考虑的是每个员工的工时,每个部门的成本、每个客户的余额、还是每个商店的投诉,这些都能够以二维表格的形式组织。

图1.1是一个按照月份组织的有5列销售和成本信息的二维表格。这个表格用任何电子表格软件都可以轻易创建起来并且显示在屏幕上。月份以行的形式按照从小到大的顺序进行排列,最后一行是汇总。这个表格有5列数据,每个字段分别代表了一个销售或者成本数据。这个数据集也可以被看成只有两个维度:一个行上的月份维度和一个列上的变量维度。事实上,有很多种描述数据集维度的方法,只要把维度考虑成为两个部分:1-N个定位、标识、关键维度和具有1-N个变量的变量维度。

按此在新窗口浏览图片

图1.1 按照月份组织的销售额、成本和利润

       销售额、成本、利润分别代表了不同的变量。变量是我们跟踪的内容。如果有人问你“你在度量或者追踪什么”,你的回答就应该是“销售额、成本和利润”。变量维度的每一个成员或者元素就是一个具体的变量。

     与此想对应,月份代表了组织数据的方式。在这个案例中我们并没有追踪月份,而是用月份将销售额和成本信息隔离开来。如果有人提问“你的数据从哪里来”或者“你多长时间进行度量”,你就会回答“我们对销售情况的跟踪是按照月份进行的”。月份就是一个定位、标识、关键维度。在这个案例中,共有两个维度:一个定位维度,一个变量维度。

       当我们在这个基础上添加第三个产品维度的时候会发生什么情况呢?结果是我们可以很容易地用一个立方体来进行可视化。图1.2显示了一个分别代表产品、月份和变量的三维立方体。

按此在新窗口浏览图片

图1.2三维立方体:产品、月份和变量

图1.3以一种电子表格的形式展现了图1.2中的三维数据集。整个显示方式基本上和图1.1中的形式相同。其本质上也还是二维的表格,只是在左上方有一个页面图标,上面的标签是产品:靴子。这个页面图标就代表了第三个维度,也是所谓的页维度。

按此在新窗口浏览图片

图1.3典型的三维显示

  

这个包含了变量、时间和产品的三维数据集在计算机上是通过行、列、页这三个纬度来进行显示的。行、列显示的维度我们可以直观地看到,页面维度只是通过指明当前显示的是靴子、撑杆还是绑带来加以区别其代表的内容。这就好比是这个案例中你把全体数据想象为一个三维数据立方体,而通常我们显示的只是其中的一个切片,正如图1.4显示的那样

按此在新窗口浏览图片

       图1.4立方体的切片

        首页   |  公司介绍   |  服务理念   |  经营管理   |  企业管理 【TOP】      
版权所有 © 2015 jupiterst.com