华远智德(北京)科技有限公司 Jupiter Consulting (Beijing) Ltd.
  
技术讲堂


您的位置: 首页 技术讲堂 第一课 数据分析过程中的多维技术
        第二讲 多维思考

数据分析讲堂
  
第一课 数据分析过程中的多维技术
  
第二讲 多维思考
  
     如果你现在正在为跟踪不同产品在不同商店中每月的销售情况而头疼,说明你遇到了多维数据分析的问题。在这个例子中,我们应该用什么可视化象征物来表示涉及到的数据呢?又如何在一个数据分析系统中组织这些数据呢?如果依然用立方体来作为四维或者更高维可视化的象征物的话,整个可视化过程就会显得杂乱无章。图2.1中显示了一个四次元立方体,但是这个显示看起来已经过于复杂,而不象上一讲中的图那样容易理解。这就是当数据集增加到四个维度或更高时,会产生一个问题,即:逻辑维度和物理维度之间的差别。

按此在新窗口浏览图片

       奥地利思想家Ludwig Wittgenstein曾经针对这样的问题提出过一个基本理论:当使用一件物体来代表另外一个物体时,两者之间必须拥有一些共同的特征。因此用立方体表示的通常应该是数据生成事件中的一些方面,使其能够很好地对数据集进行理解,当然,数据生成事件中必然有一些方面是立方体无法体现的。

       立方体的特征之一是在任何一点上所有的维度都是共同存在的。正如图2.2中所显示的,三维空间中的任意点(Xn,Yn,Zn)都是由X,Y,Z轴的值唯一确定的。从数据表示的角度来看,举一个例子就是立方体中的一个点可以代表这样的事实:2月份靴子的销售额是1000元。立方体中的每一个事实都是由各个维度上的值唯一确定的。对于每一个销售事件,总是可以得到销售的产品、销售的金额和销售日期。因此,维度的共存性是立方体和数据生成事件所共有的特征。

         立方体所具有的另外一个特征是这些共存的维度都是彼此独立的。如图1.3中描述的那样,对任何一个维度的变化都可以是独立进行。从点111,我们可以变换到点112,121,211等。将这个变换运用到前面的例子,就意味着任何产品在任何时间都可以进行销售。从前面的例子中我们可以看到任何一个商业维度都是彼此独立的。你可以从2月份靴子的销售情况转到浏览3月份袜子的销售情况或者2月份袜子的销售情况。这是因为产品、商店、时间和销售变量都是彼此独立的。因此,维度的独立性也是立方体和数据生成事件所具有的共有特征。

按此在新窗口浏览图片

按此在新窗口浏览图片

那么到底是什么导致立方体不能很好地进行高维数据的表示呢?立方体和数据生成事件之间到底存在哪些不同的结构特征呢?

让我们思考一下立方体另外的特征是什么?

       在几何学中,X轴是垂直于Y轴的,而Y轴又是垂直于Z轴的。这三个彼此垂直的坐标轴很好地对应了现实世界的长、宽、高。现在让我们看一下在变量、商店、时间和产品之间是否也存在某种角度的关系呢?无论是说商店垂直于产品,或者说客户垂直于时间,都是没有任何意义的。

     讨论到这里,我们得出一个结论。立方体中存在维度之间的饿角度关系对于事件的表示并不是必要的。一个有用的表示方法需要满足维度的共存性和独立性,不管共存性和独立性是如何定义的,这两个特征都是逻辑上的而不是物理上的。任何象征物只要具有一致的维度独立性和共存性定义,就能够用于高维空间的表示和可视化。

  

        首页   |  公司介绍   |  服务理念   |  经营管理   |  企业管理 【TOP】      
版权所有 © 2015 jupiterst.com