数据视觉化@Harvard笔记(9)

正式内容的最后一节: 高维度数据

我们平时工作时接触的数据大部分都是高纬度的,比如国家这个对象可以收集的数据有人口,GDP,年龄分布,男女比例等等等等。

高维度数据很难视觉化,即使能用图像表现也不直观、不容易很快理解,从这一角度说就失去了视觉化的意义。

分析高纬数据的一个办法是降维。我曾做过一个市场细分的案例,大概16个国家,每个国家有30多个属性,客户又希望能通过如2x2矩阵这样简单的方式呈现。可是在平面上想用一张图表达是非常困难的。用前几节里提过的视觉通道的理论虽然至少可以表现5维(横轴,纵轴,形状,颜色,面积)属性,但3维以上的信息通过目测就已经很难归纳吸收了。后来我和同事建立模型把这30多个属性再分类,通过减少维度来简化信息。不过模型这种东西总是仁者见仁,智者见智。模型越复杂,假设越多,就离真相和本质越远,搞不好辛辛苦苦收集来的原始数据全给糟蹋了。

除了上述的降维,下面再给出几种方法。其中,第一类方法可行性比较高,而且能读懂的人比较多。

1. 多幅小图 - 适用于维度不是特别高(5维左右)

例: 摘自Protovis

Automobile

2. 多根平行坐标

先把坐标轴平行排好,再把每一个对象的不同维度值标在坐标轴上。最后一步是染色,方便我们看出整体趋势: 选取一个坐标轴,从上到下颜色渐变。在下面得例子中,选取的坐标轴是右边第三根(mpg),从上到下由红渐蓝,这样我们就能看出mpg高的值和mpg低的值在其他轴上的变化。

例: 摘自Protovis

Parallel coordinates

Parallel coordinates

Parallel coordinates

3. 蛛网图

例: 摘自课件

把每个对象的不同维度值标在散射的轴上,再把他们用线连起来。如果有一个标准值,把这个标准值也在蛛网图上表示出来,这样能方便综合比较实际数据与标准值。公司财务分析就是一个很好的应用。下面的例子和之前的例子一样,都是关于汽车的。

Parallel coordinates

Tags: DataVis