【导读】本文约2200字,阅读时间约为15分钟。
每周,零一与您分享一本书,共同探索数据世界的浩瀚。若您喜欢,可转发与更多的人交流,共同成长。
一、数据
大多数人对于数据,仍然停留到较为表面的含义上,即数字,没有了解到它本质的含义。
简单来说,数据可以理解为是对现实世界的抽象表达,依存于它所代表的背景知识。
正如维克托·迈尔-舍恩伯格在《大数据时代》提到了世界的本质是数据。
我们进一步来理解。
【以照片为例-第一步】
一张照片代表一个数据点,也可以理解为一个数值,而一组则相当于一个数据集。
当我们刚拿到某一张照片的时候,未有任何的说明,我们就只能了解到眼睛所看到的。
但是,若有人跟你解释,那你就能知道照片背后的“5W”。而一组照片所形成的数据集则能进一步说明数据所代表的背景。
5W=何时(When)、何地(Where)、何人(Who)、何事(What)、何因(Why)。
不过,数据也不是固定不变的,它具有可变性和不确定性。
二、可视化
可视化其实就相当于是让数据“说话”,即连接数据和现象世界的媒介。
它以数据作为自己的内容,以图形、颜色等作为形式,根据目的来排列组合。
【以照片为例-第二步】
当一组照片根据它们出现的时间而绘制成相应的图表的时候,更多有价值的信息就出现了,譬如你可以从图中一眼就看出什么时候是婚宴的高潮,如下图。
一般的可视化组件主要由以下4部分组成:
1.视觉暗示:将数据映射成彩色图性,如图中的柱状,它一般包括长度、角度、方向、形状、面积与体积和颜色。
2.坐标系:指定可视化的维度,如图中的线条,主要分为直角坐标系、极坐标系和地理坐标系。
3.标尺: 指定了在每一个维度中数据映射的位置,如图中的1月、2月等,包括数字标尺、分类标尺和时间标尺。
4.背景信息:帮助更好地理解数据相关的5W信息,使得数据更清晰,并且能正确引导读者。
我们需要知道的是为什么要进行数据的可视化?
答案当然是为了读者,为了理解数据。
我们设计的可视化图形可以是为某一位读者设计,也可以是为更广泛的读者。
需要注意的是读者对数据的认知以及数据背景的熟悉程度,并不是每个人都能读懂可视化图形。
因此,针对一些“初级”的读者设计最简单饼图、柱状图远比树状图来得直观易懂。
不过,这里数据工作者需要注意以下4 个误区:
1.为了新颖而新的图表
2.认为一切皆能可视化
3.纯粹好看的图表
4.固守可视化的规则
我们要把握住数据的背景知识,根据实际需要来设计可视化图表,使得目标受众能够理解,并在必要时候辅之以相关数据予以说明。
三、数据的可视化
这个过程主要分为以下四个步骤:
1.明确拥有的数据
2.明确数据分析的维度
3.明确需要使用的工具
4.明确完成后的图表所具有的意义
不同的数据有不同的过程,这主要分为三种:
一是分类数据的可视化,即将整体划分为部分,形成分类,而这之中又可以细化成子分类。通过图表的展示,可以看到最大值和最小值,从而了解到数据集的范围。
二是时序数据的可视化,以时间作为划分的依据,寻找数据变化的模式,如呈现周期性或循环,从而对现实问题提供指导。如下图,我们可以从中很清晰地看出,美国的失业率呈现出周期性的变化,每隔一段时间就会出现峰值或谷值。
三是空间数据的可视化,以地理位置来划分。我们根据某一个区域所呈现的峰值和谷值,来了解该区域背后所代表的模式。如下图,看着广东高居第一位,真是不愧是“什么都能吃的广东人”。
此外,根据少数变量或许多变量的需求,我们可以用多个简单的图表来寻找数据之间的关系,即明确峰值、谷值、数据范围和数据的分布情况。
让可视化设计更为清晰,我们需要做以下几件事:
1.建立视觉层次
我们制作图表,不会将多个变量用同一种形式或者是同一种颜色来表现,而是会根据自身需要将重点予以突出。这样的话,就能帮助读者快速关注到数据图形的重要部分,并且把周围的东西当作背景信息。
2. 增强图表的可读性
首先是允许数据点之间进行比较,分析一个数值和其他数值的关联大小乃至所有数据点之间是如何彼此相关的。
其次是描述背景信息,这能为读者提供直观的印象,如2012年美国总统大选结果(如下图),两党各有其代表色,人们已经习以为常,若是调换,反而成了多此一举。
最后是留白,这会使得图表容易阅读,不至于混乱。
3.高亮显示重点内容
这其实可以理解为第一点的进阶版,我们划分视觉层次,是为了突出重点,而高亮就是这样的存在。但是亮度的提升并不能随心所欲,我们要确保新的视觉暗示和已有的视觉暗示不会相冲突。
而以上这几点对于不熟悉数据的读者来说,存在一定的难度。
因此,这时图注就发挥了作用。它可以从解释数据(包括标题、子标题、二级子标题和说明性文字),统计学概念的解释和排版的尝试这几方面来帮助读者更好地理解。
我们一般借助的工具有熟悉的Microsoft Excel,也有相对来说比较陌生的Many Eyes。
针对特定数据,也有相应的工具,如树图、Gephi。
我们也可以借助编程工具来设计出更符合自身数据特性的程序,我们也可以使用插图工具使图表更加清晰明了。
不过,当数据实在过于庞大时,我们就只能运用统计学知识对数据进行归纳汇总。
因为,别忘了,我们做的这一切都是为了读者,为了理解数据。
资料来源:[美]邱南森 《数据之美》
图片来源:《数据之美》、网络