什么是数据可视化?
“一千个读者就有一千个哈姆雷特。”这句话也同样适用于数据分析,不同的人对于数据也会有着不同的理解。数据可视化可以帮助我们以更简单的方式去分析数据和找到数据背后隐藏的信息。数据可视化涵盖的知识点非常多,我尝试结合使用哈伯曼的癌症生存数据,来看看数据可视化是如何帮助我们在一堆杂乱无章的数据中找到隐藏的信息的,让我们开始吧!

为什么要做数据可视化?
数据可视化是一种可以通过数据创建故事的方式。当数据很复杂并且需要了解微观细节至关重要时,最好的方法是通过视觉效果来分析数据。
视觉效果可用于两个目的:
1、探索性数据分析:数据分析师、统计学家和数据科学家使用它来更好地理解数据。正如其名,它用于探索数据中隐藏的信息和趋势。
2、解释性数据分析:一旦数据分析师理解了数据并找到了他们的结果,传达他们想法的最佳方式就是通过视觉效果。数据可视化就像是创作一个故事,以达到吸引观众阅读的目的。
哈伯曼生存数据的探索性分析
该数据集包含 1958 年至 1970 年在芝加哥大学比林斯医院进行的一项研究案例,该研究主要针对接受过乳腺癌手术的患者的生存情况。
属性包括
手术时患者年龄(数字)
患者的手术年份(年份 – 1900,数字)
检测到的阳性腋窝淋巴结数量(数字)
生存状态(类别属性)
1 = 患者存活 5 年或更长时间
2 = 患者在 5 年内死亡
让我们首先从使用统计来理解数据开始:
我们看到有 306 行和 4 列。进一步查看属性后,我们了解了数据的分布方式。为了进一步了解每个类的示例数量,让我们看看不同的图。
直方图

这里可以看到两种状态下的患者都是在30到 80年在两个年龄段之间重叠,而40-60岁这个年龄段的比例都是最高的,60-80岁年龄段的人生存和死亡的机会相等,80岁以上的人无法存活的可能性更高。但是,仅凭年龄无法判断一个人是否会存活。
箱形图

箱线图可以告诉我们两种生存状态下,患者的淋巴结数量的最大值、最小值、中位数、四分位数分布以及异常值分布情况。
散点图

我们从零散的点看,无论在哪一年,有0个淋巴结的患者都是幸存者。这是否意味着只要是0个淋巴结的患者都能确保生存?
小提琴图

小提琴图用来显示数据分布和概率密度,中间的黑色粗条表示四分位数范围,从其延伸的幼细黑线代表 95% 置信区间,而白点则为中位数,从上述图形中可以看出两种生存状态下的幸存者的淋巴结数量分布是不一样的。
根据上述的案例,我们从视觉效果中学到很多东西,为了方便大家更好地学习数据可视化,我整理了一些必备的数据可视化工具来帮助您入门。
数据可视化工具
Tableau
Power BI
Excel
Smartbi智分析

数据可视化方法论
配色方案
图形使用
使用注释
使用交互式图表
删除不重要的信息
制作一个完整的故事