Python 做探索性数据分析
描述性统计分析
如前面数据处理过程中所说,Pnadas能够显示数据集变量的一些数据信息,包括平均值、数据点频数、标准差、四分位数和极值等(这些统计量自动略过空值),这些统计量能使处理数据的人能先大致地了解变量的分布情况,也可以对不同变量进行分箱处理。

箱型图介绍
箱型图是可视化数据数据常用的好方法,它可以直观地呈现数据许多维度的信息,主要包括五方面:中位数、上四分位数(从小到大第75%的数)、下四分位数(从小到大第25%的数)、上边缘、下边缘。用以查看数据的分布和偏差,轻松地发现异常值,也便于不同数据组之间的比较(分析不同变量之间是否具有关系)。
值得注意的是:
IQR用于构建箱型图,并用来识别异常值(在上下边缘之外的离散的点)。箱型图纵坐标常常是要求是数值型变量,这在之前有过介绍。
# Python
importas
importas
importas
# 导入数据
"xxxx.xlsx"
# 画箱形图(设置横纵轴坐标标签,设置数据源)
NoneNone
# 显示图形