excel学习库-数据处理之插值添补缺失值

缺失值插补一般使用在建模过程当中，由于很多模型无法处理NaN,我们如果不对一些字段进行插补，很可能要删除过多数据；所以我们采用插补的方式尽可能的保留数据集的信息，而缺点就是带入了“人造数据”。

插补的关键在于：尽量在不破坏数据原始分布的情况下保留信息。所以，插补是当数据量不足的时候采用的，如果是数据量充足，删除缺失值即可；插补中我们要少带入人造信息，所以当数据近似正态分布的时候一般选择平均值Mean。

我们介绍几类常见的处理差补法的方法：

1. 固定值

2. 均值

3. 众数

4. 中位数

1. 固定值

用固定值，比如80来填充体育的的NaN值。

import numpy as np

import pandas as pd

data = [[80,90,99,np.nan],[80,90,115,np.nan],[80,90,130,np.nan]]

index = [1,2,3]

columns = ['语文','数学','英语','体育']

df = pd.DataFrame(data=data, index=index, columns=columns)

# 用固定值填补空值

df['体育'].fillna(80, inplace = True)

知识点：

pandas中fillna()方法，能够使用指定的方法填充NA/NaN值。

1.函数详解
函数形式：fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)
参数：
value：用于填充的空值的值。
method： {‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}, default None。定义了填充空值的方法， pad / ffill表示用前面行/列的值，填充当前行/列的空值， backfill / bfill表示用后面行/列的值，填充当前行/列的空值。
axis：轴。0或’index’，表示按行删除；1或’columns’，表示按列删除。
inplace：是否原地替换。布尔值，默认为False。如果为True，则在原DataFrame上进行操作，返回值为None。
limit：int， default None。如果method被指定，对于连续的空值，这段连续区域，最多填充前 limit 个空值（如果存在多段连续区域，每段最多填充前 limit 个空值）。如果method未被指定，在该axis下，最多填充前 limit 个空值（不论空值连续区间是否间断）
downcast：dict, default is None，字典中的项为，为类型向下转换规则。或者为字符串“infer”，此时会在合适的等价类型之间进行向下转换，比如float64 to int64 if possible。

2. 均值

用均值来填充体育的的NaN值。

import numpy as np

import pandas as pd

data = [[80,90,99,60],[80,90,115,np.nan],[80,90,130,80]]

index = [1,2,3]

columns = ['语文','数学','英语','体育']

df = pd.DataFrame(data=data, index=index, columns=columns)

# 用均值填补空值

df['体育'].fillna(df['体育'].mean(), inplace = True)

知识点：
mean(): 返回数据的均值。使用DataFrame数据调用mean()函数，返回结果为DataFrame中每一列的平均值，mean()不能计算字符串或object的平均值，所以会自动将不能计算的列省略。

3. 众数

用众数插补缺失值。

import numpy as np

import pandas as pd

data = [[80,90,99,60],[80,90,115,np.nan],[80,90,130,80],[80,90,130,60]]

index = [1,2,3,4]

columns = ['语文','数学','英语','体育']

df = pd.DataFrame(data=data, index=index, columns=columns)

# 用众数填补空值

df['体育'].fillna(df['体育'].mode()[0], inplace = True)

知识点：
众数（Mode）是指在统计分布上具有明显集中趋势点的数值，代表数据的一般水平。也是一组数据中出现次数最多的数值，有时众数在一组数中有好几个。

4. 中位数

用中位数插补缺失值。

import numpy as np

import pandas as pd

data = [[80,90,99,60],[80,90,115,np.nan],[80,90,130,80],[80,90,130,70]]

index = [1,2,3,4]

columns = ['语文','数学','英语','体育']

df = pd.DataFrame(data=data, index=index, columns=columns)

# 用众数填补空值

df['体育'].fillna(df['体育'].median(), inplace = True)

知识点：
中位数（Median）又称中值，统计学中的专有名词，是按顺序排列的一组数据中居于中间位置的数，代表一个样本、种群或概率分布中的一个数值，其可将数值集合划分为相等的上下两部分。对于有限的数集，可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个，通常取最中间的两个数值的平均数作为中位数。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

excel学习库

excel表格_excel函数公式大全_execl从入门到精通

数据处理之插值添补缺失值2024-03-12 04:38:28