回归分析中的R²(R-squared),也称为决定系数,是衡量回归模型拟合优度的一个重要指标。它表示模型解释的因变量变异性的比例。R²的取值范围在0到1之间,值越接近1,表示模型对数据的拟合程度越好。
R²的计算公式如下:
$$ R^2 = 1 - \frac{\sum_{i=1}^n (Y_i - \hat{Y}_i)^2}{\sum_{i=1}^n (Y_i - \bar{Y})^2} $$
其中:
- $ Y_i $ 是观测值(实际值)
- $ \hat{Y}_i $ 是预测值(通过回归模型预测的值)
- $ \bar{Y} $ 是所有观测值的平均值
- $ n $ 是观测值的数量
公式中的分子部分 $ \sum_{i=1}^n (Y_i - \hat{Y}_i)^2 $ 称为残差平方和(Residual Sum of Squares, RSS),它衡量的是模型预测值与实际观测值之间的差异。分母部分 $ \sum_{i=1}^n (Y_i - \bar{Y})^2 $ 称为总平方和(Total Sum of Squares, TSS),它衡量的是观测值与其平均值之间的差异。
R²的计算步骤如下:
1. 计算观测值的平均值:首先,需要计算所有观测值 $ Y_i $ 的平均值 $ \bar{Y} $。

2. 计算总平方和(TSS):然后,计算每个观测值 $ Y_i $ 与平均值 $ \bar{Y} $ 的差的平方,并将所有这些平方值相加,得到总平方和。
3. 计算残差平方和(RSS):接着,使用回归模型预测每个观测值 $ Y_i $,得到预测值 $ \hat{Y}_i $,然后计算每个观测值 $ Y_i $ 与对应预测值 $ \hat{Y}_i $ 的差的平方,并将所有这些平方值相加,得到残差平方和。
4. 计算R²:最后,将残差平方和除以总平方和,然后从1中减去这个比值,得到R²的值。
R²的值可以帮助我们理解模型对数据的解释能力。如果R²接近1,说明模型能够很好地解释数据中的变异性;如果R²接近0,说明模型解释数据的能力较差。然而,R²也有其局限性,比如它可能会随着模型中变量数量的增加而增加,即使这些变量对预测的贡献很小。因此,在使用R²时,还需要结合其他统计指标和实际问题的背景来综合评估模型的有效性。
在实际应用中,R²的计算通常由统计软件自动完成,如Excel、SPSS、R、Python等。这些软件在执行回归分析时会提供R²的值,使得用户可以快速评估模型的拟合优度。