统计模型：计算拟合值和R平方

小编典典

统计模型：计算拟合值和R平方

python

我正在运行如下回归（df是一个pandas数据框）：

import statsmodels.api as sm
est = sm.OLS(df['p'], df[['e', 'varA', 'meanM', 'varM', 'covAM']]).fit()
est.summary()

除其他外，这给了我R的平方0.942。因此，我想绘制原始y-values值和拟合值。为此，我对原始值进行了排序：

orig = df['p'].values
fitted = est.fittedvalues.values
args = np.argsort(orig)
import matplotlib.pyplot as plt
plt.plot(orig[args], 'bo')
plt.plot(orig[args]-resid[args], 'ro')
plt.show()

但是，这给了我一个图表，其中的值已完全关闭。没有什么可以表明R的平方0.9。因此，我尝试自己手动计算：

yBar = df['p'].mean()
SSTot = df['p'].apply(lambda x: (x-yBar)**2).sum()
SSReg = ((est.fittedvalues - yBar)**2).sum()  
1 - SSReg/SSTot
Out[79]: 0.2618159806908984

难道我做错了什么？还是有原因导致我的计算与statsmodels相差甚远？SSTot，SSReg具有值48084，35495。

阅读 396

2020-12-20

共1个答案

小编典典

如果您的模型中未包含截距（常量解释变量），则statsmodels会基于 无中心 的平方总和来计算R平方。

tss = (ys ** 2).sum()  # un-centred total sum of squares

相对于

tss = ((ys - ys.mean())**2).sum()  # centred total sum of squares

结果，R平方会更高。

这在数学上是 正确的 。因为，R平方应指示与简化模型相比，完整模型可以解释多少变化。如果您将模型定义为：

ys = beta1 . xs + beta0 + noise

那么简化模型可以是：ys = beta0 + noise，其中的估计值beta0是样本平均值，因此我们有：noise = ys - ys.mean()。那就是去拦截来自具有截距的模型中的地方。

但是从像这样的模型：

ys = beta . xs + noise

您只能减少到：ys = noise。由于noise假定为零均值，因此您可能不会减均值ys。因此，简化模型中无法解释的变化是 未定心
的平方总和。

这是记录在这里下rsquared的项目。设置yBar为零，我希望您会得到相同的数字。

2020-12-20