我正在运行如下回归(df是一个pandas数据框):
df
pandas
import statsmodels.api as sm est = sm.OLS(df['p'], df[['e', 'varA', 'meanM', 'varM', 'covAM']]).fit() est.summary()
除其他外,这给了我R的平方0.942。因此,我想绘制原始y-values值和拟合值。为此,我对原始值进行了排序:
0.942
y-values
orig = df['p'].values fitted = est.fittedvalues.values args = np.argsort(orig) import matplotlib.pyplot as plt plt.plot(orig[args], 'bo') plt.plot(orig[args]-resid[args], 'ro') plt.show()
但是,这给了我一个图表,其中的值已完全关闭。没有什么可以表明R的平方0.9。因此,我尝试自己手动计算:
0.9
yBar = df['p'].mean() SSTot = df['p'].apply(lambda x: (x-yBar)**2).sum() SSReg = ((est.fittedvalues - yBar)**2).sum() 1 - SSReg/SSTot Out[79]: 0.2618159806908984
难道我做错了什么?还是有原因导致我的计算与statsmodels相差甚远?SSTot,SSReg具有值48084,35495。
SSTot
SSReg
48084
35495
如果您的模型中未包含截距(常量解释变量),则statsmodels会基于 无中心 的平方总和来计算R平方。
tss = (ys ** 2).sum() # un-centred total sum of squares
相对于
tss = ((ys - ys.mean())**2).sum() # centred total sum of squares
结果,R平方会更高。
这在数学上是 正确的 。因为,R平方应指示与简化模型相比,完整模型可以解释多少变化。如果您将模型定义为:
ys = beta1 . xs + beta0 + noise
那么简化模型可以是:ys = beta0 + noise,其中的估计值beta0是样本平均值,因此我们有:noise = ys - ys.mean()。那就是 去 拦截来自具有截距的模型中的地方。
ys = beta0 + noise
beta0
noise = ys - ys.mean()
但是从像这样的模型:
ys = beta . xs + noise
您只能减少到:ys = noise。由于noise假定为零均值,因此您可能不会减均值ys。因此,简化模型中无法解释的变化是 未定心 的平方总和。
ys = noise
noise
ys
这是记录在这里下rsquared的项目。设置yBar为零,我希望您会得到相同的数字。
rsquared
yBar