模型拟合的一个问题
这几次上课经常看到郭老师和周老师用预测值的分布与观测值的分布做比较,来看一个模型拟合的好不好。这里好像并不涉及到自变量的问题,因为只看到了因变量的取值及其概率。当然利用了自变量,会更准确地得出接近观测值的预测值。但会不会出现自变量的预测效果很差,例如R方很小,但最终的因变量的预测值分布却很接近观测值的分布呢?因为我觉得社会科学很注重用自变量来解释因变量的变异,并且进一步来找因果关系,因此在看模型的goodness of fit中只看因变量的预测值与观测值的相差多少,有点不放心。请老师解答。
【答】
1、课上也用无自变量的截距模型做过拟合。加入有关自变量的解释模型拟合的计数分布曲线在整体上一般都能达到向实测计数分布曲线靠近的结果。2、计数回归是用MLE迭代来拟合曲线的回归,方法中根本不计算方差类指标。为什么呢?计数回归是一种汇总回归。请注意,与OLS回归不同,这时我们并不画案例的X-Y散点图,而只画以计数值(它其实是因变量Y)为横轴的频率(概率)分布图。回归的目的是缩小各计数值上拟合概率与实测频率(两者都是汇总值、而不是案例值)之差。因为它并不用方差作为尺度,因而也就没有OLS那样意义明确的确定系数指标。Stata提供的伪确定系数与方差无关,是根据最大似然值计算出来的。与方差不同,最大似然值是一种纯统计量,即一种概率,根本没有实际物理单位,因而也就不能确切反映真正的拟合优度。所以,对此意义不明确的统计指标,我的意见是不用。
3、Stata的计数回归输出中只提供了解释模型与截距模型之间差异的显著性检验(类似logistic回归)。该同学(sic2006)刚提出的问题到是值得大家来思考:即解释模型与截距模型的差异显著,到底能否表明解释模型比截距模型拟合更好?会不会实际上更不好?我认为不会。因为拟合的标准是实测计数分布,这个标准就排除了解释模型拟合更坏的可能性。大不了拟合结果是所有自变量完全不起作用,b=0, P=1,回到截距模型而已。
4、大家做完第一次作业,特别是看第二幅各模型的离差图,就会有更切身的体会了。如果你们还想做更多的实验,那就试试逐步将自变量依次纳入模型,甚至还可以换一种次序来纳入自变量,再看拟合结果的变化过程。 MLE的迭代,当然会趋向观测值,这个倒是明白了。
页:
[1]