三校社会学论坛·中国网社会论坛's Archiver

cuihao 发表于 2005-10-16 18:12

计数因变量回归模型选择

经过过去几周的学习,郭老师已经把有关计数回归的四种模型详细的介绍完毕,在做最后作业的过程中,我考虑到几个问题,主要是关于模型选择。
一、是否过离散:
Long的书上说通过观察样本因变量的均值和标准差,得出是否过离散的猜测。实际上,是否过离散是根据条件均值和条件标准差的差异来判断的,即在每一个给定的自变量的取值组合上,均值和标准差的期望值是否相等。注意到这和样本中所包含的自变量的均值和标准差是完全不同的概念,因此这种猜测应该是属于rule of thumb,而不是严谨的数学结论。例如,假如有10个样本,自变量取值5个是1,5个是10,这样样本均值小于样本标准差,如果以简单比较样本均值和标准差的方法应该是属于过离散的;但是如果就每一个样本来说,均值和标准差的期望值是一致的,那就符合poisson分布的假设,不存在过离散的问题。
基于以上考虑,我认为在poisson和NB模型之间的选择上还是应该两个模型都做,然后看alpha检验统计量。因为如果alpha为0,则poisson和NB模型所假设的分布是一样的;否则,如果alpha不为0,则poisson分布应该调整为NB分布。
二、回归结果:
因为4种模型都是用极大似然估计,迭代法求解,这里存在一个所得的结果是否全局最大值的问题。Long的书上提到poisson模型的二阶条件是满足的,因此估计结果是全局最大值;其他3种模型只是提到某些书上提供了海赛矩阵,并没有给出结论。因此,这里还需要进一步确认。
三、        模型选择:
a)        poisson模型可以利用poisgof检验其显著性,如果显著说明模型拟合非常不好;其他模型只有通过和poisson对比来看是否更有效。
b)        在嵌套模型间可以利用alpha来检验,如果alpha显著的异于0则使用NB或者ZINB模型;否则没有证据不能使用poisson或者ZIP模型。
c)        Vuong test可以用来衡量非嵌套的模型之间的选择,按照long的书上的解释,它也可以用来比较poisson,ZINB或者ZIP,NB模型之间的好坏;注意到Vuong test是用估计的参数对每一个样本观测的因变量发生的概率作比较得出的,它是比较能够反映模型拟合的好坏的,因此应该作为4种模型间评价的最佳标准;另外,Vuong test的结果是分正负的,如果落在下侧拒绝域,则说明模型2比较好, 落在上策拒绝域则是模型1比较好,如果不能拒绝则两个模型间的优劣无法判断;Vuong test的缺点是它只是一个相对比较的统计量无法象R平方一样给出一个直观绝对的解释能力评价。
d)        Probability Plot:Long的书上用了这样的图来评价了模型拟合的好坏,但是应该注意到这种评价的根据不是那么的大。最简单的原因是它不是针对每个样本而是针对整体的,换言之可能模型拟合的结果取2的个案个数和样本里取值2的个案个数完全一样,但是完全不同的两组个案。例如,样本中观测0-10都是2,拟合的时候样本11-20全是2,则probability plot的结果显示在取值为2的点上是完全拟合的,这也是我认为Vuong test是最好的评价方法的原因。
e)        我在作业的时候用了残差平方和的方法来评价模型拟合的好坏,现在看来这并不是一个好的办法。原因有二:首先,模型估计本身是使用的极大似然估计的方法,并不是象OLS一样去最小化残差平方和,因此不具备比较的意义;其次,在计数模型中残差实际是每一个个案的期望均值和观测值之间的差异,但是期望总是小数,观测总是整数,因此平方和不可能为0;这样一来,残差平方和最小的模型并不一定就最好。
f)        最后,我算了一下模型之间成对的Vuong test值:
i.        ZIP Vs poisson:        4.1804897                 (prefer ZIP)
ii.        ZIP Vs nbreg:        -2.5315733                              (prefer nbreg)
iii.        ZINB Vs nbreg:        2.2418328                 (prefer ZINB)
iv.        ZINB Vs poisson:        4.7999251                 (prefer ZINB)
v.        nbreg Vs poisson:        4.3178394                (prefer nbreg)
vi.        ZINB Vs ZIP:                3.3706321                (prefer ZINB)
非嵌套模型之间的比较:从前3个数字可以看出是ZINB最好,第4个数字印证了这一结论。
第5和第6个数字和alpha检验的结论是一致的,说明结果存在条件期望过离散,应该选用NB分布为基础的模型。

以上仅是我个人的看法,希望能和大家讨论。

gening 发表于 2005-11-1 19:49

在“2.其他计数回归.pdf”
第22张幻灯片
alpha = 0.02952
SE(alpha) = 0.02377
置信区间(0.02952-2*SE,0.02952+2*SE),包含0。
因此alpha统计不显著,即过离散现象并不严重,
对于此例使用ZIP模型也是可以的。

页: [1]

Powered by Discuz! Archiver 6.1.0  © 2001-2007 Comsenz Inc.