实证专题(2)-Heckman 两步法!
发布日期:2024-08-25 10:10 点击次数:158
一、Heckman原理
记得之前给大家讲内生性的问题时提过内生性存在过的问题之一,便是样本选择偏误!其他内生性问题见:计量-内生性的识别与处理!一文读懂!
由于鄙人水的毕业论文可能会用到,于是单独拎出来开个小专题!
Heckman两阶段模型是应用广泛的处理样本选择偏差问题的一种方法。它是由经济学家 James J. Heckman 在20世纪70年代提出的。该模型的第一阶段是通过拟合一个概率模型来估计是否存在选择偏差,第二阶段则通过纠正概率模型的估计偏差来进行预测。该模型常被用于估计回归系数、控制自变量的影响、对政策效果进行评估等。
因此仅根据对他方法上的简单描述,我们便可以得知Heckman两步法的实质:先估计选择概率,再根据概率对模型进行修正,一个简单的例子见我之前做的笔记:对女性工资水平的相关研究分析
图片
二、操作步骤
在第一步中,估计出D:D= αZ + θX
根据一系列可能影响Y的分布情况的外生协变量Z对被解释变量的观测性D进行预测,十分类似于PSM。只不过Heckman用匹配协变量来估计数据的可观测性判断缺失的可能性,而PSM则根据匹配协变量估计样本在特征上的一致性,两者一个解决样本选择偏误、一个解决样本自选择偏误。而估计概率自然也是要采用二值概率模型,通常采用极大似然法;来估计。值得注意的是,该步骤的Z必须保证是外生变量,即完全独立于X,只能通过D来影响Y。这样估计得到的D便是判断缺失概率(0/1)
第二步:计算IMR(逆米尔斯比率),得到修正模型。我们只要知道这个IMF修正是基于对OLS的估计期望调整得来的构建方式,基于软件生成的IMR(也可以自己算,通过概率密度与累积分布函数),我们将之放入我们完整的回归方程中:
得到:Y=αX+ βIMR 此时X即为缓解了选择偏误的模型
图片
三、stata操作及结果解读prompt:heckman depvar indepvars, select(selectvars=selectindepvars) twostep
以上变量分别对应:因变量Y、自变量X、选择变量D、外生变量Z
当然uu们在做的时候固定效应的lsdv别忘了丢在indepvars中。
对应的结果中,我们可以首先对比原系数的方向与显著性水平是否发生变化;在select栏中看到各Z对D的解释水平,以及IMF以lambda(兰姆达)的参数形式出现,在最下面一行我们发现显然通过了1%水平的显著性水平,意味着原模型确实存在着选择偏误。
图片
最后还需进行VIF多重共线性检验,避免模型因为包含了IMF(掺杂多种因素构成)而造成多重共线性问题,造成模型有偏。
四、实操一些Tips:
什么时候需要做Heckman:判断是否需要做Heckman的关键是从Y以及核心X是否会存在样本选择问题,是否我的样本只是真正我想要研究的一部分子集而已。要记住Heckman的本质就是选择纠正模型!
图片
Heckman的局限性:该模型主要适用于OLS的修正,这就意味着基准本身是其他模型将无法适用
Heckman与PSM的差异:——样本选择偏误与样本自选择偏误
图片
Heckman与工具变量法的区别:后者通常能解决更多的内生性问题。同样对于外生变量Z的要求,前者只是要求Z通过影响D来影响Y的分布,而后者则是Z只通过X影响Y。相对来说前者十分好找,一些CV就能充当。
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报。