可有偿投稿计量经济圈,计量相关则可git
邮箱:econometrics666@sina.cnweb
全部计量经济圈方法论丛的do文件都放在社群里,能够直接取出使用运行,也欢迎到研究小组交流访问.bootstrap
计量经济圈推荐app
PSM-DID, DID, RDD, Stata程序百科全书式的宝典机器学习
RDD断点回归, Stata程序百科全书式的宝典ide
Generalized分位数回归, 新的前沿因果推断方法函数
Heckman模型out了,内生转换模型掌控大局工具
PSM倾向匹配Stata操做详细步骤和代码,干货学习
条件Logit绝对不输多项Logit,而混合模型最给力3d
广义PSM,连续政策变量因果识别的不二利器
今天,咱们微观计量研究小组给计量经济圈的圈友引荐“有限混合模型”(finite mixture model)。咱们常常作异质性分析,好比针对不一样的年龄段,不一样收入阶层或者不一样的地域等,也就是所谓的分组回归而后来探讨各个组别之间为何不一样。这实际上暗含了,咱们各组都有本身的几率分布,而这个整体的分布是经过各分组的几率分布联合起来的。
人与人之间自己就是不一样的,有些人比较喜欢冒险而有的人比较喜欢平稳的生活,有的人作事情比较匆忙而有的人作事比较缓慢。若是咱们找不到一个划分各组别的依据,好比,个体的冒险倾向或者个体的储蓄倾向或者个体患病的倾向,那咱们如何去区分高风险倾向个体与低风险倾向个体呢?就是说,有时候咱们对于那些具备异质性个体所展示的异质性观测不到或不太了解,咱们若只用一个几率分布函数去逼近样本数据就会损失效率和出现偏误,此时咱们不妨使用fmm这个能够将几个分几率密度"组装"起来的弹性模型。看一段原话:“Finite mixture models (FMMs) are used to classify observations, to adjust for clustering, and to model unobserved heterogeneity.”
有限混合模型已经普遍应用于以下研究中:互联网流量聚类等机器学习,医疗保险的需求,疾病风险等健康经济学,顾客感知风险等保险经济学等。计数模型和质点分布的混合模型常常用于零点膨胀和截断的计数结果变量。提供参考文献:“A mixture of regression models can be used to model phenomena such as clustering of Internet traffic (Jorgensen 2004), demand for medical care (Deb and Trivedi 1997), disease risk (Schlattmann, Dietz, and Bohning ¨ 1996), and perceived consumer risk (Wedel and DeSarbo 1993). A mixture of a count model and a degenerate point mass distribution is often used for modeling zero-inflated and truncated count outcomes; see, for example, Jones et al. (2013, chap. 11). McLachlan and Peel (2000) and Fruhwirth-Schnatter ¨ (2006) provide a comprehensive treatment of finite mixture modeling.”
注意:如下所引荐的fmm的程序执行须要Stata 15, 若是没有Stata 15可直接在社群下载使用。
有限混合模型fmm就像bootstrap和bayes,它是做为前缀放在回归模型的前面。如下这些回归模型均可以使用fmm进行分组,从而能以不一样几率密度进行逼近:线性回归模型、二值响应模型、有序响应模型、多值响应模型、广义线性模型、分数响应模型和生存模型。
对于具体的fmm在各类不一样模型里的用法,咱们举8个示例,来展现fmm程序使用规则。从如下这些标准回归程序中,咱们可以知道以下几点关于fmm的使用法则。第一,fmm后面的数字表明了对这个因变量y进行分组估计的数目,好比2就表明咱们须要对y分2组进行估计。第二,咱们可以使用lcinvariant(errvar)或者lcinvariant(coef)来限定各组回归里y的方差相等或解释变量系数相等。第三,咱们可以使用lcprob(z1 z2)来预测咱们这个观察值属于某个小组的几率,其中z1和z2是指定的协变量。
1.针对reg,普通线性回归模型的有限混合模型。
2.针对betareg,贝塔分布回归模型的有限混合模型。
3.针对cloglog,离散时间Cloglog模型的有限混合模型。
4.针对glm,广义线性回归模型的有限混合模型。
5.针对intreg,区间线性回归模型的有限混合模型。
6.针对ivregress,工具变量线性回归模型的有限混合模型。
7.针对nbreg,负二项回归模型的有限混合模型。
8.针对pointmass,零点膨胀泊松回归模型的有限混合模型
上面这8个示例有一个共同的特征,即这些分组回归模型的自变量都是同样的。在第一个组里,咱们用某些自变量去作回归,而后用相同的自变量也去对第二组的数据进行回归。然而,这显得fmm不那么具备灵活性,毕竟咱们限定这两组的回归协变量居然彻底相同,这与我们的经济理论和直觉都有有偏离。
咱们看看下面这个实际生活中的例子。一个机动车保险公司想要针对不一样风险程度的个体设置不一样的保险费率,为此,它首先须要区别开高事故群体与低事故群体。accident:一个个体在一年中发生交通事故的次数,age:该个体的年龄,metro:该个体是否生活在大城市,male:该个体的性别。咱们用泊松几率密度去预测一个个体发生交通事故的几率,而后据此,咱们来区分开高风险事故群体与低风险事故群体。
下面这个程序就是用相同的协变量去预测个体发生交通事故的数量。
可是,咱们认为高风险事故群体与低风险事故群体发生交通事故次数的受影响因素是不同的。所以,咱们采用了不一样的协变量来对这二组群体进行回归——在第二组里面,咱们少放了“是否居住在大城市”的虚拟变量。从而,咱们容许二个组别回归中的协变量出现差别,用不一样的协变量来预测不一样组别的结果变量。
除了协变量能够在不一样组别进行分别设置以外,fmm还容许咱们在不一样组别之间用不一样的几率密度分布去逼近数据集里面的真实分布。下面是用泊松分布去预测高风险群体发生交通事故次数,而用负二项分布去预测低风险群体发生交通事故的次数。这样就给咱们赋予了极大的弹性,让fmm可以更好地运用于经济研究实践中。
如今,咱们来举一个能够直接操做的简单例子,目的是看看fmm方法是怎样逼近一个由三组正态分布构成的总分布的。下面的柱状图显示咱们的这个变量thickness是有些右偏的,因此从整体的角度而言不符合正态分布。不过,当咱们把他分红不一样的子区间,咱们发现这些子区间符合正态分布的假设。所以,咱们用fmm有限混合模型去分组逼近thickness的真实分布。
fmm 3: regress thickness //把thickness划分红三个组别分别对常数进行回归
下面这个iteration过程是在寻找“初始值”,有限混合模型寻找初始值显得有些麻烦,不过程序给出了几个选择来发现初始值。
下面这个表格是估计的该变量thickness属于组1、组二和组三的系数(难于解释),这个通过以下方程的转换就能够获得这个变量属于各组的边际几率。
下面咱们用estat lcprob来得到该变量thickness属于某个组别的边际几率。从下表咱们能够看出,变量thickness属于组3的边际几率最大,其次是属于组2的几率。就数量关系而言,thickness属于组3的几率是他属于组1的几率的2倍多,这与我们的柱状分布图其实是有些偏离的。也能够这么说,有44%的观测值属于组3,37%的观测值属于组2,19%的观测值属于组1。
咱们列出前十个thickness的观测值分别属于组一、组2和组3的几率。实际上,咱们总共有485个观测值,咱们能够所有列出来看看那些观测值属于这些不一样的小组。不过,咱们看到前面5个观测值居然所有以高于90%的几率属于第3组,这种状况有些不符合现实状况,由于这代表咱们用thickness中最小的观测值反而更容易出如今第3组(即最右边那个区间段),所以咱们用glm家族的lognormal链接函数从新去作一遍。
fmm 3: glm thickness, family(lognormal) //如今咱们使用lognormal回归,由于上面的回归方差过大
下面这个图形中,咱们用绿色去标注用glm拟合的曲线,而红色去标注reg拟合的曲线。经过比较柱状图与两条曲线,咱们发现绿色的曲线拟合的更好。
咱们列出前十个thickness的观测值分别属于组一、组2和组3的几率。如今thickness中的最小值都以极大几率属于第一组,与咱们的柱状图所传达的信息相符合。并且thickness属于组1与组3的几率相差就小不少(注:组3是一个比较长的区间但比较扁平,而组1是一个比较短的区间但比较陡峭),这与柱状图所示的信息是更加符合的。
咱们如今列举一个带有协变量且有经济学意义的示例。咱们想要预测这我的
这是医疗支出的柱状图,从图里咱们以为他好像只服从一个正太分布。当咱们须要用一系列控制变量去预测一个个体的医疗支出时,咱们可能发现存在三组个体:低医疗支出个体、平均医疗支出个体和高医疗支出个体。
当咱们分3组来对医疗支出进行回归fmm 3: regress lmedexp income c.age##c.age totchr i.sex 。回归的结果与前面的示例样式是相仿的,所以咱们再也不在这里进行展现。
下面这张表格展现的是各组间的边际均值,咱们发现低医疗支出群体属于组1,平均医疗支出群体属于组2,高医疗支出群体属于组3。除此以外,咱们发现组1和组2两组的均值实际上相差不大,所以咱们接下来考虑把把lmedexp划分红2组和直接合并成1组分别进行回归。
咱们下表的fmm一、fmm2和fmm3分别表明把lmedexp合并成1组、划分红2组和三组的回归结果。从AIC和BIC信息准则来看,咱们会选择fmm3这个模型。
fmm3的图形拟合结果与原来的lmedexp柱状图进行对比,咱们发现总体拟合效果仍是挺好的。
还有其余不少示例,咱们就再也不一一展开讲述了。最后,咱们其实是说了一个关于不一样群体具备异质性的问题,从而咱们使用不一样的几率密度分布函数和协变量去进行对应回归。在经济学中的应用天地广阔,只要存在分组的可能,无论这个分组变量能不可以被观测到,咱们均可以使用fmm来进行latent class regression。
Econometric applications of finite mixture models include the seminal work of Heckman and Singer (1984), of Wedel et al. (1993) to marketing data and El-Gamal and Grether (1995) to data from experiments in decision making under uncertainty
微观计量研究小组各类方法论丛的do file都放在我们的社群,能够直接到社群提取使用。