Stata 19 新版本震撼来袭!20 项核心功能全面解析(一)
2025年4月8日,备受瞩目的数据分析软件Stata推出较新版本Stata 19,本次升级带来了20项突破性更新,为科研人员、数据分析师和决策者提供了更强大的分析工具。
1. 通过H2O实现的机器学习:集成决策树
当研究或业务问题需要比线性模型或广义线性模型更高级的建模方法时,机器学习技术常被用于解决这类以预测为核心的问题。集成决策树方法通过组合多棵决策树来提升预测效果,在此类任务中应用广泛。H2O作为一个可扩展的机器学习平台,支持数据分析和机器学习任务,其中便包括随机森林(Random Forest)和梯度提升机(GBM)等集成决策树算法。
Stata的新命令套件h2oml是H2O的封装工具,为基于集成决策树方法的H2O机器学习分析提供端到端支持。在使用h2o命令初始化或连接至现有的H2O集群后,您可以通过h2oml命令执行梯度提升机(GBM)和随机森林算法,以解决回归和分类问题。h2oml套件提供了一系列工具,支持**参数调优、验证、交叉验证、模型性能评估、预测结果获取,以及对预测结果的解释分析。比如:
从Stata内部启动H2O
. h20 init
将数据从Stata导入H2O
. _h20frame put, into(dataframe) current
执行梯度提升二分类任务,并优化树的数量及其他**参数。
. h2oml gbbinclass response predictors, ntrees(20(10)200) lrate(0.1(0.1)1)
评估变量重要性
. h2omlgraph varimp
做出预测
. _h2oframe change newdata
. h20mlpredict outcome_pred
核心亮点
h2oml套件通过用户熟悉的Stata语法或点选式界面,提供了一种简单易用的方式来使用集成决策树方法,较大降低了机器学习的操作门槛。
借助Shapley加性解释值(SHAP)、部分依赖图(PDP)和变量重要性排序等预测可解释性工具,梯度提升机(GBM)和随机森林不仅能提供强大的预测能力,还能保持模型的可解释性--*在性能与可理解性之间妥协。
面向人群
所有学科;任何对机器学习分类和回归感兴趣的人。
2. 条件平均处理效应(CATE)
条件平均处理效应(Conditional Average Treatment Effects, CATE)指在给定协变量(特征变量)特定取值条件下,干预措施(处理)对结果变量的差异化影响。与平均处理效应(ATE)不同,CATE能识别干预效果如何随个体特征变化。
• 劳工经济学家可能需要评估职业培训项目仅对实际参与者的收入影响,而非全体人群的平均效果。
• 在线购物公司希望分析价格折扣对不同人口特征客户(如年龄、收入层次)购买行为的差异化影响。
• 医疗团队需要测量吸烟对不同年龄段群体压力水平的影响程度差异。
借助全新的cate命令,您不仅能够估计整体处理效应,更能进一步估算个体或特定群体的处理效应,从而精准解答上述各类研究问题。
该命令可估计三类条件平均处理效应(CATE): 个体化平均处理效应、群体平均处理效应和排序群体平均处理效应。除估计功能外,cate套件还提供了预测、可视化和统计推断CATEs的功能。
核心亮点
cate命令功能强大、灵活且稳健。它支持通过Lasso回归、广义随机森林和参数模型来提供结果和**模型的建模。该命令提供两种稳健估计量,残差化估计和增强逆概率加权,以防止机器学习模型误设带来的偏差,并采用交叉拟合技术避免过拟合问题。
面向人群
所有学科。任何对因果推理感兴趣的人。
3. 高维固定效果(HDFE)
现在,您可以在线回归中一次性吸收多个高维类别变量(无论是否包含固定效应),也可在考虑内生性的两阶段较小二乘法(2SLS)线性模型中实现这一功能。该特性适用于需要控制这些变量但对估计其具体效应不感兴趣(或计算成本过高)的研究场景。
Stata的areg、xtreg、fe和ivregress 2sls命令现已支持在absorb()选项中*多个类别变量。之前,areg仅允许在absorb()中放入单个变量,而xtreg, fe和ivregress 2sls根本不支持该选项。
例如,我们可以拟合一个回归模型,通过输入以下内容来调整三个高维分类c1、c2和c3预测因子。
. areg y x, absorb(c1 c2 c3)
如果我们想在固定效应模型中吸收这些变量,我们也可以这样做:
. xtset panelvar
. xtreg y x, fe absorb(c1 c2 c3)
在工具变量回归模型中,我们可以输入
. ivregress 2sls y1 x1 (y2 x2), absorb(c1 c2 c3)
核心亮点
相比在模型中直接加入高维类别变量的虚拟变量,使用吸收(absorb)方法处理这些变量能带来显著的加速效果。
面向人群
所有学科领域。几乎每个人在某个时候都会用到线性回归。特别是那些使用面板数据的经济学家和政治学家,会对这个新功能感到特别兴奋。
4. 线性回归的贝叶斯变量选择
全新推出的bayesselect命令提供了一种灵活的贝叶斯方法,用于识别与因变量较相关的预测变集。该命令在估计模型参数时充分考虑模型不确定性,并对回归系数进行贝叶斯统计推断。它使用熟悉的语法,
. bayesselect y x1-x100
与Stata中其他贝叶斯回归方法一样,bayesselect命令会输出后验均值、后验标准差、蒙特卡洛标准误差和可信区间统计量以便于结果解读。此外,根据所选先验分布的类型,命令还会输出两类变量重要性指标:纳入系数和纳入概率,用以量化每个预测变量对解释结果变量的贡献度。
Bayesselect完全集成在Stata的贝叶斯套件中,并与所有的贝叶斯后估计程序无缝结合,包括预测,
. bayesselect pmean, mean
核心亮点
这种变量选择方法提供了直观的解释和稳定的推理。
面向人群
拥有大型数据集的社会科学家。
5. 区间删失多重事件数据的边际Cox比例风险模型
区间删失多重事件数据在纵向研究中十分常见,因为每个研究对象可能经历多种类型的事件,且这些事件无法被直接观测,仅能确定其发生在某个时间区间内。例如:
• 流行病学研究:慢性疾病患者可能在多次就诊中被记录多种共病情况(如心脏病+代谢性疾病)
• 社会学调查:通过定期访谈记录受访者的重大生活事件(如工作变动、婚姻状态变化)
您现在可以为此类数据拟合边际比例风险模型。新的stmgintcox命令可以容纳每个事件的单记录和多记录数据,并支持所有事件或特定事件的时变协变量。
例如,假设我们有在事件变量中编码的多个事件的数据,这些事件发生在以ltime和rtime记录的时间之间,协变量为x1- x3。我们可以同时建模协变量对时间的影响,直到每个事件都使用以下命令,
. stmgintcox x1 x2 x3, id(id) event(event) interval(ltime rtime)
在这里,我们可以通过输入以下内容来测试x1在事件中的平均效果
. estat common x1
我们还可以针对不同事件类型,绘制生存函数及其他相关函数的图形。
. stcurve, survival
评估每个事件的拟合优度
. estat gofplot
核心亮点
目前尚无其他商业统计软件能够拟合多元区间删失数据的边际比例风险模型。
面向人群
所有学科,特别是医学、流行病学、生物学和社会学。
6. 相关性研究Meta分析
Stata的meta分析工具套件现已支持相关系数的元分析,可用于综合评估多篇研究中变量间关系的强度与方向。例如,分析不同研究中教育水平与收入的相关性和整合多项关于体育锻炼与心理健康改善关联的研究。
假设变量corr和ntotal分别表示每项研究中的相关系数和总样本量,我们可以通过 meta esize命令声明Meta分析数据集。
. meta esize corr ntotal, correlation studylabel(studylbl)
由于原始相关系数的方差与其自身取值相关(存在依赖性问题),我们通常更推荐使用Fisher的z变换后的相关系数--这一方差稳定化转换尤其适用于相关系数接近-1或1的情况。
. meta esize corr ntotal, fisherz studylabel(studylbl)
支持所有标准meta分析功能,包括森林图(forest plots)和亚组分析(subgroup analysis)等。
. meta forestplot, correlation
核心亮点
相关性研究是众多学科领域的基石。新增的这一功能使 meta esize 成为当前较灵活的元分析工具之一。
面向人群
所有学科。任何学科的研究人员都可能希望结合以前的研究结果来估计总体效果。
7. 相关随机效应模型
可以轻松使用xtreg命令的新cre选项来拟合面板数据的CRE(相关随机效应)模型。
请参考以下命令来拟合包含时变回归变量x和时不变回归变量z的CRE(相关随机效应)模型:
. xtset panelvar
. xtreg y x z, cre vce(cluster panelvar)
如果解释变量与不可观测的个体效应之间存在相关性,随机效应模型可能会产生不一致的估计结果。而固定效应模型则无法估计时不变变量z的系数。CRE(相关随机效应)模型**结合了两者的优势。
核心亮点
在获得与xtreg, fe(固定效应模型)相同的时变变量系数的同时,也能估计时不变变量的系数。
面向人群
从事面板数据研究的社会科学家和卫生研究人员。
8. 面板数据向量自回归(VAR)模型
面板数据拟合向量自回归(VAR)模型!可计算脉冲响应函数、进行Granger因果检验与稳定性检验,还能纳入额外协变量--功能全面强大。全新推出的xtvar命令语法与var相似且支持相同的估计后操作,但其专为面板数据(而非时间序列数据)设计。
例如,我们可以通过输入以下命令,为包含三个关注变量的面板数据集拟合VAR模型:
. xtset panelvar
. xtvar y1 y2 y3, lags(2)
然后,我们可以进行Granger因果检验,
. vargranger
或者绘制脉冲响应函数图,
. irf create baseline, set(irfs)
. irf graph irf
核心亮点
尽管面板数据VAR模型此前可通过用户贡献的外部命令实现,但它始终是用户呼声较高的内置功能需求。
面向人群
所有学科。从事面板数据研究的社会科学家将对这一新功能特别兴奋。
9. 贝叶斯自助法与复制权重
您可以使用新的bayesboot前缀命令,对官方及用户贡献命令生成的统计量进行贝叶斯自助法估计。
要计算变量 x 的均值(由summarize命令返回为r(mean))的贝叶斯自助法估计,我们可以输入以下命令:
. bayesboot r(mean): summarize x
您还可以使用新推出的rwgen命令及 bootstrap 前缀的新选项,来实现特定的自助法方案。rwgen命令能够生成标准复制权重与贝叶斯自助法权重。bootstrap命令新增了 fweights()和iweights()选项,支持使用自定义权重进行自助法重复抽样。其中fweights()允许用户*频数权重变量用于重抽样,iweights()允许用户提供重要性权重变量。这些选项通过允许用户自定义权重(而非依赖内部重抽样机制),显著增强了bootstrap的灵活性,使得实现特定自助法方案和提升结果可复现性更为便捷。bayesboot实质上是rwgen与 bootstrap的封装命令:它首先生成基于狄利克雷分布(Dirichlet distribution)的重要性权重,随后在自助法中应用这些权重。
核心亮点
贝叶斯自助法可在小样本情况下获取更精确的参数估计,并能在抽样观测值时整合先验信息。
面向人群
所有学科,特别是统计学、生物统计学和健康领域的研究人员。
10. 控制函数线性模型和Probit模型
使用新的cfregress和cfprobit命令拟合控制函数线性模型和Probit模型。控制函数模型通过在主回归方程中包含内生变量本身及其**阶段回归的残差,为传统的工具变量(IV)方法提供了一种更灵活的替代方案;这个残差项被称为控制函数。
例如,我们可以重现两阶段较小二乘法(2SLS)工具变量回归的估计结果。
. cfregress y1 x (y2 = z1 z2)
我们也可以使用二元内生变量,并将控制函数与z1的交互项包含进来。
. cfregress y1 x (y2bin = z1 z2, probit interact(z1))
然后,我们可以通过联合检验控制函数和交互作用来检验内生性。
. estat endogenous
核心亮点
**阶段模型可以是线性模型、Probit模型、分数Probit模型或Poisson模型,它们的控制函数可以与其他变量或彼此之间进行交互。允许使用稳健的、聚类稳健的、异方差性和自相关一致的方差-协方差估计量(VCE)。
面向人群
社会科学,特别是经济学、公共政策、政治学、公共卫生和管理学的研究人员。
11. 基于Asymmetric Laplace likelihood的贝叶斯分位数回归
分位数回归命令qreg现已支持bayes前缀。在贝叶斯框架下,我们通过将asymmetric Laplace likelihood函数与先验分布相结合,为分位数回归系数提供完整的后验分布估计。
. bayes: qreg y x1 x2
因此,asymmetric Laplace likelihood分布现已成为bayesmh命令中可用的新似然函数选项。
. bayesmh y x1 x2, likelihood(asymlaplaceq({scale},0.5))
prior({y:}, normal(0,10000)) block({y:})
prior({scale}, igamma(0.01,0.01)) block({scale})
您现在可在bayesmh命令中使用asymmetric Laplace likelihood来计算随机效应分位数,同步分位数回归或具有显著偏度和峰度的非正态结果建模。
所有实现方案均支持标准Bayesian分析功能,比如MCMC诊断,假设检验以及预测分析。
. bayesgraph diagnostics
核心亮点
在传统的分位数回归中,标准误通常是通过自助法(bootstrap)或基于核的方法计算的。而在贝叶斯框架下,后验标准差是基于模型进行估计的,可能会更有效率。
面向人群
本方法适用于所有学科。任何领域的研究者均可受益于Bayesian分析框架的*特优势。
12. 弱工具变量稳健推断
当需要通过由z1经由2SLS估计y1对x1的线性回归和内生回归y2时,常规命令为:
. ivregress 2sls y1 x1 (y2 = z1)
若工具变量z1与内生变量y2仅存在弱相关性,即使在较大样本条件下,传统推断方法也可能失效。在ivregression后新推出的estat weakrobust后估计命令可对内生变量执行Anderson-Rubin检验或条件似然比(CLR)检验,这些检验对弱工具变量具有完全稳健性。
. estat weakrobust
后估计命令支持ivregress所有估计方法:2SLS、LIML和GMM。
核心亮点
estat weakrobust报告的检验结果与置信区间完全不受工具变量强弱的影响,但也考虑了自动兼容ivregress中采用的各类协方差矩阵估计方法,包括普通标准误、稳健标准误、聚类稳健标准误。
面向人群
社会科学,特别是经济学、公共政策、政治学、公共卫生和管理学的研究人员。
13. 基于工具变量的结构向量自回归(SVAR)建模
全新推出的ivsvar命令通过工具变量法估计SVAR模型参数。
. ivsvar gmm y1 y2 (shock = z1 z2)
这些估计的参数可以使用熟悉的irf命令系列来追踪动态因果效应,这种动态因果效应被称为结构脉冲响应函数(IRFs)。
. irf set ivsvar.irf
. irf create model1
. irf graph sirf, impulse(shock)
对于多工具变量的情况,请使用较小距离估计量并输入命令ivsvar mdist,同时需明确*工具变量与目标冲击的关联关系。
核心亮点
通过依赖工具,我们不需要像传统的SVAR模型那样对内生变量的冲击效应施加约束。
面向人群
任何从事时间序列数据工作的人,包括经济学、政治学的研究人员,财政和公共政策的研究者。
北京天演融智软件有限公司(科学软件网)是Stata软件在中国的授权经销商,如果您想体验Stata 19较新功能,欢迎联系我们申请免费试用。
turntech8843.b2b168.com/m/