|
内容提要:本文旨在系统性地引介因果图方法,一种社会科学领域新近发展起来的探究因果推断的非参数估计工具。首先对因果图的基本概念和构型进行介绍,讨论变量之间不同“通路”对应的开启和阻断规则及因果推断中的三种偏差来源,即混淆偏差、过度控制偏差、内生性选择偏差。在此基础上,本文将因果图框架与现有定量社会科学研究中基于回归模型的因果推断方法思路进行融合,结合实际案例使用因果图阐释包括遗漏变量、样本选择、自选择及联立性在内的四种内生性问题,并对多元回归与匹配、代理变量、实验、工具变量、面板模型等因果推断方法的运行机制进行了图形化。最后,本文使用因果图厘清一些关于因果推断的不准确理解。
关键词:因果图/非参因果推断/混淆偏差/过度控制/内生性选择偏差
作者简介:句国栋,伦敦政治经济学院社会政策系;陈云松,南京大学社会学院。
一、导言
因果推断是社会科学实证研究中的核心问题。自18世纪的休谟开始,哲学层面对因果性相关问题已进行了丰富的探讨,中文文献中王天夫(2008)、彭玉生(2011)等对此进行过系统的总结。现代社会科学对因果关系的探索则构建于唐纳德·鲁宾(Donald Rubin)提出的反事实框架(counterfactual framework)之上(,2005;Rubin,2011),并发展出包括实验与准实验(experiment and quasi-experiment)、匹配和倾向值匹配(matching/propensity score matching)、工具变量(instrumental variable)、倍差法(difference in differences)、断点回归(regression discontinuity)等适用于不同情境的因果推断方法。
国际社会学界对因果推断在实证研究中的应用研究起步较早(如Sobel,1996;Winship and Morgan,1999;Winship and Sobel,2004;Morgan and Winship,2007)。2010年以来,相关问题在中国社会学界逐渐得到关注。如陈云松与范晓光(2010,2011)、胡安宁(2020)系统介绍了影响因果推断的内生性问题(endogeneity problems)的来源和解决思路。胡安宁(2012、2016)和陈云松(2012)专题引介了工具变量、倾向值匹配等经典方法。同时,因果推断的实证应用也在中国学者的研究中不断积累(如梁玉成,2010;陈云松等,2013,2014;刘伟峰等,2016;张春泥、谢宇,2017;程诚,2017;梁玉成、陈金燕,2019;Chen and Volker,2016;Chen and Williams,2016;Chen,et al.,2019)。近年来,国内学者进一步探讨了将大数据、机器学习等新技术引入因果推断的路径(陈云松等,2020;胡安宁等,2021;陈云松,2022;Chen,et al.,2021),这方面的探索已与国际社会学前沿同步(Edelmann,et al.,2020)。
然而,现有框架下对因果情境的理解和相关方法的阐释仍依赖于大量的代数推导,对研究社会科学的学者和读者来说不甚友好,客观上限制了因果推断思维在学科中的接受度和影响力。更兼现实因果情境往往十分复杂,即使是经过系统训练的统计学家和计量学者在表达时也难免疏漏,甚至积误相因、延及后学。例如,就哪些变量应当作为控制变量纳入模型这一问题,当前计量课堂上给出的建议多是基于该变量相对于解释变量发生的时间来判断,若该变量处在解释变量之前则最好予以控制,当此变量发生在解释变量之后,则不应作为控制变量纳入模型。然而,这样笼统的说法是失当的。如能有一套直观而严谨的因果问题表达方式,对于实证社会科学的传播和发展无疑是莫大的幸事。
事实上,的确存在一套这样的表达系统,直接用类似流程图的形式来阐明因果。这就是最早由计算机科学家、图灵奖得主朱迪·珀尔(Judea Pearl)提出的“因果图”(causal graph)。在社会学领域,摩根与温什普(Morgan and Winship,2014)合著的因果推断教材《反事实与因果推断》,重点采用因果图与代数表达相结合的方式讨论不同情境下的因果推断问题。我们认为,基于因果图的非参因果推断(non-parametric causal inference)框架能够为广大人文社科研究者提供另一种审视因果推断问题的有益视角,襄助对因果问题感兴趣者深入具体情境、明析偏差来源、澄清惯有误读、培养因果思维。因此,本文将结合中文社会学界对因果问题的已有讨论,系统性地引介这一分析框架。
本文第二部分将全面介绍因果图的基本概念与形式,并说明链状(chain)、叉状(fork)和反叉状(inverted fork)三种因果图的基础构型。在第三部分,我们将区分不同构型通路对应的开启和阻断规则,并阐明在因果图框架下因果推断的三大偏差来源(未控制混淆变量、过度控制中介变量、错误控制碰撞变量)。在第四部分,本文尝试将因果图分析框架与当前主流因果分析系统进行兼容:使用因果图阐释包括遗漏变量、样本选择、自选择及联立性偏误在内的四种内生性问题;使用因果图呈现多元回归与匹配、代理变量、实验、工具变量、面板模型等因果推断方法的运行机制。第五部分则基于因果图框架澄清一些因果分析中的常见误读。
二、因果图的概念和要素
因果图最早由计算机科学家、图灵奖得主朱迪·珀尔(Judea Pearl)提出,并在不同领域学者们的共同努力下逐步发展和完善,其中计算机科学与流行病学相关学者的贡献最为突出(参考Greenland,et al.,1999;Hernán and Robins,2020;Pearl,2009)。社会学家摩根、温什普等人(Elwert and Winship,2014;Morgan and Winship,2014)较早意识到因果图在理解因果问题中的重要价值,并致力于在社会科学领域推广这一方法。然而,迄今为止,因果图在社会科学领域获得的关注尚少(现有的一些介绍性讨论分散在不同学科,包括Marcus,et al.,2018;Montgomery,et al.,2018;Rohrer,2018等),也未曾引起国内社会学界的注意。
事实上,社会科学研究者对因果图背后的逻辑和动机并不陌生。因果图通过节点、线段和箭头三种元素的组合以图像化的方式直观呈现不同变量间的关联,在形式上与20世纪90年代流行的基于结构方程模型的路径图(path diagram)类似(Spirtes,et al.,1998)。此外,很多学者习惯在日常讨论中用点线图辅助表达分析思路,尽管这些图示往往不呈现在正式的论文里,仍然是实证研究过程中的重要一环。朱迪·珀尔等学者则通过定义明确的规范和逻辑,将这些随手摹绘的“示意图”化用为因果分析的利器。
(一)因果图的元素构成与基本构型
因果图由三项元素构成:节点、线段和箭头。首先是代表特定变量的节点,本文统一使用T表示解释变量(干预变量),Y表示被解释变量(效应),X表示信息可被获取的相关变量,U表示信息不可获取的相关变量,其他变量在具体案例中特别指定,如图1左图中变量C即充当T和Y之间的中介变量。其次为代表两变量间存在因果关联的箭头线段,箭头的方向从“因”到“果”,如图1左图中变量X有两条箭头分别指向变量T和Y,即代表X能够导致T和Y。最后,当图中两个变量间不存在箭头线时,代表两变量之间不存在因果关联,这是一项相当强的排斥性约束(exclusion restriction),需要研究者以理论信心和经验证据作为支撑,在图1左图中则意味着X与C、U与T、T与Y之间均不存在直接的因果关系。
因果图中能够连接两个变量的所有方式被称为通路(path),通路中不考虑箭头的方向,但每个变量最多出现一次。如图1左图中由T向Y的通路共有三条,为T→C→Y,T←X→Y,T→C←U→Y,通路的存在表明两变量间具有相关的可能性,但具体通路是否能传导相关则依赖于下节中介绍的通路开启/阻断规则(law of unblock/block)。与之对应的是亲子变量关系,当一条通路中包含的所有箭头方向一致,则处于路径源头的变量为“亲代变量”,处于路径末端的变量为“子代变量”。如通路T→C→Y中,对T而言,C和Y均为子代变量;对Y而言,T和C为亲代变量。概言之,“因”为亲,“果”为子。
有别于在结构方程模型中指定不同变量间存在线性关联的假设(Spirtes,et al.,1998),因果图中不预设变量参数的性质或变量相关性的统计推断形式。这意味着,在因果图中各个变量没有特定类型或分布的限定,可以是连续的、离散的、均质的、长尾的;同时,变量间的关联也不存在特定的形式,在线性之外,也可能是幂率、二次、异质等其他非线性相关。
再有,因果图也存在不同的细分类型,参考温什普等人的研究,本文采用开环有向图(Directed Acyclic Graph,DAG)这种形式(Shrier and Platt,2008)。所谓“有向”是指所有存在于两变量间的连线均以箭头指明从因到果的方向;开环则是说任何一个以特定变量为“因”的变量,都不会再指回到该变量,即因果图中不允许存在T→Y→T的形式。换言之,任何变量不会同时成为自身的子代变量。这一规则背后的逻辑在于,微观来看,任何“因”与“果”之间都存在先后次序,“因”必先于“果”发生。这也意味着因果图无法直观地表现社会科学研究中常见的互为因果问题(联立性偏误),如个体的身体健康程度和收入水平之间可能存在相互促进的作用。但正如摩根和温什普(Morgan and Winship,2014:80)所指出的,互为因果并不代表“因”与“果”真的同时发生,而是所使用的实证材料无法区分变量发生的先后关系,其解决方式有赖于改善实证材料、改进研究设计或改变问题假设。
进而言之,无论多么复杂的因果图,均由三种基本构型所组成。其一为链状(chain)构型,如图2(a)所示,位于三个变量间的两处箭头线方向均一致,变量A通过中介变量B充当了变量C的“因”,对应到图1左图中,X→T→C,T→C→Y,U→C→Y均是典型的链状结构。其二为叉状(fork)构型,如图2(b)所示,即以同一个变量A为源头延伸出两条箭头线,同时指向另两个变量B和C,本文将其概括为“共因”结构。在此情况下,作为另外两个变量共同之“因”的变量A被称为混淆变量(confounder),在图1左图中,变量X对于T和Y、变量U对于C和Y而言均为混淆变量。其三为反叉状(inverted fork)构型,如图2(c)所示,变量A与B分别有箭头线指向变量C,变量C即为A和B的“同果”,此状态下变量C被称为A和B两变量的碰撞变量(collider)。图1左图中除解释变量Y之外还存在一处碰撞变量,即作为变量T和U同果的变量C。
(二)变量省略规则
现实中的因果情境往往包含诸多相关变量,若将所有变量都纳入因果图,不仅节点庞杂,更兼箭头繁复。那么,哪些变量需要纳入因果图中,哪些变量可以适当省略,是否存在相应的判别法则呢?首先需要指出,因果图中的某个节点代表的可能是由多个变量组成的变量矩阵而非单个变量,如图1中的X节点,置于特定社会学问题下,可作为个体性别、种族、年龄等先赋性人口学变量的统一指代,这些变量不需要再逐个标注于因果图中。其次,对于因果图中涉及的变量应当在何处“适可而止”,仍需回归到其背后的数学表达来看。如图1中右图所示,实际上在珀尔的设计中,每个变量背后都有一个对应的代表着因缺失其他变量所致的误差项e。这些缺失的变量相对于因果图中包含着的其他变量边际独立(marginally independent),对应的误差项e代表着在考虑因果图中相关变量之后该变量仍不能被解释的部分(Pearl,2009:27)。换言之,对因果图中包含的特定变量,图中其他与该变量相关的变量加上该变量自身对应的误差项e就可以完整涵盖该变量的信息。图1中各变量对应的数学表达为:
在一个因果图中,当所有变量均能够被区分为因果图中的变量和与因果图中的变量相独立的误差项时,就可以认为该因果图已包含足够的变量,不需再加入其他相关的变量了。需要注意的是,实证场景下是否满足这一条件仍依赖于个体研究者基于已有经验和理论做出的主观判定。当此条件得以满足,这些变量对应的误差项e就可以在因果图中被省略,而展示为图1左图的形式。如前所述,因果图中并不预设变量特征及关联形式,因而在数学表达中仅使用f泛指存在函数关系,而不指定具体的相关形式。
三、因果图的逻辑力量
(一)相关性与偏差之源
因果图的一项突出优势在于其能够清晰呈现系统中变量相关性与因果推断偏差的来源。更为巧妙的是,相关性与偏差之源又严格对应于因果图的三种基本构型,使研究者能够方便地掌握系统而条贯的理解框架、清晰而严谨的分析工具。两个变量间的相关性从何而来?因果图中显示如果两个变量之间存在相关关系,不论相关为线性还是非线性,其来源有且仅有三种可能,而这三种相关性之源如果处理不当又会诱发三种对应的偏差。
但是,在探讨这些问题之前,首先要厘清的是对“控制”这一概念的理解。中文语境下作为量化术语的“控制”一词实际上对应了英文中“control”和“condition”两词,但英文中这两个词的所指存在一定的差别。前者多指将特定变量纳入回归模型,这也与当前中文里“控制”一词的使用一致;后者则具有更广泛的含义,即控制的本质是以特定形式将某项变量的信息引入分析过程,以实现针对特定群体的分析(Elwert and Winship,2014)。此处,分析过程不再限于回归模型,所用形式也不止纳入控制变量。其他控制方式包括基于个体特征进行分层、基于特定条件选择样本等,因果图中的“控制”概念即指这种“广义的控制”。在因果图中以使用方框“□”符号圈住特定变量来表现该变量以某种形式获得控制。
了解因果图中“控制”的含义之后,即可讨论变量相关性与因果推断偏差的来源。因果图允许研究者以直观的形式呈现三种相关性和偏差对应的情形,如表1所总结。
1.因果关系带来相关
第一,两变量间如果存在因果关联则能够带来相关性。当两变量之间存在因果关系时,“T能够导致Y”本身就意味着两者间存在相关性,而确定这一关系是因果推断的根本目标。值得提及的是,因果图中两个变量间的因果关系可以直接用箭头线表示,如图1左图中的T→C和C→Y;也可以是经中介变量传导的链状构型,如T→C→Y中,尽管间隔了变量C,但T仍然是Y之“因”。这在社会科学实证情境中也很常见,例如“学习能力→高考成绩→考入大学”之间,学生需要通过高考成绩进入大学,高考成绩在学业表现和考入大学之间充当了中介变量,但仍不妨碍较高的学习能力与考入较好的大学之间具有清晰的因果关联。然而,如果链状构型中存在中介变量,也存在产生偏差的可能,即对中介变量的过度控制(over-control)。这一情况指的是由于错误地控制了中介变量,阻断或削弱了变量间真实的因果效应。表1中绘制了过度控制对应的因果图情况,由于变量A与C之间的因果效应依赖B传导,控制变量B后即消除了A和C之间存在的关系,进而会错误估计A和C之间不具有因果效应。
2.混淆变量带来伪相关
第二,对应于叉状构型,当两变量间存在“共因”时,则在统计学上体现相关关系。也就是说,尽管图2(b)中B、C两变量之间不存在因果关系,但由于同时受到混淆变量A的影响而表现出统计学相关性。典型案例为俗语“一打雷就下雨”,从气象成因的角度,打雷并非下雨的原因;但如果记录打雷和下雨同时出现的频率,则呈现高度的相关。这种相关性之所以存在,在于打雷和下雨具有相同的原因(如湿度达到一定水平形成积雨云等)。对于希望确定变量间因果关系的实证社会科学研究来说,如不加分辨和处理,此类相关关系可能误导研究者得出两变量之间存在因果关系的结论,因而被称为伪相关(spurious association)。这是因果推断中最常见的一种偏差来源。此时,如表1所示,如果控制混淆变量A,则B、C两变量间的相关性被消除。其原因在于,既然变量A是导致B、C之间存在相关性的原因,那么将变量A的信息引入系统后,相当于将样本按照变量A的取值划分为特定数量的小组,对变量B、C关系的探索发生于各小组内部。此时,变量A的因素被消除,B、C之间的伪相关将不复存在,这也是定量研究中加入控制变量的原因所在。
3.控制碰撞变量诱导伪相关
第三,对应于反叉状构型,如图2(c)中当A、B两变量之间不存在因果关系,仅有一个作为“同果”的碰撞变量C时,A、B两变量间本身不会因变量C的存在而具有相关性。然而,将变量C控制之后,变量A与B之间会出现伪相关。与因存在混淆变量导致伪相关的情况不同,因控制碰撞变量造成伪相关的过程较为抽象,本文引用埃尔韦特与温什普(Elwert and Winship,2014)所举的好莱坞演员的例子进行说明。为便于讨论,首先预设就人群整体而言,个人的才气和相貌间不存在关联,即两者间既无任何方向的因果关系,也不存在作为“共因”的混淆变量。其次,一项合理的预期是过人的才气和姣好的相貌都能正向提升个体成为好莱坞演员的概率。套用图2(c)的构型,则A、B两变量分别对应个体的才气和相貌,变量C为是否能成为好莱坞演员。那么,当控制作为碰撞变量的C后,如只考虑那些成功成为好莱坞演员的个体,当已知该演员才气平庸时,那么基于此人能够成为演员的事实可以推断其有极高概率相貌出众;反之,如果已知某演员相貌普通,可以合理推测其应当拥有过人的才华。因此,尽管个体才气和相貌这两项先赋因素本身不具有任何因果关系,但在好莱坞演员这一特定人群中,两变量会呈现反向的伪相关性。这种由于不当控制碰撞变量所产生的偏差被称为内生性选择偏差(endogenous selection bias)。
摩根和温什普使用蒙特卡罗法模拟了大学申请者的SAT成绩和面试得分情况——两项决定申请者能否被录取的主要指标,并预先赋予两者间一个系数为0.035的正向相关;随后,分别在模拟样本中检验录取和未获录取的两个群体内部个体SAT成绩和面试得分的关系。研究发现,被录取者的SAT成绩与面试得分的相关系数为-0.64;而在未被录取的群体中,两变量的相关性为-0.23(Morgan and Winship,2014:108)。这一结果直观地揭示了对碰撞变量的不当控制可能带来严重的偏差,甚至得出完全错误的结论。根据流行病学等领域的学者对内生性选择偏差影响的评估,当碰撞变量为二元变量时,如果错误控制碰撞变量,引入的偏差幅度通常与未能控制混淆变量的影响相当(Greenland,2003)。这说明在实证研究中,内生性选择偏差问题不容忽视。然而,不同于因遗漏混淆变量导致的伪相关,因控制碰撞变量引起的伪相关的方向和程度均依赖于具体情境,不存在简洁通用的判断方式。最后,控制碰撞变量的子变量同样会诱发伪相关问题,其效果与直接控制碰撞变量相同。如表1所示,其解决方式是认清系统内存在的碰撞变量,并尽量避免控制这些变量。事实上,内生性选择偏差在社科实证研究中很常见,埃尔韦特与温什普在论文中列举了大量社会学案例(Elwert and Winship,2014),本文后续也将在不同情境下对此问题做更详细的讨论。
上述链状构型代表的因果关系、叉状构型中未控制混淆变量引起的伪相关、反叉状构型中因控制碰撞变量诱发的伪相关三种情形,覆盖了变量之间存在相关关系的所有可能。不仅如此,因果图中所有可能的偏差来源也被清晰地概括为三种类型:(1)会削弱甚至消除变量真实因果效用的过度控制偏差;(2)会额外产生两种伪相关的因未能控制混淆变量引起的混淆偏差;(3)由于错误控制碰撞变量导致的内生性选择偏差。
(二)D分隔法则
在三种基本构型中单独区分偏差来源相对容易,但具体的因果图往往包含更多的相关变量和更为复杂的指向关系,要辨识出哪些通路应当被干预、哪些变量应当被控制则较为复杂。为此,珀尔总结出D分隔(D-separated)规则来辅助判断(Pearl,1995)。在因果图中,当一条通路满足以下条件时,则通路两端的变量之间不具有相关性:
(1)通路中存在一个被控制的混淆变量或中介变量(对应表1中“混淆变量的消除偏差状态”和“过度控制的产生偏差状态”);
(2)通路中存在未被控制的碰撞变量及其子变量(对应表1中“内生性选择偏差的消除偏差状态”)。
此时称该通路被阻断,或实现了D分隔。反之,当以上两条件均不满足时,该通路为开启状态,两端的变量间存在相关性。由此可知,取决于特定变量在某个通路中扮演的角色,控制该变量对其所处的通路有迥然不同的影响:当该变量为碰撞变量时,控制碰撞变量会开启原本被阻断的通路;反之,控制并非碰撞变量的变量会关闭通路。
在因果推断过程中,基于D分隔法则,研究者需要阻断解释变量和被解释变量间的所有非因果通路,同时保障所有因果通路均为开启状态。
本文参考格林兰等人(Greenland,et al.,1999)论文中一则因果图案例并解释运用D分隔的具体分析过程。如图3所示,假设D代表使用社会关系,E代表个体的收入,C为个人魅力,A为性格,B为相貌颜值。要测量使用社会关系是否影响到个体收入,需要排除除了D直接到E的因果通路之外其他所有通路的干扰。值得注意的是,此图中代表着个人魅力的变量C本身是解释变量D与被解释变量E的混淆变量,又是个体性格A和相貌B的碰撞变量,而性格和相貌又与变量D和E相关。那么,要想测量出D和E之间的因果效应需要控制哪些变量呢?首先罗列D和E之间所有非因果通路共计四条:(1)D←A→C←B→E,(2)D←A→C→E,(3)D←C←B→E,(4)D←C→E。此时,个体魅力C在通路2、3、4中分别为中介变量和混淆变量,因而控制这一变量就能够阻断这三条通路。但问题在于,个体魅力又是通路1的碰撞变量,意味着当控制个体魅力后反而会开启通路1并带来新的偏差。因此,必须寻找通路1中的中介变量或混淆变量来阻断该通路,而个体性格A和相貌B均满足该条件。同时,由于变量D和E为直接因果关系,不存在被过度控制阻断的可能。因此,就图3而言,需要同时控制变量C和A,或C和B,或C、A和B才能满足非因果通路的D分隔条件;若只控制变量C会带来内生性选择偏差。
四、因果图视野中的内生性问题
本部分尝试基于因果图视角重新审视并解读传统因果分析中关注的元素,进而将因果图与现有因果知识框架融合起来。接下来,第一小节讨论如何用因果图理解传统因果分析中的四类内生性问题;第二小节用因果图呈现一些主流因果推断方法的运行逻辑和适用场景。
(一)理解内生性问题
传统因果效应框架下,内生性问题源于多元线性回归设定中的零条件均值假设(zero conditional mean)。该假设要求在给定所有控制变量的情况下,多元线性回归中误差项u的条件期望为0:
如该假设满足,则称相关控制变量为外生的;若该假设无法满足,即解释变量或控制变量中存在相关时,即为内生性解释变量,由此带来的就是内生性问题(Wooldridge,2002,2010:54、87)。回顾本文第一部分对哪些变量应当被纳入因果图的讨论(图1右图),其条件为当某个变量对应的误差项与因果图中其他变量均无关时,该误差项中的因素就不必显示于因果图中。可见,不再指定具体回归形式之后,外生性条件与因果图中的变量筛选条件是一致的。也就是说,一幅完整的因果图应能对应地呈现所有内生性问题。陈云松、范晓光(2010)将由内生性导致的相关问题汇总为四类,包括遗漏变量、自选择、样本选择和联立性。本小节即在此框架基础上探讨如何使用因果图方法理解这些问题。
1.遗漏变量偏差
遗漏变量偏差指的是回归模型中存在本该被控制却未被控制的变量,与因果图中因混淆变量造成伪相关的情况相对应。陈云松、范晓光(2010)曾在研究中举例,在探讨找关系和职场成功间的因果效应时,因未控制个体口才导致推断存在偏差。基于因果图的框架不难发现,“个体口才”充当了混淆变量的角色。如图4(a)所示,根据经验推断,一个人的口才会影响其对社会关系的应用情况;同时,口才作为能力的一个维度,也会影响到个体是否能在职场上取得成功,这就形成了典型的叉状构型。此时,即使假设找关系与职场成功之间不存在因果关系,但如果不控制混淆变量“个人口才”,也会因未能阻断解释变量和被解释变量之间的伪相关而得出“找关系能够影响职场成功”的错误结论。
2.自选择偏差
自选择偏差同样归结于因果推断中的叉状构型。自选择指的是个体因自身原因选择某些行为或参与到特定项目中,即干预变量并非随机分配的。伍德里奇(Wooldridge,2002:255)使用两个案例来说明自选择问题:在探讨个体饮酒行为对收入的作用时,伍德里奇强调可能存在一些个体特征,既决定了个体是否饮酒,又影响到个体的收入水平;其二为参与培训项目对学生成绩的影响,学生能否参与培训项目与其家庭背景因素(如父母受教育程度、家庭收入水平等)有很大关系,而家庭背景又会影响到学生成绩。这两个案例同样是因果图中典型的叉状构型。陈云松、范晓光(2010)在研究中强调自选择中被遗漏变量的非观测因素特征,恰与文初变量标志定义相关。仍使用X表示能够被观测到的变量,U表示难以观测但同时影响解释变量和被解释变量的因素。尽管面临的都是混淆变量干扰的问题,但相较于图4(b),图4(c)中的伪相关更难消除。因而,相较于一般的遗漏变量问题,自选择带来的偏差通常更难解决。
3.样本选择偏差与非随机缺失值
样本选择偏差是相对更为复杂的一种情形。陈云松、范晓光(2010)的研究将其解释为“因变量的观察仅仅局限于某个有限的非随机样本”,即样本能否被观察到取决于其解释变量的取值,在计量教材中有时也被称为内生性样本选择(endogenous sample selection)(Wooldridge,2002:325)。伍德里奇曾举例,在讨论个体教育对收入水平的影响时,仅关注那些收入水平在特定条件下的人群(如年收入十万以上者),得到的教育对收入的影响与在整个人群中的实际影响程度不同,这是典型的样本截断问题(sample truncation)(Jerry and Wise,1977)。应用因果图框架,考虑系统中存在一些不易被观测的因素(如个体智力等)会同时影响个体的受教育水平及未来收入。如前文所述,这些因素本身作为混淆变量,在不能被有效控制的情况下会带来偏差。但是,当所用样本基于因变量信息被截断后,系统中会存在另一种由碰撞变量带来的偏差。如图5(a)所示,被解释变量个体收入水平是受个体智力和教育水平同时影响的碰撞变量,在以“年入十万”为标准对人群分层之后,实际上开启了另一层个体智力与教育水平之间的伪相关关系。由此带来的双重相关无法真实反映个体教育和收入水平间的真实关系。
进一步而言,无论是否存在遗漏变量,基于因变量的样本截断总会给系统带来偏差。不妨将案例中的个体智力换作彩票是否中奖,一项与个体受教育程度无关却直接影响到个体收入水平的因素,在一般的回归过程中这样的变量并不需要被控制。如图5(b)显示,尽管不存在混淆变量,但由于作为被解释变量的个体收入水平充当了教育水平和彩票中奖的碰撞变量,当系统通过样本截断控制了个体收入水平后,会开启教育水平和彩票中奖间的伪相关。此时,除了个体教育和收入水平之间本身存在的因果关系外,还加上了一条“教育水平→彩票中奖→收入水平”的伪相关。在此情况下,个体教育和收入水平间的相关程度同样不等于因果效应。事实上,可以将“彩票中奖”看作与解释变量“教育水平”无关的误差项的一部分,而被解释变量永远会是解释变量和对应误差项的碰撞变量(Elwert and Winship,2014)。由于实践中不可能穷尽构成误差项的所有因素并加以控制,所有基于被解释变量的截断操作均会引入内生性选择偏差带来的伪相关。
此外,伍德里奇(Wooldridge,2010:778)将社会调查中常见的缺失值问题视为内生性样本选择的一种特殊形式,而这一问题也可以通过因果图的内生性选择偏差视角来解读。当缺失值的出现与任何变量均无关,即完全随机(missing completely at random)时,缺失值的存在并不会对该调查的效度产生影响。然而,当缺失值与特定变量间存在关联时,就可能影响到结果的有效性。如一项新近的研究尝试基于首都大学生社会调查提供的其他变量信息,使用机器学习算法预测缺失样本的真实性取向(Chen,et al.,2022)。借助因果图框架,可以清晰地理解这项工作的意义。如图5(c)所示,假设需要使用该社会调查探讨个体性取向对精神状态的影响。由于社会偏见与歧视的存在(Wang,et al.,2019),合理的推测是,相较于异性恋个体,性少数个体更倾向于拒绝回答有关性取向的问题,导致相关问题的缺失值与个体真实性取向之间存在关联。同时,假设个体精神状态对是否回答问卷中的相关题目也有影响,那么问卷样本值是否缺失会成为样本性取向和精神状态的碰撞变量。如果在分析过程中不考虑这一关系而直接使用未缺失的样本,就会开启反叉状通路,造成解释变量与被解释变量间存在额外的伪相关。在此情况下,仅考虑个体性取向和精神状态间的相关程度不但不能反映两者间的真实因果效应,甚至可能得出与事实相悖的结果。假定性少数群体或精神状态较差的人群更倾向于拒绝回答相关问题,则在已知样本值不缺失的前提下,选择回答问题的性少数个体更可能具有较好的精神状态(否则不会去回答问题);反之,如果精神状态较差,则更可能是异性恋人群。在这种伪相关性的干扰下,研究者可能得到与真实情况相反的结果。尝试对缺失值进行精准预测的工作即意在解决此类内生性选择偏差。假设在最理想的情况下,样本性取向缺失值的真实信息能补全,则图5(c)中由性取向到样本缺失值的箭头线就不复存在,进而提升该项社会调查的有效性。综上,陈云松、范晓光(2010)提及的“样本选择偏差”或伍德里奇的“内生性样本选择”与因果推断中讨论的“内生性选择偏差”的含义相叠,因果图能够以更为直观和规范的形式呈现这一问题。
4.联立性偏差
陈云松、范晓光(2010)曾在研究中谈及第四种偏差是因联立性或双向因果而产生的。前文已提及,真正的“因”与“果”之间必然存在时间的先后次序,所谓的两变量X和Y互为因果,其真实含义是“X能对随后发生的Y产生影响,反之Y也能影响到随后发生的X”(Greenland,et al.,1999)。也就是说,联立性偏差源于数据的精细程度不足而无法区分出变量发生的次序,根本的解决方法是引入更精细的时间次序。在开环有向形式的因果图中不允许两变量之间存在双向箭头,但可以通过在变量后添加角标来表示时间次序。如图6左侧所示,代表着直观上“联立性”的左图与“开环”的要求不符,因而不会出现在因果图中;图6右侧部分则通过加入角标的方式,将同一变量细分为不同时段。尽管干预T和效应Y互有影响,但只是体现在的作用上,处在同一阶段的之间并不存在直接的因果作用。此外,同一变量在不同时间段存在趋势延续性,因而也存在箭头连接。需要注意的是,图中仅截取了变量在两个时间段的相互作用情况,更前面的时间段并未在因果图中呈现,真实的因果图状态应该是沿时间趋势以类似结构不断延伸的。加入时间角标后,因果图中通路的开闭规则仍然适用。就图6右侧部分来看,若评估的因果效应,则需要保持以下路径关闭:(未显示于图6中)。根据D分隔规则,这些路径均可通过控制加以阻断。需要再次强调,因果图能够帮助研究者规划解决联立性问题的思路,但能否实现则取决于数据的质量。
基于以上讨论,表2汇总了传统因果分析中内生性问题与因果图中偏差类型的对应情况。遗漏变量与自选择偏差均对应着因果图中的混淆偏差。样本选择偏差及其特例非随机缺失值归属于因不当控制碰撞变量而诱发的内生性选择偏差。联立性偏差本质上是数据质量问题,但在因果图中通过角标区分时间次序也能予以表达。最后,对中介变量的故意控制多出现在机制探讨中,因而通常不被视为偏差的来源,但当研究者对变量角色的认知不甚明确时,也有可能导致过度控制问题(Schisterman,et al.,2009;Finn,et al.,2005)。
(二)因果图框架下的计量方法
现有因果推断方法主要解决因存在混淆变量导致的混淆偏差问题。基于混淆变量能否被观测到(observable/unobservable)需要采取不同的对策。当混淆变量能够被观测到,消除偏差的方法就是在系统中控制这些混淆变量,常用做法包括多元回归和匹配;当存在无法被控制的混淆变量时,研究者面临着更为复杂的情境,需要根据情况选择寻找代理变量、实验或准实验、工具变量、面板模型、断点回归、双重差分等方法(Morgan and Winship,2014;Wooldridge,2002;陈云松、范晓光,2011)。
其中,多元回归与匹配或倾向值匹配的方法均通过在系统中控制已知的潜在影响因素来消除混淆偏差。因此,尽管摩根和温什普(Morgan and Winship,2014:128)将这两种途径区分为控制直接影响自变量分配的因素和对影响因变量的其他因素进行分层,但两种方法的作用逻辑和预期效用是一致的,对应的因果图均如图7(a)。
当系统中存在无法直接观测的因素时,如果这些因素的含义比较明确,最直接的方法是寻找替代变量。如在社会科学研究中,经常使用考试成绩代表个体的认知能力,使用自评心理状况量表代替心理健康程度等。然而,如果代理变量不能完全反映对应的因素,仍会有部分混淆偏差遗留在系统中,如图7(b)(c)所示。
其次,如果条件允许,理论上,使用随机实验能得到最可靠的结果。如图7(d)中,由于干预因素是随机分配的,即使存在其他影响被解释变量的因素,也不会与自变量构成伪相关通路。此时,解释变量与被解释变量之间的相关程度直接反映了两者间的因果作用。这也是基于实验所得的结论往往被视为黄金标准(gold standard)的原因。
工具变量是另一种常用的因果推断方法,它的基本逻辑是寻找一项完全外生的因素仅通过直接作用于自变量而影响因变量,进而估算自变量中直接受外生变量影响的部分对因变量的作用程度,图7(e)中的变量I即为工具变量。对工具变量具体机制的解读可参考相关研究(如Morgan and Winship,2014:293;Angrist,et al.,1996;陈云松,2012)。图7(e)同时反映了一个重要信息:尽管工具变量I仅通过解释变量T作用于被解释变量Y,但控制T后I与Y仍存在相关性。这是由于解释变量是工具变量与混淆变量的碰撞变量,控制解释变量后会开启I→T←U→Y的通路。因此,尽管工具变量与被解释变量间的通路完全由解释变量介导,但在实践中不能通过控制解释变量后测试工具变量与被解释变量是否仍然相关来判别工具变量的有效性。这也解释了为什么工具变量的外生性无法用统计方法来证明。
最后,图7(f)简要展示了面板模型的逻辑,参考上节的分析,通过控制所有混淆变量以及 能够阻断所有由 到 的非因果通路。在实践中控制解释变量滞后项的做法为动态面板模型(dynamic panel model)。如果预设系统中前一阶段的被解释变量对后续阶段被解释变量不存在直接影响,模型中不必纳入被解释变量的滞后项,此时为静态面板模型(static panel model)。
当系统中存在内生性选择偏差时,相对易于处理的情况是通过避免控制碰撞变量或阻断伪相关通路来消除内生性选择的影响。如果对碰撞变量的控制是由数据或系统本身导致时(如样本截断、缺失值、特定样本群体等),碰撞变量带来的偏差就无可避免。针对此类问题,赫克曼二阶段法是社会科学研究中应用最为广泛的纠偏途径(具体方法逻辑参考Winship and Mare,1992)。此外,一些新方法也在被不断提出或改进(如d'Haultfoeuille,2010;King,et al.,2001等)。更为彻底的方式则是提升数据质量或变更问题形式(Morgan and Winship,2014:80)。就内生性选择偏差而言,最重要的是准确判断是否存在碰撞变量、能否避免开启伪相关以及会不会影响到因果推断的效度,这些均是因果图能够助力之处。
五、使用因果图厘清模糊认知
因果图作为一种直观严谨的图像化表达系统,能够帮助研究者澄清一些长期存在于实证社会科学研究中却不甚准确的观点。本文以“控制发生在干预后的变量会低估因果效应”和“发生在干预之前的变量应当加以控制”两种流传甚广的观念为例加以说明。
(一)控制干预后变量未必带来偏差
计量课程常以图8(a)为示意来讲解回归模型中控制变量的选取。其中,X代表人口学变量等先赋因素,B则为发生于解释变量后的变量。一般会建议控制X类变量而避免控制B类变量,理由是控制B类变量会分散部分自变量对应的回归系数,并低估自变量与因变量之间的真实作用。
然而,基于图8(a)中的信息,B类变量与因变量Y之间不存在直接的因果关系,仅因同受解释变量T的影响而具有统计学层面的相关。如果此条件严格成立,是否控制变量B对回归结果均不存在影响,解释变量与被解释变量的关联系数也不会被B分散。不妨以这样的视角来理解:首先关注B和Y的关系,两者间不存在直接的因果关系,仅有“B←T→Y”和“B←T←X→Y”两条通过混淆变量传导的通路诱发两者间的伪相关。而对这两条通路,控制变量T即可将其完全阻断,此时B与Y之间是条件独立的。那么,在多元回归的情况下,模型中本身包含了解释变量T,此时再将变量B作为控制变量纳入模型,B对应被解释变量的回归系数只会是0,不会对回归结果产生任何影响。事实上,要使变量B对T与Y间的因果效应产生影响,则在B与Y之间必须存在另外的不经T介导的关系。在变量B不应被控制的论断背后,实际上存在着两种不同的情境。
如图8(b1)(b2)所示,如果B和Y之间存在直接关系,可能由Y导致B,或者由B导致Y。这两种情况下均不应当控制变量B,但其所基于的理由和导致的后果却明显不同。当出现(b1)中的情况时,此时B是T和Y的碰撞变量,控制B会导致T→B←Y通路开启,造成T和Y之间的伪相关,影响对两者间真实因果关系的判断。但是,这种影响的方向和程度依赖于具体情境,无法一概而论。而在(b2)情境中,B作为中介变量介导了一部分由T到Y的因果效应,控制变量B后会导致对T与Y之间真实因果效应的低估——在这一情况下“控制变量B将分散自变量的回归系数”的说法才会成立。研究者在聚焦于对具体机制的探索时,有时会刻意选择控制中介变量来区分直接和间接因果效应(Pearl,2012)。
此外,值得澄清的一点是,仅基于解释变量或被解释变量一边做出的样本选择并不会导致偏差的产生。图8(a)中控制变量B的做法可被视为对解释变量T进行了选择,但由于这种选择与变量Y不产生直接的关系而不会影响到T与Y之间的因果效应,伍德里奇(Wooldridge,2002:325)称此为外生性样本选择(exogenous sample selection)。不妨用一种理想化的极端情况进行说明:图8(c)中分别以是否下雨和彩票中奖为干预和效应,而这两者本身是不存在任何关联的。控制干预为“下雨天”不会影响彩票中奖的概率;控制效应为“中奖”的条件下,当天是否下雨也与具体的彩票获奖金额无关。现实情况中,基于解释变量或被解释变量的选择往往会对因果推断造成影响,其本质在于这些选择会以某种方式影响到另一边,而非真正的完全无关。
(二)控制干预前变量可能引起偏差
尽管流行观念认为当特定变量发生在解释变量之前时,应当在系统中加以控制以消除偏差,但这样的操作同样存在风险。事实上,一些碰撞变量同样可能发生在解释变量之前,如果不加甄别,会诱导内生性选择偏差。埃尔韦特与温什普(Elwert and Winship,2014)采用一项社会网络案例加以说明。
图8(d)希望探讨个体j在时间1的社会参与是否会影响到与其熟识的个体k在时间2(时间1之后)的社会参与程度。其中U代表相关个体特性如外向程度,这种特性显然会影响到个人交友情况,同时影响到个人的社会参与情况; 代表两个体间存在社会关系,这种关系发生在观测时间1和2之前。此时,即使假设 不具有直接的因果效应,但由于个体间存在社会关系是先验的,故“”通路开启, 之间具有伪相关。这也是社会关系领域区分“物以类聚”和“近朱者赤”两种效应时面临的主要挑战(Shalizi and Thomas,2011)。
六、总结与讨论
本文系统地引介了因果图方法,用以辅助对因果推断问题的理解和分析。行文中首先介绍因果图的链状、叉状、反叉状三种基本构型。进而概括了变量之间产生相关性的三种可能及对应的因果推断中三种偏差的来源,即未控制混淆变量导致的混淆偏差、错误控制中介变量导致的过度控制偏差,以及错误控制碰撞变量导致的内生性选择偏差。随后讨论了用以阻塞通路的D分隔法则:“通路中存在被控制的混淆变量或中介变量;或通路中存在未被控制的碰撞变量或其子变量”,而有效的因果推断需要阻塞系统中的非因果通路并确保因果通路开启。
在此基础上,本文应用因果图框架来构建理解因果推断中核心概念的统一框架,包括使用因果图中的三种偏差来源对标四种内生性问题,即混淆偏差涵盖了遗漏变量和自选择两种内生性问题;内生性选择偏差则包含了样本选择和非随机缺失值带来的问题;联立性偏差相对特殊,需要在因果图中加入时间维度;此外,因不当控制中介变量带来的过度控制偏差也需要引起研究者的关注。而后,本文使用因果图表达了多元回归和匹配、代理变量、实验或准实验、工具变量及面板模型等因果推断主流方法的适用范围与运行逻辑。
本文认为因果图能够为因果关系的研究提供直观的非参数检验工具。不妨类比思维实验(thought experiment)之于社会实验的关系。受到现实中的伦理、经费等因素的制约,一些社会实验设计难以实施,于是研究者们通过想象出理想化的实验、设定条件并预期结果,以佐新知发现(Gendler,2000)。这种构建于脑海中的实验在物理学、哲学等领域发挥着重要作用(Brown,1991)。而社科研究中则建议将思维实验作为现实实验的前奏和先导,用以确定方法思路、优化研究设计(Angrist and Pischke,2009)。与之类似,因果图也值得作为一个必要环节纳入因果推断的过程。即在实际的因果探究中,应当将其过程区分为非参因果推断和数据模型检验两个部分。前者使用因果图框架表达理论假设、选取控制变量并排除可能的干扰因素;后者则依照前者给出的策略使用数据进行测试。当然,具体实现应当是两个阶段不断交互优化的过程。
此外,因果图这种纯粹非参的形式为青年学生提供了理解和掌握因果推断的框架,更利于因果推断知识的教学和传播。在因果推断课程中涉及的大多数内容都可以使用因果图来表达,从而直观地呈现概念与方法立足的逻辑。笔者建议,在相关课程设置中可以考虑先介绍反事实概念和因果图框架,再使用因果图框架辅助、阐释乃至引导数理形式的推导,进而帮助青年学者和学生以更为直观友好的方式理解因果推断问题,培养相应的思维。
最后,需要再次强调,因果图的具体形式取决于学者基于理论和经验做出的判断。两个变量之间是否存在连线、箭头如何指向、哪些变量需要被纳入等,均会影响到因果图的具体形式,进而决定应当采取怎样的偏差规避策略。同时,并非所有因果图都存在完美的解法,有些因果图中无法兼顾避免偏差和展现全部的因果关系,大多数实证研究也不存在“完美的答案”。从根本上说,数据的质量决定了其所能回答问题的上限,因果图只能在有限条件下襄助数据发挥出其最大的效用。因此,在呈现具体的实证研究时,本文建议研究者应当使用因果图表达对应的模型假设;同时清晰地展现因果图中变量间关系设定的依据;并明确讨论现有数据条件能够消除哪些偏差,获得何种程度的因果效应,而哪些偏差是无法避免的。若正文中不便呈现具体的因果图,本文建议可将因果图展示于附录中。
(注释与参考文献从略,全文详见中国人民大学复印报刊资料《社会学》2022年第12期/《社会》2022年第3期)