|
因果关系的或然性探究
——以几种虚假因果为例
李海荣
载:中国人民大学书报资料中心《社会学》,2015年01期
原文出处:《中共青岛市委党校·青岛行政学院学报》2014年4期
【作者简介】李海荣,中共中央党校研究生院2013级科学社会主义与国际共产主义运动专业博士研究生,北京 100091
【内容提要】目前,定量分析方法在社会研究中已得到较普遍的使用,竞相探究各变量之间的因果关系也成为一种研究时尚。但其间尚有诸多纰漏,究其根源,问题的症结在很大程度上可以归结为对因果关系的理解不清。相较自然科学研究,社会研究中因果关系的必然成分要逊色不少。换言之,社会研究中的因果关系是一种或然性关系,而非必然定律。据此,本文力图结合当前定量分析中几种典型虚假因果的例子,重新讨论因果关系的或然性这一特质,辨明因果关系之于社会研究的重要性及其独特性。
【关 键 词】社会研究/定量分析/因果关系/或然性
现代社会,科学观念不断深入人心,并日渐成为支配社会整体思想的一套“意识形态”,社会诸领域亦通过“科学”的“符号化”形式来宣示自我,社会研究中因果关系地位的彰显便是一大明证。围绕发现问题、理解问题、解决问题这条一以贯之的逻辑主线,社会研究者建立起以因果关系为基础的技术路线,力求用因果式的科学理论揭示社会现象的规律。
“在社会研究中,因果关系不是绝对的,而是概率性的。概率性的因果关系决定了社会研究只能做相对的平均值分析、趋势的分析,而不能做绝对的分析。”[1]因此,在社会研究中,真正的因果关系固然存在却很难找到;但目前的社会研究中,研究者混淆甚至强加因果,致使“因果关系”大量充斥在研究报告中。这不仅违反职业伦理规范,影响研究的信度与效度,也会损害学术研究的科学性与规范性,[2](P62-66)虚假的因果关系最终还可能对将要进行的“社会改造”造成不可预期的严重后果。
一、因果关系的社会学规定
想要清楚理解因果关系的或然性这一特征,首先要明确因果关系建立的原则。换言之,什么样的关系才是因果关系?确立因果关系的标准到底是什么?针对这一问题,因研究视角、所学专业等的不同,研究者会给出迥然不同的答案;即使在日常生活中,我们一般人也会时常作出含有因果关系的推断,[3]进行着因果规律的表达。
对因果关系的探讨,有悠久的历史渊源,而休谟被认为是近现代以来对其做出重大贡献的哲学家之一。从时间上的先后、经验上的相邻和恒常的关联三个方面,休谟对因果关系进行了论述:当研究者对因果关系进行时序分析时,通常把先发生的现象列为原因,把后发生的现象列为结果;在经验的时间和空间上,X和Y相邻;此外,X和Y也总是同时出现的。可以看出,休谟对因果关系的论述,构成了一种“X现象导致Y现象”的主观必然性。投射到社会研究中,就构成了一种绝对的因果关系。休谟之后,许多学者对因果关系进行了更深刻的分析,尤其是对“必然的因果关系”的论述进行了批判和修正。
总体而论,在社会学领域,自学科发轫之初,便有两种截然相对的因果分析取向:
(一)自然主义的决定论——涂尔干的视角
涂尔干继承和发扬孔德实证主义方法论思想,主张以自然科学为榜样,以建立科学的社会学为宗旨,赋予因果分析以特殊的重要性。他不仅对因果分析给予一般说明,而且还就如何确定因果关系的具体细节作了深入探讨。
1.时间性
根据时间性,一般将社会研究分为横向分析和纵向分析两大类。对比来看,因为纵向分析中研究者能清楚看到事情发生的前后顺序,可能从纵向分析中更便于推导出因果关系。从理论上来讲,先发生的是原因,后发生的是结果。
但涂尔干在说明因果分析时,告诫人们尽管因果关系是具有时间顺序的一种历史关系,但决不能仅仅根据历史上的先后顺序来确定因果关系。因此,表面上的时间顺序应值得社会研究者重视。在社会研究中,这样的例子是很多的。例如,社会学大师DUNCAN曾举例,圣诞节前通常会有一个购物高潮,那么是圣诞节造成了购物高潮,还是购物高潮造成了圣诞节?[4]所以,在社会研究中仅仅根据事情发展的前后顺序来寻找因果关系是靠不住的。其实,人都有寻找因果关系的目的论倾向,而这种目的性会促使个人去企图预测事物的发展方向。这就导致了在某些因果关系中,结果在前,原因在后。人们做了很多事情是为了将来,而不是为了现在。
2.起因的复杂性
休谟在论述因果关系时,对原因的界定比较单一,基本是“一因一果”式的模式。但从社会现实层面来看,一种现象绝对导致另一现象发生的可能性极低,而现象的发生机制比较复杂,原因不仅多而且“组合”又多样。相比休谟最初的单因论述,起因对于结果的产生有着更加复杂的内部机制和关联。
从社会现象的历史起源角度看,进行原因的解释是社会学研究的另一个重要的分析方法。因果分析意味着从某一社会现象所处的历史环境中找出对其发生主要影响的要素。正是在这些要素的影响下,这一社会现象而不是其他社会现象才不得不发生。涂尔干认为,由于社会现象极其复杂,因此,自然科学用以确定因果关系的诸多方法中只有共变法适用于研究社会现象。所谓共变法,是说如果两个现象经常以某种固定方式发生同步变化,就强烈暗示着它们之间有可能存在着因果关系。但涂尔干又提醒人们要谨慎行事,不能仅仅根据社会现象之间的共变关系(即现代统计学上的相关关系)便轻率地确定因果关系的存在。因为可能存在:两种社会现象之所以发生共变关系,是因为存在着另一个同时决定它们共变的现象,而这一现象才是它们变化的真正原因。涂尔干举例说,当时在教育程度与自杀之间可以观察到某种相关,但如果据此而断言教育是导致自杀的原因就错了,真正的原因是宗教传统的衰落,它一方面使教育世俗化、普及化,另一方面降低了社会凝聚力,从而导致了自杀。由此可见,因果关系必然是一种相关关系,但相关关系却不一定是因果关系。所以,社会现象之间的因果关系隐藏在大量复杂的可变因素背后。
(二)人文主义的非决定论——韦伯的视角
韦伯关于社会学方法论的一系列重要的概念工具带有浓厚的新康德主义色彩。其中,“理想型”便是典型例子。韦伯力图缩小历史学与社会学之间的差距,从方法论上把两者统一起来。他认为,史学所面对的虽然是一些个别的具体事实,但它的任务仍然是探寻这些个别事实之间的因果关系,从而找出某种规律性的东西。不过,韦伯所说的规律性或历史的因果联系不是决定论所主张的那种确定性、必然性,而是一种概率性。韦伯以此划清他与实证主义的界限。
比照休谟的论述,加之上面的分析可知,无论是自然主义的决定论还是人文主义的非决定论,在确立因果关系时都持有一种保留的态度,这从理论上论证了因果关系是一种或然性而非必然性的关系,社会研究者应充分注意到这一点。
二、混淆因果关系的经验研究分析
在论述定量研究之于社会研究的重要性时,英国学者哈拉兰博斯认为,“只有当社会世界用数学语言表示时,它的各个部分之间的确切关系才能得到证实……没有量化,社会学就只能停留在印象主义的臆想和未经证实的见解这样一种水平上。因而也就无法进行重复研究,确立因果关系和提供证实的准则”[2](P62-66)。但目前社会研究中定量分析的各种错误也屡见不鲜,而对因果关系的分析主要存在三个问题,即伪相关、忽略变量偏误和抽样选择性偏误,另外还有生态型谬误。
(一)伪相关(spurious correlation)
所谓“伪相关”,是指两变量之间的因果关系是虚假的,建构二者因果链条中关键的一环是由第三个变量承担的,表面的“自变量”与“因变量”只有通过隐而不显的“中介变量”才能形成关系。正如“A<B”这一数学公式,真实的关系则是“A<C<B”,变量“C”才是导致变量“B”发生的真正原因。下面通过一个定量分析中的典型例子予以说明:
在某城镇抽样调查了一千户人家,目的是要研究住房的拥挤情况是否会引致夫妻之间的冲突。表1是得到的数据,显示这两个变量成正比(G=0.423,p<0.05)。���是否证明住户拥挤是导致夫妻冲突的原因呢?答案是不一定。二者的相关有可能是一种伪相关。住户拥挤(X)和夫妇冲突(Y)这两个变量的关系可能是由第三变量,如家庭的经济水平(W)所导致的:较为贫困的家庭不仅是居住范围窄小,而且成员的矛盾也会较大,因此使得住户拥挤与夫妇冲突成正比。这些变量之间的关系,可用下图来表示:
X和Y皆与W成反比关系,二者可能因此而有正比关系,这就是数学上的负负得正的原理。为检验住户拥挤和夫妇矛盾二者的因果关系是否为假,可以引入家庭经济水平作为第三变量予以辨明。假定经济发展水平可分为高、中、低三个类别,控制家庭经济水平后的统计资料为表2。在所有三个经济水平不同的组内,住户拥挤与夫妻冲突的关系都非常微弱,均未达到0.05显著度,因此二者可能是没有关系,而是一种伪相关,那么住户拥挤与夫妻冲突的因果关系便是虚假的。由此可以进一步说明,相关并非因果,伪相关更不是因果,需要认真区别。
(二)忽略变量偏误(omitted-variable bias)
所谓忽略变量偏误,主要是指为分析因果关系在创建统计模型时,遗漏了一个或多个原因变量;过度重视或忽视某一变量在因果链条中的效应时都会犯此错误。总体而言,忽略的变量与自变量和重要的因变量都高度相关,这两个条件要同时具备。
需要强调的是,忽略变量偏误和伪相关在统计上是没有区别的,二者在分析过程中都忽略了重要的“中介变量”,差别仅是概念性的,统计学意义下的本质是一样的,两者互为对方的一种表现形式。
(三)抽样选择性偏误(selection bias)
抽样选择性偏误,是指所选的样本没有很好的代表性,它不能很好地代表总体的特征而产生的偏误。就社会研究而言,从抽样范围来看,可以划分为“总体调查”与“抽样调查”两大类:前者以总体为样本单位,后者以某一标准来选取样本量,抽样选择性偏误就出在所选取的样本上。
例如,有一个面向物理学专业的奖学金,评判的条件包括数学知识、分析能力和语言能力三部分。因为申请奖学金的学生在数学和分析方面都很出色,不具有归纳差异的条件,因此有人建议根据个人的语言能力来作为评定的标准。[6]而问题的关键恰好在此,样本的主要差异落脚在一个与群体总特征关联不大的维度层面,导致样本的代表性降低,出现了抽样选择性偏误。要解决样本选择性的问题,需要对结果产生影响的多个变量进行控制,多元分析是一个可能的方法。
(四)生态学谬误(ecological fallacy)
生态学谬误又称层次谬误,是指用一种高层次的分析单位做调查,却用另一种低层次的分析单位做结论,[7]模糊了群体特征与个人特征的界限。从这里可以进一步看出,社会研究尽管用变量语言来阐释分析单位的规律性,但此种规律性是建立在总体而非个体基础之上,即这种规律是社会整体层次的规律,而非社会具体成员单一特征的简单加总。
涂尔干在其名著《自杀论》中,以“自杀率”这一总体层次的概念,展开对不同地区、不同宗教信仰、不同年龄性别等人口群体自杀现象的分析,进而得出“社会整合程度”是影响“自杀率”的关键因素的结论。相对于“自杀”这一个人行为,“自杀率”则是一总体概念,我们可以从宏观层次比较各个群体自杀率的高低,但不能从个人层次仅凭个人属性作出自杀率高低的判断,否则就是典型的生态学谬误。
与生态学谬误相对的错误还有一种“简化论”,即局限于只将某些类型的概念应用于研究对象,而忽略了其他概念组的解释力,“盲人摸象”便是典型的例子。
以上讨论了定量分析中导致虚假因果关系的几种形式。四个方面在本质上是一样的,在统计上是没有区别的,其中的一个是其他三个的表现形式而已。这里笔者只是为了论述的方便才将其用传统的方法区分而已。在经验研究中,社会研究者进行定量分析时如不注意,可能就会以因果关系的形式出现偏误。这从另一个侧面也反映出因果关系的不确定性,突出了因果关系的或然性特征。
三、重新思考因果关系
通过对几种虚假因果关系的分析,可以更加清楚地看到因果关系的或然性特征。这也提醒社会研究者对因果关系应进行再分析。
(一)因果关系中的“时空”性
1.“时间性”——因果关系和横断性资料
非实验性的社会研究经常使用在一个时间点上所搜集的横断性资料来推论因果关系。现在的问题是,研究中所隐含的贯时性因果关系是否能被探讨?我们可以通过两个法则予以说明:
首先,在社会研究中,因果关系含有贯时性变量的结果,这些变量可能在过去、现在或是未来,但不管以哪种方式存在,因果关系会因时间而改变。如果X是Y的一个原因,随着时间的推移,X的变化应该导致Y的变化。更进一步说,因果关系中应该含有贯时性的资料,而不能仅仅通过横断性的资料来分析。
其次,一个因果命题的有效性,贯时性的资料是提供恰当检验的方法。而只有在特定的条件下,横断性的资料才肯定是恰当的。如果可以假定自变量在一开始的值都是一样的,只有在这种条件下,后来所做的横断性观察可以合理地解释原先的因果关系,否则横断性资料所做出的因果推论可能为假。
长期以来,通过横断性资料进行因果解释总存在一些问题,这个问题类似于以静止的照片为依据来判断某种高速运动物体的速度。[8](P100)所以,在测量某个因果命题的预测结果时,社会研究者很容易轻率地以横断性资料替代贯时性资料。解决的办法之一就是收集其他时间点的资料,进行总体的研究,谨慎进行解释性研究。
2.“空间性”——因果的对称性与非对称性
无论是理论研究还是经验研究,研究者都不应忽视因果关系的对称与不对称。当下的定量分析中,大部分的标准统计工具所含的是对称的因果关系。研究者若要判断一个变量的改变是否引起另一个变量的改变,可能还要考虑其他变量的影响,这时可以采用净相关系数进行分析。因和果之间如果不是完全不对称的话,至少部分是不对称的,如X和Y两个变量,当指定X为自变量时,Y则自动指定为因变量,二者之间的关系就变成了一种不对称。当然,这种指定中掺杂了很多人为因素,具有较大的主观性,这无疑也增加了确定因果关系的风险。
一个完全对称的关系是没有问题的,因为在某个自变量上来回的变动,将会在因变量上持续产生相同的来回的变动。但是,如果关系是不对称的,社会研究可能会导致严重的错误。
(二)因果关系中的“原因”复杂性
1.必要原因和充分原因
必要原因表示“只有”存在这个条件,结果才会出现;充分原因则表示,“只要”这个条件出现,结果就肯定会出现,但充分原因并不等于某结果的唯一可能原因,所以一个原因可能是充分的,但不是必要的。在社会研究中,研究者最希望发现的是充分必要原因。
但社会研究中,在分析变量之间的关系时,发现某个既是绝对必要的又是绝对充分的原因是很难的。并且,发现100%的必要原因或是100%的充分原因也同样困难,这些因素也更提高了确定因果关系的难度,增加了因果关系的不确定性。
2.根本因和表象因
社会研究者应认真区分根本因和表象因。这是因为,一方面,有一些表象因看起来似乎是很对因果关系负责的;另一方面,有一些根本因实际上造成结果的产生。对此可以从两个角度进行思考:
首先,从某些变量的本质无法区分某一变量是根本因还是表象因,必须视情境而定。在某个情境里,经由统计模拟的控制实验,当一个变量看起来对因变量产生影响时,但是实践上任何一个方向上的改变对因变量并不产生真正的影响,这样的变量是表象因;至于根本因,则是在研究情境里真正对因变量产生影响的变量。但普通的定量分析是无法区分开来的。
其次,自变量与因变量的相关强度并不能区分表象因和根本因。一个表象因可以轻易地和因变量产生很强的关联,然而一个根本因可能是无法进行测量的。即使可以进行测量,它和因变量的相关强度也可能不比表象因和因变量的相关强度要强。
(三)或然性因果的适用性分析
个案式和通则式解释是两���基本的因果解释模式。所谓个案式解释,就是在这种解释方式中,我们试图穷尽某个特定情形或是事件的所有原因;所谓通则式解释,指在这种解释方式中,我们试图寻找一般性地影响某些情形或者事件的原因。[8](P23)
需要强调的是,在讨论因果关系的或然性时,其适用对象是对总体而言的,是通则式解释,而非个案式解释。因为概率性的解释对个案是不适用的,只在有重复的事件发生时,概率性的因果关系才有意义。概率论的基础是重复,假如没有重复,就没有概率,也就没有概率性的因果关系。
社会研究者在运用统计技术时,应抛弃“统计至上”主义,时时反思自己,不断修正研究中的谬误,提升自身的判断力,“科学地”陈述“社会事实”,真实地反映社会研究中的因果规律。
发现因果关系,挖掘因果规律是社会科学研究的重要任务,也是学科知识积累和建设的核心。对因果关系尤其是对其或然性与必然性的争论还将存在并继续下去,这既是人类社会复杂性的表现,也恰恰是研究与创新的动力和机制所在。
【参考文献】
[1]谢宇.社会学方法与定量研究[M].北京:社会科学文献出版社,2006.41.
[2]何雨、陈雯.论当前调查研究量化分析中的诸种问题[J].中国青年研究,2008,(9).
[3]王天夫.社会研究中的因果分析[J].社会学研究,2006,(4):132-156.
[4]谢宇.社会学方法与定量研究[M].北京:社会科学文献出版社,2006.65.
[5]李沛良.社会研究的统计应用[M].北京:社会科学文献出版社,2002.
[6]谢宇.谢宇教授方法论讲座系列[EB/OL].http://wenku.baidu.com,2012-09-23.
[7]袁方.社会研究方法[M].北京:北京大学出版社,2007.156.
[8][美]艾尔·巴比著,邱泽奇译.社会研究方法[M].北京:华夏出版社,2007.^