|
奥迪斯·邓肯的学术成就:
社会科学中用于定量推理的人口学方法
谢宇
作者:谢宇 美国密歇根大学Otis Dudley Duncan讲座教授
摘要:奥迪斯·戴德里·邓肯,于2004年11月去世。他对当今社会学和人口学的量化推理实践起到了极为重要的作用。本文将在科学史的背景下追溯邓肯作为一位量化社会学家所产生的影响。将O. D. 邓肯的社会科学哲学置于“总体逻辑思维”的传统中进行分析,这一传统起源于查尔斯·达尔文,其后由弗朗西斯·加尔顿引入社会科学。作为分析的一部分,我将对统计分析的两种方法加以区分(起源于两种主要的有关科学的哲学视角) :高斯或类型逻辑思维和加尔顿或总体逻辑思维,并进一步对邓肯在社会科学中的量化推理视角进行细致讨论,特别是他对于社会测量、路径分析、结构模型、计量经济学和Rasch模型的看法。本文的一个重要主题就在于O. D. 邓肯很快意识到社会科学中量化方法所遇到的困难及其局限性,他尤其被内生的总体异质性所困扰。正是这种异质性使得在社会科学中通过统计分析得到具有定律性质的推论变得徒劳。因此,O. D. 邓肯十分鄙视那些试图效仿物理科学来探寻假想的社会普适法则的做法,因为他坚信这种法则并不存在且毫无意义。对于O. D. 邓肯来说,统计工具的主要作用在于对总体差异的系统性模式进行归纳总结。本文将大量引用O. D. 邓肯过去未经发表的私人通信。
关键词:方法论 O. D. 邓肯 总体逻辑思维 统计方法 人口学方法 Rasch模型
社会学不像物理学。唯独物理学才像物理学,因为一切近似于物理学家对世界的理解都将最终成为物理学的一部分。(Duncan, 1984: 169)
一、总体逻辑思维和类型逻辑思维
对于奥迪斯·戴德里·邓肯(以下略写为O. D. 邓肯)用于定量推理的人口学方法,我将从粗略、宽泛的科学史概况谈起。自然科学史长久以来一直在科学史中占据主导地位。古希腊最负盛名的哲学家柏拉图( Plato)对于自然科学的启蒙和发展有着极其深远的影响(Burtt,1952, 1978; Butterfield, 1957; Hall, 1981: 62-63; Kuhn, 1957; Lindberg,1992: 38-39)。进一步讲,柏拉图对于包括社会科学在内的整个西方哲学都具有深远影响。现代数学家、哲学家怀特海(Whitehead) (1861-1947)这样评价道:“对于欧洲哲学传统最稳妥的概括应当是:它只是对柏拉图思想的一系列注解。”(转引自Mayr, 1982: 38)
是什么让柏拉图在科学史上占据如此重要的地位? 他对科学——在当时的古希腊被喻为“自然哲学”的主要贡献是他对“真知”或“真理”的定义方式。他认识论中一个精华之处就是对“本质的世界”(world of being)和“形成的世界”(world of becoming)的区分。真知依附于“本质的世界”,而“形成的世界”则是我们在现实生活中所观察到的一切。柏拉图对真知——如今被称之为科学——的定义是普适的和具有永恒意义的。它绝不是形成的世界中的具体实物或现象,因为这类知识是不可靠的;真理处在一个更高的层次——它是对本质世界的认知。因此,科学家(哲学家)的职责就在于超越可以观察、感受和经历的事物而获取本质世界中的真理。规律本身先于我们而存在,并且是永恒存在的,它来自于造物主的创造。这种对真知的定义强调的是“发现”——几乎与科学上的进取同义——它意味着伟大的真理总是隐藏在自然界中,并等待着科学家们去发现。这就是科学的目的论属性。(注1)
我想举一个具体的例子来阐述柏拉图的观点。在柏拉图看来,要理解圆的真正属性,仅靠研究我们在日常生活中可以观察到的或借助绘图仪器画出的圆是不准确的,原因在于这些现实生活中可以观察到或者用最佳工具画出的圆都不能达到理想的完美的圆的标准。(注2)完美的圆仅存在于哲学家的头脑里。只需理解这一假想中的完美的圆,我们就能理解所有圆的真正属性。研究科学史的历史学家林德伯格(Lindberg, 1992: 38-39)这样描述柏拉图在科学上的影响:
为了获取真知,我们必须抛开所有针对个人的个体特征,同时寻求那些能够将个体分门别类的共性特征。在这种谨慎的说法中,柏拉图的观点具有明显的现代口吻:理想化是大多数现代科学的一个显著特征;我们在建构模型和定律时,为了把握本质就需要忽略偶然因素的作用(例如,伽利略的惯性原理就是试图在排除所有阻力和干扰的理想状况下描述物体的运动) 。
因此,自然科学将“本质的世界”看作是真正的现实,即我们从未实际观察到过但却仍假设它独立于形成的世界而存在着。柏拉图的本质的世界是由不连续的、抽象的思想或形式构成的。对柏拉图而言,现实世界中观测到的变异有一个简单的解释:形成世界中的物体只是本质世界的拙劣复制品。E. 迈尔(Mayr, 1982; 2001)将这种思维称之为“类型逻辑思维”。(注3)类型逻辑思维认为自然科学应该重点关注典型现象,比如典型的人体、典型的自由落体物以及典型的圆。进一步说,科学家们在研究这些典型现象时应该努力排除外生和干扰因素,如温度、尺寸和位置。自然科学中一个屡试不爽的强假设认为:只要我们理解了典型现象,我们就可以将其概括并推广到个体和具体问题上。
物理科学因遵循柏拉图的类型逻辑思维而取得了巨大的成功。这种思维也解决了长期以来科学与宗教的潜在矛盾。因为从这个角度而言,自然定律在自然事物之间架起了充分的、现实的而又直接的因果关联,而不是向上帝索取“终极原因”。哥白尼、伽利略和牛顿均是采用了这种分析方法获得成功的典范。类型逻辑思维认为现实生活与完美的本质世界之间的偏差都源自于复制过程的瑕疵和缺陷,由于微不足道故可忽略不计,不值得真正的科学家们去劳神。这一哲学理论的精髓在于,科学家只有懂得了如何超越由形成世界产生的偏差干扰,才能探求到伟大的科学发现。
柏拉图对真理的定义过去一直占据着科学界的主导地位,现在很大程度上亦如此。然而在19世纪中叶,英国生物学家达尔文(Darwin)却引发了一场革命。今天的人们关注达尔文更多是对于他基于自然选择的进化论,但是这里我们关心的是他对总体的思考。对达尔文而言,偏差不再是像柏拉图认为的那样非现实、非预测和不重要的,相反,它们是进化的前提并成为科学探索中最有趣的一个方面。
对于达尔文而言,变异才是现实,并不是由观测者引入的误差。他的《物种起源论》(1859)的第一章和第二章的题目分别为“自然状况下的变异”和“家养状况下的变异”。这里强调的是个体而非仅仅是典型。同一父母的子女之间存在差异,正是这种变异的代代相传形成了自然选择的基础。用今天的话讲,每一代都会生成大量的基因变异,但只有相对少数的个体可以存活并继续繁衍。
达尔文是个生物学家,将他的总体逻辑思维引入社会科学主要还是他的表弟弗朗西斯·加尔顿( Francis Galton)的功劳。由于不喜欢大学生活,加尔顿出游了许多地方,并在此过程中发现人与人之间,从身高到智商再到外貌的各个方面千差万别。他认为平均结果的意义并不大:“个体差异……基本上是唯一值得他感兴趣的东西”(Hilts, 1973:221) 。此后他开始应用达尔文生物学中的总体逻辑思维并借助统计工具来研究人类群体。
加尔顿并非第一个应用统计方法研究人类群体的科学家。比利时数学家阿道夫·凯特勒(Adolphe Quetelet)早在他之前就已经将涉及到正态分布的概率测度论推广到对社会现象的研究,并称之为“社会物理学”(Quetelet, 1842) 。在研究重点为“平均人”的社会物理学中,凯特勒发现,尽管个体之间行为千差万别、不可预测,但是总体人群或子人群的平均值却相对稳定且可测。换句话说,平均值似乎正好满足柏拉图对于真理永恒性和绝对性的苛刻要求。
与凯特勒很不同的是, 加尔顿关注的是“属性是如何分布的”(Galton, 1889: 35-36) 。因此,加尔顿相对凯特勒的重大超越就在于他将变异当作了一个严肃的课题,并且将传统术语中的“概率误差”改成“概率偏差”。因为“误差”一词暗指在测量过程中产生的令人不快的、非真实的、微不足道的量。而对加尔顿而言,偏差是分布的一种属性,它在反映客观现实方面与平均值同样重要。加尔顿对个体差异和变异而非平均值的重视最终使他发现了具有划时代意义的“回归”和“相关”概念(Hilts, 1973) 。
值得一提的是,在研究人类的过程中,加尔顿改变了变异一词的含义。对他而言,变异是客观现实的一部分。由于加尔顿的贡献,社会科学从此将柏拉图的“形成的世界”作为客观现实来研究。换言之,社会科学关注的正是独立各异的个案的完整分布。在进行研究之前,科学家都要首先定义所研究的人群,否则将无法解释最终的结果。这是因为包含在人群中的个体之间千差万别,结果会因纳入研究的个体的不同而相去甚远。这个前提乃是科学抽样的基础。
不同个体间的行为和观点可以差异很大。社会科学家的工作正是在这些变异中寻求规律性。对物理学家而言,变异是希望能避免的测量误差,即希望被消除的外界干扰。但对社会学家而言,变异却是社会现实的本质。
类型逻辑思维和总体逻辑思维的关键区别对现代统计学具有重大影响。类型逻辑思维将偏离于平均值的偏差视为“误差”,认为只有平均值才接近真实原因。换言之,真实原因是恒定不变的,我们实际观测到的东西都包含测量误差。假设我们预先知道声速在理想状态下是一个定值。我们每次通过仪器进行测量的结果都会略有不同。如果我们反复进行测量就会得到一系列的数值,那我们该如何看待这组看似不同的数值呢? 从满足类型逻辑思维的角度出发,概率统计学家找到了一种解决方法——大数定律。即随着观测次数的增加,计算出的平均值将变得愈发可靠和稳定,最终趋近于真实值。中心极限定理将这一思想进一步发展并指出这些平均值的估计符合正态分布。当然,这两个统计定律的假定条件是,测量偏差来自于微小的、独立的随机量。在专业术语中这类偏差被称之为测量误差。
在总体逻辑思维中,偏差是具有重要意义的现实存在。平均值只是总体的一种属性而已;变异则是另外一个同等重要的属性。O. D.邓肯在1984年《关于社会测量的注释》一书中,评价了杰文斯(Jevons)关于“均值”(mean)和“平均数”( average)的区别:对恒定的真实值进行观测时,把得到的各个有偏离的观测值进行平均所得的结果是均值;而平均数则通过对一系列相互间存在着内在差异的测量数值进行平均而获得。类似地,埃奇渥斯(Edgeworth)也将“观测值的平均”和“统计量的平均”区别对待(Duncan, 1984: 108) 。在其书的随后章节中,邓肯比较了两种关于统计学的观点,并阐明了自己的主张:“尽管统计学一度被视为‘关于平均数的科学’,但更好的做法是将其描述成‘关于差异的科学’。”(同上: 224)
二、总体逻辑思想家——O. D. 邓肯
O. D. 邓肯曾多次在私人交谈中告诉我,他是一个总体逻辑思想家,而且一直以来都积极提倡社会学中的总体逻辑思维(私人通信,December 7, 2002; February 16, 2004; May 10, 2004; May 23, 2004) 。然而对读者而言,重要的是从他出版的著作中找到更直接的证据。为此,我打算引用以下三个例子。
例一:O. D. 邓肯一生著作等身。在所有这些著作中,他认为1984年出版的《关于社会测量的注释:从历史和批判的角度》是他“最好的一本书⋯⋯不仅具有历史价值而且经久不衰”(私人通信, September 27, 2004) 。这本包含了他对社会科学的哲学思想的书,反映出他对社会研究实践问题上广博而具批判性的观点。在这本书中, O. D. 邓肯(Duncan, 1984: 200)直接引用了达尔文的相关观点和总体逻辑思维:
达尔文对任何自然人群中的变异及其遗传性的强调,实际上为计量心理学提供了总体概念框架,也指明了这一学科与总体科学的密切关系(相比之下,心理物理学常常受类型逻辑思维影响,集中于对物种规范的研究……仅仅勉强承认个体间存在着变异,将其视为研究的干扰而并非首要研究对
象) 。
O. D. 邓肯在事业起步阶段,就涉足计量心理学领域,并对此产生浓厚兴趣。在其自传(Duncan, 1974: 19-20)中,他自豪地提到曾将计量心理学的文献介绍给著名的计量经济学家戈德伯格(Arthur Goldberger) 。当时路径分析和结构方程模型正处于起步阶段。
例二: P. M. 豪瑟和O. D. 邓肯(Hauger &Duncan, eds. 1959: 2)对人口学的经典定义是:人口学“是对人口规模、地域分布、人口构成和人口变迁以及这些变迁要素的研究”。这个精确且深刻的定义被沿用至今(Xie, 2000) 。这个定义的精湛之处就在于他们在定义中明确包括了“人口构成”和“人口变迁”。这表明他们坚信总体逻辑思维——任何一个人群当中都存在个体差异。
O. D. 邓肯的定义促使人口学得以作为一门基础的交叉社会学科而蓬勃发展,同时还为其他社会学科提供了实证根基。O. D. 邓肯方法论的中心原则是将实证的现实放在先导性的位置。我们所熟知的很多有关美国社会的“统计事实”就是从事量化分析的社会学家应用人口学方法提供的。例如种族与性别的社会经济不平等、种族居住隔离、代际社会流动、离婚和同居的趋势、单亲家庭对子女的影响、收入差别的扩大和大学教育经济回报率的增长(同上) 。
例三:O. D. 邓肯在给我的邮件(
这里要重申的是:我渐渐忆起我曾经谈过的东西的出处了。参见《关于社会测量的注释》第96页~98页,我引用了哥白尼研讨会上奈曼(Neyman)文章中的论点。看来,不必等到年长才慢慢积累的智慧,我过去就已经有一些睿智的评论了。
收到信后,我去翻他的书(Duncan, 1984: 96) ,找到了下面这段曾被O. D. 邓肯引用的奈曼的话:
19世纪兴起、20世纪崛起的科学引入了“多元化”的研究对象。它们作为实体,在分类上确实满足某种定义,然而在个体层面上却有着千差万别的属性。从技术角度而言,这样的分类即“总体”。
显然,O. D. 邓肯受到J. 奈曼的影响,相信社会科学就是一个真正意义上的总体科学。O. D. 邓肯十分鄙视那些试图效仿物理科学来探寻假想的社会普适法则的做法,因为他坚信这种法则并不存在且毫无意义。
三、回归分析和路径分析的两种途径
类型逻辑思维和总体逻辑思维是两种科学哲学观点,它们为统计分析提供了两种途径,特别是对于回归分析。回归分析至今仍是量化社会学方法中应用最广泛的工具。我将这两种方法分别命名为“高斯方法”和“加尔顿方法”。(注4)我们可以采用以下方法来形象地对其加以区别:
高斯方法(类型��辑思维) :
观测数据=固定模型+测量误差
加尔顿方法(总体逻辑思维) :
观测数据=系统差异(组间差异) +残余差异(组内差异)
这两种方法的区别很微妙,因为它只会影响到解释,而不会影响到回归参数的估计。(注5)研究者们无论对回归持怎样的哲学观点,无论是否认识到这种微妙的区别,均用相同的数学公式和统计软件,根据相同的统计表格得到统计推论。
一个理解、区分这两种方法的途径是对模型进行简化,从而使观测值散布于固定量周围:
yi =μ +εi (1)
这就是著名的测量模型。在物理学中,科学家们可能知道存在一个固定的量,但碍于测量误差而无法获得。为解决此难题,统计学的测量理论应运而生:在一般情况下(例如测量仪器没有系统偏误) ,反复测定所得观测值的平均值能精确地接近真实值(Duncan, 1984; Stigler,1986) 。在这种情况下,均值就是回归方程的最小二乘解。
在总体科学(比如社会科学)中,观测到的y值各不相同,其原因不仅来自于测量误差,而且因为它们是同一总体中本质上就不同的个体。如果我们将视线集中于对单一量的估计,我们可以运用相同的估计技巧来估计总体均值。这里,μ = E ( y) ,这一总体中的每个个体yi都各不相同。即使没有测量误差,我们仍然可以得到不同的观测值yi。其中,εi表示第i个观察值与总体平均数的偏差。由于同一总体中不同的个体对应不同的y值,采用随机(科学)抽样的方法抽取样本并用样本均值去估算总体均值是十分必要的。总体均值是研究中常常求得的众多数值之一。
对于第一种情况, 观测数据都是通过一个固定且普适的机制生成的,这种回归分析方法称之为“高斯方法”。对于第二种情况,其重点在于用最简洁的描述概括总体差异, 这种回归分析方法称之为“加尔顿方法”。O. D. 邓肯敏锐地觉察到两者的区别。在《关于社会测量的注释》一书中,O. D. 邓肯(Duncan, 1984: 108)借用了埃奇渥斯关于观测值和统计量之间区别定义,即:观测值是一系列围绕于真实值的量,而统计量则是同一总体内的不同量。O. D. 邓肯进一步赞同杰文斯的提法, 即:我们要对“平均数”与“均值”加以区分,后者与观测量密切相关,而前者则与统计量密切相关。尽管这两种方法都采用相同的估算过程(比如说最小二乘法) ,但是他们的研究目标、研究隐含的假设和对结果的解释有着本质差别。
如果追溯到早期关于路径分析和结构方程的研究,我们可以清楚地看到O. D. 邓肯一直在用总体逻辑思维进行思考。但这一点并不总是被后继的学者们所领悟与赞赏。我将通过对O. D. 邓肯和布拉洛克(Blalock)的比较来进一步阐述这一观点。布拉洛克是另一位社会学方法论的鼻祖,他受到赫伯特·西蒙(Herbert Simon)的影响,早于O.D. 邓肯开始研究因果推理模型。其实,这个比较是O. D. 邓肯自己最先做出的。他在早期给我的一封信件中(
O. D. 邓肯和布拉洛克均为路径分析和结构模型研究的奠基人,但他们对于因果模型的应用却意见相左,O. D. 邓肯本人也承认这一分歧。布拉洛克认为,这类模型至少可以使人理想性地在“本质的世界”这一框架中去理解普适真理。例如,布拉洛克(Blalock, 1961: 17)在其著名的《非实验性研究中的因果推理》( Causal Inferences in Nonexperimental Research )一书中提出过这样的问题:“为什么不先根据这些理想的模型和完全封闭的系统来建造我们的因果定律及其它理论,之后再去发掘现实世界偏离这个模型多少呢?”在本书之后的章节中布拉洛克还提到:“是回归系数告知了我们科学的定律”(同上: 51) 。我将这种观点称之为“高斯模型”回归。此方法认为回归代表了一种唯一、真实且具有定律性质的关系。所有个体观测值的偏差均由无法预测的干扰因素造成。列伯逊和F. B. 林恩(Lieberson & Lynn, 2002)将这种模仿物理学方法建立社会科学的想法形象地描述为“误入歧途”。
O. D. 邓肯和布拉洛克对路径分析和回归模型的理解是截然不同的。O. D. 邓肯不希望将因果关系强加于对结果的解释上。例如,在他与P. M. 布劳(B lau, 1967: 172)合作的关于代际流动这一最为著名的研究中,两人阐述道“我们现在还远未达到可以信心十足地进行因果推理的地步,这里提出的方案最多仅能作为对于准确因果模型的粗略近似估计。”在他开创性的论文《路径分析》(Duncan, 1966: 1)一文的摘要中,O. D. 邓肯强调“路径分析旨在强调如何解释结果,而非提供寻找原因的方法”。此处,O. D. 邓肯所指的正是加尔顿的回归模型。
高斯和加尔顿这两种泾渭分明的观点,也体现了O. D. 邓肯和大卫·弗里德曼二人长期以来在一系列书信往来中的分歧。他们互通信件始于弗里德曼对O. D. 邓肯在社会科学中运用路径分析的批判。弗里德曼最初批判的对象是P. M. 布劳和O. D. 邓肯(1967)的合著,但后来他改变了批判的对象( Freedman, 1987) 。
弗里德曼第一次与O. D. 邓肯通信是在
O. D. 邓肯毫无反驳的回信给弗里德曼留下了深刻的印象,他在随后给O. D. 邓肯的信中(
我们的工作被奈曼称之为“总体科学”,统计方法在此科学中与在“严格意义上的”科学中有着不同的含义和功能。我希望您可以举出一个典型的成功例子,来说明气象学家、地质学家和生态学家在这种情况下是如何有效地处理所收集到的杂乱无章的观察数据的:当无法在严格意义上重复同一研究,又需要同时对多个统计量进行估计,并且人为干预几乎不可能或是其效果微不足道的时候。
在他们通信的后期,虽然O. D. 邓肯和弗里德曼的观点仍旧存在分歧,但是他们已经习惯于接纳这种分歧。弗里德曼在一封信(
四、O. D. 邓肯对社会科学中量化推理的影响
O. D. 邓肯对当今量化社会学和社会人口学的贡献超过任何人。他除了在社会分层、社会人口学和统计方法论领域树立了典范外,还在建立学术传统方面做出了卓越贡献。虽然一些早期社会学家试图效仿物理学,O. D. 邓肯则开诚布公地反对模仿物理学中寻求社会普适法则的研究。他的这一举动并非表明他不愿我们也能拥有像物理学那样普适法则,相反地,正因为已经敏锐地察觉到类型逻辑思维和总体逻辑思维的差别,他才更加意识到人类社会中存在的差异只会让寻求普适法则的努力徒劳无功。
O. D. 邓肯的新思路受到人口学悠久传统的启发:最重要的是记载和理解现实中人口的实证形态。对于O. D. 邓肯而言,也就是要注重人口特征的差异性。这种思想让O. D. 邓肯在其同行中脱颖而出,也有助于人口学的转变。在O. D. 邓肯之前,人口学研究的核心是人口规模的变化。然而, P. M. 豪瑟和O. D. 邓肯却强调人口学的实质内容应该是人口结构。这一研究重点的巨大转变应归功于O. D. 邓肯及其思想继承者的大量典范研究,包括社会流动与社会不平等、教育、收入、家庭、种族与民族、居住隔离、社会性别角色,以及总体社会测量等。这个新兴领域被称之为“社会人口学”。因此继O. D. 邓肯之后,量化社会学的发展与社会人口学的发展息息相关。两者的统一使得人口学更具社会性,也使得科学的社会学更具实证性。这一新生的人口学方法具备以下特征:
1. 以实证为基础的;
2. 量化的,通过利用调查或人口普查,搜集数据的层次来自于最小分析单位(通常是个人) ;
3. 涉及回归技术的统计分析,强调实证的规律性,即组间差异。但并不一定要对其研究结果进行因果解释;
4. 要求研究者重视所研究的人口。最理想的选择是运用全国性(以人口为基础)的调查进行社会科学研究。P. M. 布劳和O. D. 邓肯(Blau & Duncan, 1967)的研究开创了这一新准则。
五、对统计社会学所持的异议
与O. D. 邓肯在学术上打过交道的量化社会学界的同仁都知道,他对大多数社会学普遍的研究方式持批判态度,尤其对他自己的研究更是如此。因此,O. D. 邓肯对统计社会学所持的异议是可以理解的。O. D. 邓肯常常被误认为是路径分析和结构方程的创始人,对此他本人感到很不自在。他形容自己“对‘此方法的缔造者’这一称呼感到异常紧张,甚至不堪忍受”(
这也解释了O. D. 邓肯为什么在最初回复弗里德曼的批判时没有反驳(
在给你回信之后,我反复地思忖你的批判,我想我会进行一些进一步的观察。首先,你将我们书(同上)中第172页的警示引用到你文章中的第20页令我印象颇深。我们是诚挚地提出这些警示的。然而你辛辣的讥讽实在让人难以接受,特别是当你在第8页指责我们没有考虑到教育质量、被采访者何时获得教育、何时进入劳动市场,以及历史、经济、世界大战和经济萧条这一系列因素。请问一个模型有可能在将所有这些因素都包括进去的同时,还能保证其简洁性吗?
这段话指出了经常被O. D. 邓肯之后的当代量化社会学家忽视甚至误解的一个重要观点:社会科学的统计模型最终是简约形式而非结构形式。将结构解释强加于统计模型是危险的,也绝非O. D. 邓肯愿意的。
因此,O. D. 邓肯的观点是,量化方法绝不应该成为发掘普遍规律,从而描绘和解释所有个体行为的工具。他完全反对这种尝试,并认为这样做毫无意义。他认为量化分析所能做到的就是总结组间差异的实证形态,同时暂时地忽略组内个人差异。社会科学家可以逐步将分析复杂化,从而增强我们对社会世界的理解。
O. D. 邓肯对统计模型简约形式的深信不疑可以从他与戈德伯格的早期通信中略见一斑。戈德伯格后来和O. D. 邓肯一起促进了计量经济学中的结构方程、计量心理学中的因子分析和社会学方法论中的路径分析三者的统一。戈德伯格于
从模型的角度来讲,社会学家最感兴趣的似乎是归纳法,希望有可能通过��据分析“发现”正确的模型,尽管这个希望很渺茫……我个人认为,经济学家更坚信自己的理论,他们认为理论和模型相比,理论是优先考虑的信息。因此,他们更注重“估计”的有效性。
邓肯对于社会学和经济学的区分赢得了戈德伯格的赞同,戈德伯格(
在查阅路径分析的有关文献时,我已觉察到经济学家采用了另外一种方法。具体地说,路径分析学者致力于将简约形式的系数解构成结构方程的系数,将后者看成前者的组成元素。大多数经济学研究的思路恰恰相反——这里我仅指理论经济学和计量经济学。我们致力于从一个结构模型中获得它的简约形式。
应用路径分析、将简约形式的系数解构的这种实证性方法起初对O. D. 邓肯来说是个飞跃,但是它很快变成了一个无解的难题。解构像童话中瓶子里的魔鬼,一旦放出来我们将如何钳制它呢? 简约形式的系数可以解构成无数种形式,如何合理地作出选择呢? 显然,O. D.邓肯绝不愿意将决定权留给统计工具和数据分析,尽管这是量化社会学的一种趋势,但却令他非常不满,从而促使了他对“统计至上主义”的尖锐批判。O. D. 邓肯在《关于社会测量的注释》(Duncan, 1984:226)一书中有这样一段话,兼顾了弗里德曼的意见,这在他给弗里德曼的第一封信件中就提及了:
我们经常发现被我称之为统计至上主义的症状:统计至上主义认为做研究等同于计算,同时天真地相信统计是科学方法论完整或充分的条件基础。他们迷信于统计公式能够评估具有不同实质意义理论的相对价值,或者评估影响因变量的原因的重要性。他们误以为解构任意或随意组合的一组变量就可以检验“因果模型”和“测量模型”。
如何避免统计至上主义呢? O. D. 邓肯提出两种途径:一是改进社会测量,二是进一步强调社会过程的概念化与反映此过程的研究设计之间的联系。O. D. 邓肯(
我们最想强调的主题是,所有统计模型和方法的应用都要严格服从以科学为中心的任务。这个任务需要用公式表达让人信服的理论,使得这些理论可以解释我们所研究的社会过程;同时这个任务还需要制定出能够对这些理论进行检验的研究设计。我们应鼓励读者对统计模型提出质疑,让他们知道我们基于可用数据所提供的最佳统计模型,与描述人们获得并实现他们选举倾向的整个过程的科学模型还相去甚远。我们希望可以找到其它更好的方法来解决这一问题。
O. D. 邓肯和斯坦伯克的文章的重要之处,不仅仅因为这是O. D.邓肯发表的最后一篇关于社会学方法论(注7)的文章,同时它也体现了他不再赞同自己早期所提出的数据精简和数据概括的方法。作者在文章结尾这样总结到:
我们认为是时候纠正如下的不平衡了:一方面数据分析中统计方法的应用和简化数据的统计模型发掘(太多) ,而另一方面发展纯正的有解释力的“结构”模型(太少)。方法论的核心任务在于对研究设计进行批判——而非展示统计推断的技巧——正如研究型科学家们的核心目标在于提出适当的研究设计,迫使“自然”展示出其运作的真实过程。(同上: 31-32)
尽管O. D. 邓肯表明自己总体上对数据分析和数据简约方法不满,并提倡通过研究设计产生准确的结构模型,但他本人却从未真正踏入这个领域。让O. D. 邓肯尤其感到困惑的是社会科学的数据中两个内在特征的交融。首先,即使知道存在真正的潜在模型,个体的回答(态度或行为方面)也仍然具有不确定性;其次,潜在模型实际上会因总体中个体的不同而发生改变。这第二个特点也被称作“总体异质性”。O. D. 邓肯的后期研究由于Rasch模型的关系,几乎全部集中在解决总体异质性问题上。
六、问题症结:总体异质性
O. D. 邓肯后期的十年研究都集中于Rasch 模型( Goodman,2004) 。直到生命的最后阶段,他还是很关心这个模型。他曾经写信给我和丹尼尔·鲍尔斯(Daniel Powers) ,问我们为什么没在我们共同出版的《分类数据分析》(Categorical Data Analysis)一书中包括Rasch模型(
乔治·拉什(Georg Rasch, 1901-1980)是丹麦数学家、统计家,他设计了具有以下特点的测量模型。(1)每个研究对象对测试的回答是概率性的; ( 2)测试的真实难度值对于任何一个研究对象是恒定的;(3)每个研究对象对于所有测试答对的趋势是一致的(Rasch, 1966:1980) 。这些性质表明研究对象对某道测试答对的可能性,通过logit转型,可以分解为两部分,即一部分由测试的难度而定,另一部分则由研究对象的个人能力决定。这个模型可以写成以下形式:
其中pij表示第i个个体答对第j个问题的可能性。Rasch模型可以写成下面这个logit模型的形式。
log [ pij / (1 - pij ) ] =θi +βj , (2)
其中θi 是专指个人特征的参数,βj 是专指测试特征的参数。在方程(2)中, Rasch模型的一个重要性质是,它允许个人差异(即叠加总体异质性)和测试差异的存在,但它同时又通过二者的恒定性实现了二者的相互独立性:即θi 不随测试( j)变化,βj 不随个体( i) 变化。因此,Rasch模型至少允许研究者将不同的个体看成各自独立的“类”,避免了在传统潜在分类模型中,将个体按其回答的结果进行分类的任意性。
尽管O. D. 邓肯发表了许多关于Rasch 模型的文章(参见Goodman, 2004) ,但是,我认为他于
为了理解O. D. 邓肯敏锐的洞察力,我们先来看看他使用的四个简图(图1至图4)。(注9)
图1和图2均表示总体回答率为7 / 12,但是两者的情况却截然不同。图1中,“我们假设每一个受访者只有一个弹丸,任意一次试验都可以知道它是有阴影的还是无阴影的”(同上) ;在图2中,“我们假设每一个受访者拿一个旋片(插图) ,每一次试验得到阴影部分的可能性为p”(同上)。换言之,O. D. 邓肯设定了两种极端情况,第一种情况存在总体异质性(人们之间的) ,每个人的回应方式是固定的;第二种情况存在总体同质性,某一群体中,所有个体都由相同的因果机制决定,即概率性的。
O. D. 邓肯接着解释说在实际数据中“我们很少见到这两种极端情况”,图3中即为康弗斯所得到的两者混合的情况。然而,O. D. 邓肯没有满足于这三种分类。他受到Rasch模型的启发,利用可针对个体特点进行分类提出“原则上,存在无穷个不同的旋片”(同上) 。他在图4中用7个不同的种类进行了形象的说明。
在根据个人特征分类的类别中, O. D. 邓肯认同在个人层次上所存在的差异。这使他很快意识到这样的分类对数据要求很高。O. D.邓肯对Rasch模型的研究建立在反复测量的基础之上,这样的情况常常出现在追踪调查中,当研究者认为没有实质性变化时候。O. D. 邓肯在表1中阐明了他基于图1至图4的推理。(注10)行代表了第一次采访中不同受访者的回答结果,列代表了相同的144个受访者在第二次采访中的回答结果。忽略掉测量误差和抽样偏误, O. D. 邓肯认为表1的最顶端部分(部分Ⅰ)对应的是绝对的总体异质性,中间部分(部分Ⅱ)对应的是绝对的总体同质性。部分Ⅰ中的行与列是完全相关的,部分Ⅱ中行与列是相互独立的。O. D. 邓肯和康弗斯均认为现实生活更近似于两者之间的混合情况,也就是表的最末部分(部分Ⅲ)所表示的情况。
以上,我仔细叙述了O. D. 邓肯1982年未出版的文章中所列举的简单例子,是为了说明O. D. 邓肯一直为总体异质性问题所困扰。这也就解释了他为什么会被Rasch模型所吸引。在某种程度上,他期待着并且也会欢迎后来针对总体异质性逐步产生的一系列模型,如多层次模型( Raudenbush & Bryk, 1986 ) 、成长曲线模型(Muthén & Muthén, 2000)和潜在分类模型(D’Unger, et al. , 1998) ——这些模型都已被归纳到混合模型这个大旗帜下(Demidenko, 2004) 。然而,迄今为止,总体异质性仍对社会科学中应用观测数据进行因果推理存在威胁。这样的推理往往依赖于极强且无法证明的假设(Heckman, 2001,2005; Holland, 1986; W inship &Morgan, 1999) 。
O. D. 邓肯将总体异质性视为最难以克服的问题。他在写给乔纳森·凯利(Jonathan Kelly)的一封信中(
对数线性模型和线性模型实际上都是无法使用的,因为它们估计的条件概率对于预先假定拥有一系列相同变量值的个人,其实并不相同。也就是说,这些模型不能应付异质性问题。
在另外一封信中(
这些日子,我回顾了一下自己曾有过的一些争论,我发现社会科学中还没有解决的两三个主要问题之一就是异质性问题……异质性问题的普遍性意味着,在大多数情况下,我们用精算概率代替真正的个人概率,因此,我们得到的是描述上准确但毫无理论意义,且无预测能力的、无用的统计数据。
直到O. D. 邓肯去世后,我再次阅读他给我发来的信件,我才开始真正理解他的这些真知灼见。在1996年收到他的这封来信时,我的专业水平还未成熟到可以领悟他的思想。换言之,我用了九年的时间才完全领悟O. D. 邓肯这段话的含义。他不仅超越了他所在的时代,也超越了我所处的时代。如何处理总体异质性已经成为当代量化社会科学和统计学研究所面临的最严峻的挑战。
七、结论
对于我和其他人来说,O. D. 邓肯是划时代的最杰出的量化社会学家。他不仅将路径分析引入了社会学和社会科学界,同时他也对量化社会学中人口学规范标准的建立立下了汗马功劳。他在社会学方法论方面的工作,影响了整个一代量化社会学家。他在社会学领域的学术贡献,既是他的本职工作,也是他选择从事方法论研究的重要原因,这些贡献被他之后在不同领域的几代社会学家沿用并视为典范。这些领域包括:社会分层、居住隔离、教育社会学、家庭社会学和社会测量。在当今的量化社会学领域中,O. D. 邓肯直接或间接的影响无处不在。
O. D. 邓肯对量化社会学的研究方法是基于总体逻辑思维的,这一认识论是由达尔文开创,其后由加尔顿发展起来的。其范式以经验为基础、以量化为导向,并不探寻普适的法则。相反,量化社会学卓有成效的任务是对总体变异的系统模式进行概括。为了建立这样的范式,O. D. 邓肯曾直截了当地批判实证主义观点,认为社会学不应该试图效仿物理科学。恕我冒昧,当今量化社会学界已几乎不存在关于“普适法则”的争辩,其中很大一部分原因是受到O. D. 邓肯的影响。正如O. D. 邓肯自己的研究表明,好的社会学研究,可以通过量化分析向读者提供关于社会过程的信息,尽管这种分析只是一种近似的估计。
今天,我们在庆祝O. D. 邓肯的学术成就的同时,应该意识到他成功推崇的社会学量化方法还有诸多不足之处。事实上,我认为O. D. 邓肯是最早预见到自己研究方向即将遇到问题的卓越学者之一,而且是在当时整个量化社会学和社会人口学界的学者都对其持看似乐观的态度时。O. D. 邓肯提出的问题是社会科学固有的不可解决的问题——总体异质性,这也是他对量化社会学和社会人口学越来越失望的原因。
在O. D. 邓肯的思想鼎盛时期之后,社会统计学有了长足的发展。尽管我们现在拥有了复杂的模型(如多层次模型、空间模型、社会网络模型和潜在分类模型) 、有效而稳健(抗差)的估计方法(包括贝叶斯和模拟方法) 、更先进的计算机程序、愈发快速廉价的计算机和大型、丰富且便利(比如,通过网络)的数据库(追踪调查数据及多层次数据) ,然而,困惑O. D. 邓肯的最基本的问题——总体异质性——仍是当今量化社会学所面临的最大难题。
利用观测数据进行的量化分析将会无可避免地依靠组间的比较,然后进行因果推理。在总体异质性难题持续出现的情况下,我们如何保证不会因为组间在无法观察但却与研究相关的维度上不具可比性,而造成比较结果的偏误? 这个根本问题成为了当前社会科学界研究因果问题的兴趣所在(Heckman, 2005; Winship &Morgan, 1999) 。我认为这个问题永远不会得到令人满意的解决结果,至少我们无法在方法论上解决它。反之,我们应该像O. D. 邓肯那样做一位智者,即致力于深化我们对社会科学重要的实质性题目的实证理解,而不是致力于获得惊天动地的结论。也正是因为这一点,O. D. 邓肯的学术成就才能经久不衰。
让我引用O. D. 邓肯对经济学和社会学的一次风趣的比较来结束这篇文章。这本是饭桌上的一个笑话,但它却生动地反映了O. D. 邓肯是怎样对经济学常用的演绎法的怀疑和社会学对统计方法的轻视的失望。(注11)他这样评价道:
经济学家从错误的假设中正确地推理;而社会学家却从正确的假设中错误地推理。因此,他们成了两个无知的互补体。(邓肯致谢宇,
注释:
*原文于2007发表在Research in Social Stratification and Mobility (25)的第141页第156页。译者:姜洋;校对:张磊、穆峥、朱海燕、宋曦、任强、邱泽奇、谢宇。
注1:由于O. D. 邓肯从来不认为目的论是社会科学的一部分,因此他在国家科学院生平介绍中否认自己有任何真正的“发现”(Duncan, 1974: 8) 。
注2:关于完美的圆的例子参见《柏拉图第七封信札》( Plato’s Letter VII) ( Plato, 1997: 1659-1060) 。然而,信札作者的真实性受到质疑(同上: 1634) 。
注3:O. D. 邓肯崇拜E. 迈尔的研究。在一封信件中(
注4:我不知道是谁最先启用了这个名词,但是我第一次见到它是在弗里德曼(David Freedman)写给O. D. 邓肯的信件中(
注5:事实上,弗里德曼好心地告诉我这种区别实在是“太微妙了,因为这两种情况似乎是无法在统计上进行区分的”(个人通信,
注6:我并不在说弗里德曼是柏拉图主义者。他自称是“经验主义者,或是实证主义者,或是现实主义者,或是培根主义者”(个人通信2005年10 月28日) 。弗里德曼的观点是:高斯方法的观点可以作为通过回归进行因果推论的依据,这也是社会科学惯有的观点。弗里德曼在2005年出版的书中对社会科学中回归分析的应用进行了总结,并提出了最新的观点(Freedman, 2005)。
注7:直到生命的最后阶段,O. D. 邓肯还一直坚持他和斯坦伯克(Duncan & Stenbeck, 1988)早期发表的文章中的观点。他在通信中多次提及此文章(
注8:O. D. 邓肯得知古德曼将要在“邓肯讲座”上作关于Rasch模型的报告时,他于
注9:在O. D. 邓肯(1982)的原文中,它们分别是图5、6、8和9。
注10:在O. D. 邓肯(1982)的原文中,它是图7。
注11:尽管O. D. 邓肯的评价诙谐幽默,但实际上他是十分关注经济学的。这个笑话是他在2003年2月份我去拜访他时讲述的。笑话过后,他把诺贝尔经济学奖年鉴拿出来,向我一一讲述每个经济学获奖者的成就和贡献。
参考文献:
Blau, Peter M. and Otis Dudley Duncan. 1967. The American Occupational Structure.
Blalock, Hubert M. 1961. Causal Inferences in Nonexperimental Research.
Burtt, E. A. 1952. The Metaphysical Foundations of Modern Science. Garden City, NY: Doubleday Anchor.
——. 1978. “Mathematics, Platonism, and the Renaissance. ” in The Scientific Revolution, edited by V. L. Bullough.
Butterfield, Herbert. 1957. The Origins ofModern Science, 1300-1800, Revised Edition.
Converse, Philip E. 1964. “The Nature of Belief Systems in Mass Publics. ”in Ideology and Discontent, edited by David E. Ap ter.London: The Free Press of Gelncoe /Collier-Macmillan, Ltd.
Demidenko, Eugene. 2004. Mixed Models: Theory and App lications. Wiley.
Duncan, Otis Dudley. 1966. “Path Analysis: Sociological Examples. ” The American Journal of Sociology (72).
Duncan, Otis Dudley. 1974. “Autobiographical Statement. ”Prepared at the request of the Home Secretary, National Academy of Sciences,January.
Duncan, Otis Dudley. 1975. Introduction to Structural Equation Models.New York: Academic Press.
Duncan, Otis Dudley. 1982. “Rasch Measurement and Sociological Theory. ”Hollingshead Lecture, Yale University.
——. 1984. Notes on SocialMeasurement, Historical and Critical.
Duncan, Otis Dudley, and Magnus Stenbeck. 1988. “Panels and Cohorts: Design and Model in the Study of Voting Turnout. ” Sociological Methodology (18).
Duncan, Otis Dudley, Magnus Stenbeck, and Charles Brody. 1988. “Discovering Heterogeneity: Continuous versus Discrete Latent
Variables. ”American Journal of Sociology (93).
D’Unger, A. V. , Kenneth C. Land, P. L. McCall, and Daniel S. Nagin. 1998. “How Many Latent Classes of Delinquent/ criminal Careers? Results from Mixed Poisson Regression Analyses. ”American Journal of Sociology (103).
Freedman, David. A. 1987. “As Others See Us: A Case Study in Path Analysis. ”Journal of Educational Statistics (12).
Freedman, David. A. 2005. Statistical Models: Theory and Practice.
Galton, Francis. 1889. Natural Inheritance.
Lindberg, David C. 1992. The Beginnings of Western Science: The European Scientific Tradition in Philosophical, Religious, and Institutional Context, 600 BC to AD 1450.
Goodman, Leo A. 2004. “Three DifferentWays To View Cross-Classified Categorical Data: Rasch-Type Models, Log-Linear Models, and Latent-class Models. ”Otis Dudley Duncan Lecture, American Sociological Association Methodology Section Annual Meeting, Ann Arbor, MI(April).
Hall, A. Rupert. 1981. From Galileo to
Hauser, Philip M. and Otis Dudley Duncan, eds. 1959. The Study of Population: An Inventory and App raisal.
Heckman, James J. 2001. “Micro Data, Heterogeneity, and the Evaluation of Public Policy: Nobel Lecture. ” Journal of Political Economy (109).
——. 2005. “ The Scientific Model of Causality. ” Unpublished manuscript.
Hilts, Victor. 1973. “Statistics and Social Science. ”in Foundations of Scientific Method, the Nineteenth Century, edited by Ronald N. Giere and Richard S. Westfall. B loomington:
Kuhn, Thomas S. 1957. The Copernican Revolution: Planetary Astronomy in the Development of the Western Tradition.
Lieberson, S. and F. B. Lynn. 2002. “Barking Up the Wrong Branch: Scientific Alternatives to the Current Model of Sociological Science. ” Annual Review of Sociology (28).
Mayr, Ernst. 1982. The Growth of Biological Thought: Diversity, Evolution, and Inheritance.
Press.
——. 2001. “The Philosophical Foundations of Darwinism. ”Proceedings of the American Philosophical Society (145).
Muthén, B. and L. K. Muthén. 2000. Integrating Person-centered and Variable-centered Analyses: Growth Mixture Modeling with Latent Trajectory Classes. Alcoholism-Clinical and Experimental Research (24).
Quételet, Adolphe. [ 1842 ]1969. A Treatise onMan and the Development of his Faculties. A Facsimile Reproduction of the English Translation of 1842, with an Introduction by Solomon Diamond. Gainesville, FL: Scholars’Facsimiles.
Rasch, Georg. 1966. “An Individualistic Approach to Item Analysis. ”in Readings inMathematical Social Science, edited by Paul F. Lazarsfeld and NeilW. Henry.
Rasch, Georg. 1980. Probabilistic Models for Some Intelligence and Attainment Tests.
Raudenbush, S. and A. S. Bryk. 1986. “A Hierarchical Model for Studying School Effects. ”Sociology of Education (59).
Stigler, StephenM. 1986. The History of Statistics: The Measurement of Uncertainty before 1900.
Winship, Christopher and Stephen L. Morgan. 1999. “The Estimation of Causal Effects From ObservationalData. ”Annual Review of Sociology (25).
Xie, Yu. 1988. “FranzBoas and Statistics. ”Annals of Scholarship (5).
——. 2000. “Demography: Past, Present, and Future. ”Journal of the American Statistical Association (95).
责任编辑:劳 勤
原文出处:《社会》2008年第3期