微信版 移动版

社会学研究方法

宋时歌 陈华珊 纵贯性数据与生长模型在社会科学实证研究中的应用

2009-02-06 作者: 宋时歌 陈华珊

纵贯性数据与生长模型在社会科学实证研究中的应用

宋时歌 陈华珊

原文来源:《社会学研究》2005年第5期 节选

 

提要:这篇文章演示了如何使用纵贯性数据和生长模型来回答关于变化趋势的研究问题。首先,我们讨论纵贯性数据在社会学研究中的主要优点;然后,通过比较几种纵贯性数据分析方法,揭示生长模型较之于其他传统方法的主要优势。我们还讨论了简单生长模型的几种延伸,包括对模型中固定效应的延伸和对随机效应的延伸。最后,为了帮助读者更好地理解文中讨论的分析技术,并进而能够在自己的研究中使用这些技术,我们提供了一个简单范例来解释文中提到的主要概念和分析策略。

 

关键词:纵贯性数据 生长模型 多层次模型 自回归协方差结构 身高发育 中国健康与营养调查

 

 

  社会科学研究诸多领域的核心问题都涉及了发展变化趋势等动态概念,但是,长时间以来,对于这些动态问题的动态特征的讨论与关注在很大程度上局限于理论研究的层次,例如经典社会学理论中,涂尔干对人口增长、劳动分工与社会道德关系的分析。由于定量研究方法论发展的相对滞后,绝大多数对变化发展的实证分析停留在较低水平。在既往研究中,对于研究对象的动态特性或者只进行简单的描述性分析,或者将其完全忽略,从而将动态社会现象过度简化,以适应静态分析模型的要求。

 

        具体来讲,定量研究方法论发展的滞后之处表现在几个方面。首先,研究者不能肯定能否对变化发展进行定量研究;其次,研究者无法确定什么样的数据适合研究变化发展;最后,研究者缺乏合适的统计模型与分析工具。

 

        虽然社会科学研究者对于研究变化和发展一直都有着浓厚的兴趣,但是真正开始严肃地探究对变化与发展进行严谨的实证研究的可能性则是20 世纪60 、70 年代的事情。在这段时间里,各式各样的新模型和新方法像走马灯一样被提出,然后迅速被人遗忘。以至于许多学者得出结论说对发展与变化进行实证分析是不可能的,与其在这上面浪费时间不如去研究其他问题,至少要将研究的问题以不同的方式提出,尽可能淡化研究主题中关于变化和趋势的成份(Cronbach & Furby ,1970) 。直到20 世纪80 年代,随着纵贯性数据(重复测量数据) 的大量出现和多层次统计模型方法论的成熟与完善,这种情况才发生了根本性的变化。

 

        社会科学研究者所习惯使用的数据是横截面数据(cross-sectional data) 。尽管横截面调查也采用间隔一定时间连续访问的方式,但是在横截面调查中采用更换样本的形式,使得每次调查被访问的对象都不相同,因此这样的数据记载的是被访者在某一个时点(通常是被访的时候) 的情况,而没有将这个时点作为一个连续过程的一部分去考察。使用这样的数据无法区分个体间效应(between effect) 和个体内效应(within effect) ,因而无法用来回答关于变化与发展的研究问题。

 

        关于这一点,后文还会详细讨论。比横截面数据稍微好一些的是所谓两波数据(two2wave data) :数据中记录每个被访者在两个时点的信息。如果我们将变化定义为某个观测值在两个测量点之间的变化的话(Willett , 1989) ,那么这种两波数据可以用来很好地描述这个现象。关键的问题在于:如此定义的变化实际上剥离了变化过程本身所固有的动态成份,而将其过度简化为两个状态之间的静态比较。首先,在没有关于变化曲线形状的先验知识的情况下,两个时点之间的比较无法揭示出个体变化的轨迹。其次,两个时点之间的比较无法将真正的变化与测量误差区分开来(Singer &Willett ,2003 :10) 。只有当被观测者拥有三个或者三个以上时点的数据时,对个体变化的模式与特征进行深入细致的实证研究(Willett ,1997) ,以及对变化背后所隐藏的社会过程进行因果推论才成为可能。

 

        当越来越多的纵贯性数据出现在研究者视野中时,接下来的问题就是:如何充分地提取与利用隐藏在这些数据中的有关变化与发展的信息? 与传统的两波数据研究设计相对应的分析方法是所谓差异分(difference score) ① 方法:求出两次测量值之差,然后将测量值之差作为因变量而将个体的其他一些特征作为自变量进行回归分析,从而得出哪些因素对个体的变化与发展有着什么样影响的结论。这种方法非常直观,因而曾经获得过广泛的应用。但是其最大的弱点在于差异分本身是关于变化过程的一个有误差的测量(falliable measure) ,它包括了两部分的信息:真正的变化和测量误差。魏里特(Willett ,1989) 提出了修正的办法,但是这种修正方法需要引入样本之外的信息。从这个意义上讲,对于差异分方法的批评与对这一分析方法所依赖的研究设计和数据格式——两波数据——的批评殊途同归(Willett , 1989 : 376) 。

 

        建议研究者应该尽量避免使用两波数据(以及相应的差异分方法) ,而采用多波数据(拥有3 个或者3 个以上观测点的纵贯性数据) 和生长模型分析方法。

 

        按照数据收集时间安排的不同,纵贯性数据可以分为固定时点(fixed occasion) 与变动时点(varying occasion) 数据。收集固定时点数据的时候,对所有被访者的访谈遵守相同的时间安排。也就是说,所有被访者拥有相同数目的观测点,而且在两次相邻测量之间的时间间隔相等。相反,在收集变动时点数据的时候则不必严格遵守上述两个条件。固定时点数据又叫时间结构数据(time - structured data) ,因为从设计到实施,从收集到分析, 时间这一变量都起着极其重要的作用。从字面上来讲,所有的纵贯性数据都可以称为时间结构数据,无论是固定时点还是变动时点;毕竟,所有的纵贯数据在收集和分析中都离不开时间。这里最重要的区别在于我们用以结构化数据的时间变量是不是最适合我们分析目的的那一个。一般来说,可以作为时间的变量不止一个,有:日历时间、生物年龄、(学校) 年级、失业时间,等等。举一个简单例子,如果我们要研究学生学习成绩的变化,最合适的时间变量是学生的年级,而日历时间和生物年龄则不那么重要。在这种情况下,如果我们的研究设计是以年级为基础进行重复测量的(比如说,先测量一年级入学新生的成绩,第二年再测量同一批人在二年级的成绩,等等) ,那么这样的数据(在满足了其他条件的情况下) 就是固定时点数据,也就是时间结构数据。相反,如果我们的研究问题是学生学习成绩变化,但我们的数据是根据生物年龄或者日历时间进行组织结构的,这样的数据就无法称作固定时点数据或者时间结构数据,即使所有其他条件都得到了满足。需要指出的是,在使用纵贯性社会调查数据进行生长分析的时候,我们经常碰到的是第二种情况而不是第一种。

 

  对于固定时点的情形,传统的处理方式是采用重复测量的方差分析,包括一元方差分析( univariate ANOVA ) 或者多元方差分析( MANOVA) 。但是一元方差分析对不同测量波次的方差协方差进行复杂的约束设置,否则它所估计的F 比值检验就会出现正定误差,造成对零假设的拒绝(Stevens , 2002) 。采用多元方差分析方法尽管能避免上述问题,但需要对重复测量进行复杂的转换,并且它所检验的实际上是不同测量之间的对比。无论是一元方差分析还是多元方差分析,在进行重复测量方差分析模型的时候更大的问题在于其对缺失值的处理。

 

        当数据中存在缺失值时,方差分析模型的处理方式是从数据中剔除带缺失值的个案,而仅保留完整的个案。这种方式用在抽样调查数据中,就经常会造成丢弃大部分个案的情形。但是在多层模型的分析框架内,不论是固定时点还是变动时点,都可以很好的解决,并且多层模型可以很方便地引入随时间变化的自变量(time2varying covariates) ,而方差分析模型则做不到这一点。对固定时点数据多元方差分析模型的一个自然延伸是所谓潜变量生长曲线模型( latent variable growth curvemodeling) (Willett &Sayer ,1994 ; Duncan et al . , 1999) 。潜变量生长曲线模型属于结构方程模型( structural equation modeling) 的一种。虽然潜变量生长曲线模型继承了其他固定时点模型对数据结构的各种苛刻条件,但是一旦这些条件得到满足,潜变量生长曲线模型是一种非常强大而且灵活的分析工具。最新的研究试图比较这两种研究传统的优劣并且将其结合起来以充分发挥彼此的优势(Muthen , 2000 : 113 - 140 ;Heck ,2001 :89 - 127 ;Raudenbush ,2001b ;Rovine &Molenaar ,2001 :65 - 96 ;Curran ,2003 ;Skrondal & Rabe2Hesketh ,2004) 。由于篇幅限制,我们这里对基于结构方程模型的潜变量生长曲线模型以及相关研究方法论方面的最新进展无法进一步讨论,感兴趣的读者可以阅读前面我们列出的相关文献。

 

0
热门文章 HOT NEWS