摘 要:本文以事实为依据,对《应答率的意义及其他》一文的质疑进行了回应。作者指出,首先,“应文”质疑的出发点是不恰当的;其次,笔者关于调查回收率的定义与福勒的定义完全一致;第三,笔者对样本规模的定义、以及对CGSS2003调查项目中的样本规模——5900的定义和理解也是清楚的和正确的,笔者并没有“误读”这一样本规模的含义。第四,真正错误理解和定义“样本规模”含义的恰恰是“应文”的作者。由于“应文”作者不恰当地将“样本规模”的概念变换成“实际发生的访谈数量”,不恰当地在有关“样本规模”的讨论中引入“实地调查过程”的内容,因而形成了对样本规模含义的不正确理解,做出了对样本规模含义和计算的不正确划分,同时也导致了CGSS2003的样本规模计算以及其他调查项目回收率统计中的混乱现象。 关键词:调查研究;样本规模;回收率
笔者的一点学习心得,在很短的时间内就得到了同行的关注,深感欣慰。编辑部转来的《应答率的意义及其他》一文(以下简称“应文”)对拙文提出了一些不同意见。本着学术探讨的目的,笔者给出以下回应。 一、笔者前文质疑的究竟是什么? “应文”一开始就写道,笔者的前文“对中国目前社会调查中的高回收率提出了质疑,指出由于严格执行随机抽样和实地调查所必然面临的许多客观障碍和所必然造成的回收率下降,所以,过高的回收率实际上意味着调查过程的不严格性,其结果则是调查资料的低质量”。在提要中,“应文”作者也写道,笔者的前文“对中国社会调查质量的质疑也缺乏足够的事实依据”(郝大海,2007)。 笔者前文的内容真的如上所述吗?这不符合事实。事实是,笔者前文的内容既没有对“中国目前社会调查中的高回收率(现状)”提出质疑,也没有“对中国社会调查质量”提出质疑,更没有“指出”上文中所指出的那一段结论。 首先,笔者将前文的提要完整照录,读者可看看笔者前文论述的究竟是什么: 论文由美国学者的质疑引入对调查回收率所具有的方法论意义的探讨,并结合国内外的研究实例,对调查回收率的衡量标准及其依据提出了自己的看法。作者指出,一方面,调查回收率所代表的实际样本的大小,是衡量一项调查结果所具有的代表性的最终指标,因而回收率越高越好。但另一方面,由于实际调查中存在着许多制约和影响回收率的因素,如果不切实际地单纯追求高回收率可能会影响到调查资料的质量,因此回收率并非越高越好。研究认为,样本的完整与资料的质量是我们在调查中应该同等关注的两个方面。既要尽可能地提高回收率,也要尽可能地防止和避免低质量的高回收率。(风笑天,2007) 实际上,笔者前文主要是针对笔者以往认识中(当然也可能包括其他研究者认识中)存在的“回收率越高越好”的片面看法提出的质疑。论文集中探讨的是“美国学者为什么会对高回收率提问”、“高回收率是否比低回收率更好”、“有哪些因素影响着调查回收率的高低”、“应该如何正确看待调查回收率”等问题,研究的结论所回答的也是“回答率是否越高越好”的问题。关于这一点,读者无论是从笔者前文的大小标题、上述的论文提要、还是从整篇论文的立论和论述中,都不难看清。笔者对“回收率越高越好”的看法进行质疑,与“应文”所说的对“中国目前社会调查中的高回收率(现状)”的质疑、或者对“中国社会调查质量”的质疑显然并不是一回事。 其次,在笔者前文第六小节的最后一段中,明明白白地写着这样一段文字: 正是由于十分了解严格执行随机抽样和实地调查所必然面临的许多客观障碍和所必然造成的回收率下降的现象,所以,当听到高回收率时,有经验的研究者就会很自然地对调查实际实施的严格性提出疑问。这就是那位美国教授为什么会以一种对高回收率表示怀疑和将高回收率看作缺点而提问的原因。在他眼里,过高的回收率实际上意味着调查过程的不严格性,其结果则是调查资料的低质量。(风笑天,2007) 我们如果加上这一段叙述中的主语(括号中部分),读者对这段话的意思可能会看得更加清楚: 正是由于(那位美国教授)十分了解严格执行随机抽样和实地调查所必然面临的许多客观障碍和所必然造成的回收率下降的现象,所以,当(他)听到高回收率时,(他)就会很自然地对调查实际实施的严格性提出疑问。这就是(他)为什么会以一种对(笔者的)高回收率表示怀疑和将(笔者的)高回收率看作缺点而提问的原因。在他眼里,过高的回收率实际上意味着调查过程的不严格性,其结果则是调查资料的低质量。 其实,即使不像这样增加叙述中的主语,读者也会很清楚地从笔者前文的上下文中看明白这段话的含义。看清“是谁”“说了什么”。但“应文”作者却很不恰当地从上述文字中抽出两句话安在笔者的头上,从而构造出一种并不存在的“笔者‘指出’的看法”,并由此作为其质疑的出发点。 二、笔者对调查回收率的定义与福勒的定义是否不同? “应文”作者在列举了笔者前文中关于调查回收率的定义以及福勒关于应答率的定义后指出: 比较以上有关调查回收率的两个定义,发现对于调查回收率的分母,存在一些差异。前者是“计划调查的样本数”,后者是“从总体中抽取的所有人,包括那些虽被抽中但因拒绝、语言问题、疾病或者缺乏易得性而没有应答的人”。由于前一个定义没有对“计划调查的样本数”给出进一步的说明,不知道计划中是否也包括了“没有应答的人”。(郝大海,2007) 笔者前文真的没有“给出进一步的说明”吗?“应文”作者真的“不知道计划中是否也包括了‘没有应答的人’”吗?事实是,就在笔者给出调查回收率的定义及计算方法的下面,紧接着对调查回收率的含义和计算方法进行了举例说明: 比如,一项调查从总体中抽取了400名调查对象作为样本,研究者采用自填问卷的方法收集资料,发出问卷400份,实际收回问卷380份。那么,根据上述公式计算,该项调查的回收率为: (380/400)×100%=95% 同样,如果研究者采用的是结构式访问的方法来收集资料,而在实际访问400名调查对象的过程中,有10位调查对象由于地址错误、外出打工、生病住院等客观原因而无法接触到,还有10位调查对象拒绝接受访问。结果,实际完成访问的对象为380人,回收率亦是95%。(风笑天,2007) 如果说,“应文”作者仅凭笔者定义中文字的表面意思还有可能产生不同的理解的话,那么,当读到上面这一段专门例举的具体详细的例子,还能说“不知道计划中是否也包括了‘没有应答的人’”吗? 笔者上面所说的“由于地址错误、外出打工、生病住院等客观原因而无法接触到”的人,以及“拒绝接受访问”的人,与福勒定义中的“那些虽被抽中但因拒绝、语言问题、疾病或者缺乏易得性而没有应答的人”不一样吗? 任何一个实事求是的读者都不难看出,笔者前文对调查回收率的理解和说明与福勒的定义完全一致。笔者定义中的“计划调查的样本数”,实际上包括了“由于地址错误、外出打工、生病住院等客观原因而无法接触到”的对象,也包括了“拒绝接受访问的对象”。“应文”作者面对笔者前文中如此清楚明白的说明,却依然说笔者没有“给出进一步的说明”。 因此,可以确认的第一点是:笔者前文中对调查回收率的定义和理解是清楚的和确切的。并且,如果“应文”作者同意福勒关于应答率的定义的话,他也不应该对笔者的定义和解释产生疑义。 三、笔者是否“误读”了样本规模的含义? 在“应文”的提要、第三节开头以及结语中,其作者三度明确指出:笔者对“国内调查回收率过高的看法,只是对样本规模含义误读的结果”(郝大海,2007)。这是“应文”作者质疑笔者前文的焦点所在。问题是:笔者真的“误读”了样本规模的含义吗? 首先看看笔者对样本规模含义的理解与其他学者的理解之间有无不同。 在笔者撰写的两本方法教材中,笔者对样本规模给出的定义都是:“样本中所含个案的多少”(风笑天,2005a:78,2005b:147)。 中国大百科全书社会学卷中的定义是:“样本内所含单位的数量”(中国大百科全书总编辑委员会《社会学》编辑委员会,1991:20)。 北京大学社会学系袁方教授主编的《社会研究方法教程》中的定义是:“样本内所含个体数量的多少”(袁方主编,1997:224)。 “应文”作者自己的教材中给出的定义是:“样本中所包含元素的数量”(郝大海,2005:38)。其在“应文”中所给出的定义是:“调查样本中所包含的被调查者数量”(郝大海,2007)。 仅从定义来看,以上定义的含义基本一致,不能说笔者的定义对样本规模的含义有什么“误读”。实际上,“应文”作者也没有指出笔者在定义上的“误读”。其指出笔者“误读”的内容和依据,主要体现在其所列举的一项调查实例上。① “应文”作者指出:“不难看出,‘高文’作者在计算调查回收率时,对5900这个数字的确切含义发生了误读……可以认定使用CGSS2003数据的研究论文给出的5900,应该是没有计入无应答数量的样本规模,因此,CGSS2003的回收率不应该据此被计算成99.9%”(郝大海,2007)。 的确,笔者前文中所理解的5900,就是CGSS2003调查的样本规模,就是该调查“计划调查的总的个案数”,或者说,就是抽样设计所抽取的总个案数,也即是福勒定义中的“从总体中抽取的所有人,包括那些虽被抽中但因拒绝、语言问题、疾病或者缺乏易得性而没有应答的人”。 先来看看笔者是依据什么做出这种理解的。正如“应文”作者所说,从采用这一调查数据发表的5篇论文的样本介绍中,读者(包括笔者)所能看到的都只有“按抽样方案抽取了5900位城镇居民,实际完成样本5894个”这样的陈述。笔者的确是按照前述样本规模的定义,并根据“抽取了5900位城镇居民”这样的陈述而将5900作为CGSS2003调查的样本规模的。 笔者对该调查中5900这个数字的这种理解错了吗?请看下面由中国人民大学统计学系统计科学研究中心为该项调查撰写的“抽样设计、抽样框和样本抽取过程的说明”中对5900这一数字的来源、含义的具体说明: 由于调查的结果主要是估计各种比例数据以及比例数据之间的比较,所以在调查样本量的确定上是以估计简单随机抽样的总体比例P时的样本量为基础。在95%的置信度下按抽样绝对误差不超过3%的要求进行计算,需要抽取样本量: 这里d为抽样绝对误差取0.03,u。在置信度为0.95时为1.96,p(1-p)最大取0.25。由于采用多阶段的复杂抽样,设计效应deff一般会在2和2.5之间,我们把deff定为2,这样需要的样本量就为2000个。 综合考虑精确度、费用以及调查实施的可行性等因素,以及以往若干全国社会调查的经验;再加上考虑到在调查实施中通常会存在一部分户内找不到、或没有合格调查对象、以及各种原因造成的无回答等情况,根据对回答率的估计,需要将上述样本量适当扩大为2380个。 这个样本量是对全国精度而言的,由于我们的抽样还要满足沿海、中、西部和省会城市直辖市不同区域的对比,对不同区域总体估计精度的要求,所以样本量要求在此基础上相应扩大。考虑到总体分为沿海、中、西部和省会城市直辖市这四个层,我们把样本量初步确定在2380×4=9520个。 除此之外,考虑到北京、天津和上海三大直辖市的特殊地位,我们给每个城市的市区分别增加160个住户样本。本期调查的总样本量为9520+160×3=10000。这10000个样本不仅能满足对总体的估计,而且也能满足对抽样框各自总体的估计,所以是比较合适的样本量…… 考虑本次调查的具体内容,在10000个样本中,欲实现城市样本数与农村样本数的对比约为6000
|