微信版 移动版

社会学史

我国现代人口普查的先驱与雏形——戴世光与呈贡人口普查试验

2023-04-23 作者:

编者按:中国人民大学是中国共产党创办的第一所新型正规大学,其前身是1937年诞生于抗日战争烽火中的陕北公学,以及后来的华北联合大学和北方大学、华北大学。中国人民大学于1950年成立后,李景汉、戴世光、吴景超、全慰天、陈达、陈文仙等民国时期著名社会学家也来到人大任教,其中多位此后一直未再离开。中国人民大学社会学一级学科在建设过程中始终自觉弘扬优良传统,高度重视社会学、人口学两大学科渊源的有机融合。从本期起,本刊将陆续推出“人大社会学传统”专题,以期光前裕后、踵事增华,助力中国特色社会主义社会学和中国社会学自主知识体系建设。本期首先刊发关于李景汉、戴世光两位先生的研究。李景汉是中国社会调查运动的先驱,戴世光则是中国最早的人口普查执行者;其人其学不仅构成中国社会学史上的里程碑,而且对当前的学科建设、科学研究和政策实践仍具有重要的启发意义。


内容提要: 清华大学国情普查研究所于1939年开展的云南呈贡人口普查,是我国近代第一次具有现代意义的人口普查,也是一项关于调查技术和统计方法的科学试验研究。作为实际执行者之一的戴世光,凭借着坚实的统计学、人口学理论基础和扎实的人口普查技术,在充分借鉴国际经验的同时,结合我国国情,在本次试验的各个环节都开展了不同程度的中国化探索与本土化创新,为新中国成立后开展全国范围的人口普查奠定了实践基础,提供了宝贵的技术支持和一手经验。同时,他的数据化思维以及对整个试验过程的量化管控今天看来依然具有极高的借鉴价值,特别是其对调查方法开展试验的意识及其中展现的实践自觉、学术自觉,更值得今天的学人学习。

关键词:戴世光;现代人口普查;量化;本土化;实践自觉

作者简介:唐丽娜,中国人民大学社会学理论与方法研究中心研究员、中国人民大学社会与人口学院讲师;潘月,爱荷华大学统计与精算系硕士;申艳芳,河北师范大学行政管理学系讲师


一、引言

1938年8月,清华大学国情普查研究所(以下简称“国情普查研究所”)在云南昆明成立,作为战时设立的五个特种研究所中唯一的社会科学研究机构,其承担着研究国情普查方法、掌握社会基本事实的重要使命。该所在清华大学社会学系的基础上组建,时任清华社会学系系主任陈达出任所长,戴世光主持统计部工作,李景汉负责调查部工作。1939年6月,为躲避敌机轰炸,国情普查研究所迁至呈贡文庙。同年,“燕京大学—云南大学实地调查工作站”成立,并于次年迁至呈贡魁星阁。至此,中国社会学界的两大学术团体“文庙派”与“魁阁派”汇聚形成,并在中国大地开展社会学的本土化探索。费孝通曾肯定国情普查研究所的普查方法试验:“这试验奠定了来日全国性普查的方法和技术”(费孝通,1947:10)。而1939年陈达、戴世光、李景汉主持开展的呈贡县人口普查试验正是其中的典范。戴世光也因此与社会学结缘,1957年他参加过两次关于恢复社会学的活动,1983年作为人大社会学系的代表参加了我国社会学“六五”规划会议——此次会议确定了三项 “六五”期间社会学学科重点研究项目,其中中国人口问题研究包括我国生育率降低趋势与问题的议题,由戴世光、袁方和张乐群等负责学术指导。

时任清华大学校长、西南联合大学实际负责人的梅贻琦十分看重国情普查,认为“国情普查可以说是一切社会学术的张本。没有普查,没有数字,没有统计的记录,一切社会学说是冥想,是空论,是嚼文嚼字,是一些词的堆砌,是一些主义的戏法变换罢了”(梅贻琦,1944:梅序)。因此,他希望战时国情普查研究所的试验研究所能够在抗战结束后,为国家建设提供可凭借的事实依据及科学的研究方法。

在研究方法上,国情普查所注重掌握我国的基本国情,并致力于探寻在我国开展大型社会调查的方法。而“云大研究室在方法上和普查所是不同的”(费孝通,1947:10),魁阁研究室是在功能主义的指导下、以类型比较的方法开展社区研究,并在此过程中不断提出有概括性的理论问题。如若用简单的二分法对其进行划分,便可说前者旨在探索定量研究方法,后者力求精进定性研究方法。尽管这两座闪耀的学术灯塔在方法上有所区别,但最终目标和终极关怀是一致的,即科学地认识中国社会,为中国的建设提供科学、系统的分析方法(戴世光,1940;梅贻琦,1944;费孝通,2021)。在社会学研究方法的中国化进程中,吴文藻和费孝通主持的魁阁研究室的贡献毋庸置疑,但国情普查研究所的价值亦不容忽视。“陈达主持的清华大学国情普查研究所的普查工作,在理论上和方法上为社会学的中国化作出了贡献。”(王康,1992:311)

国情普查研究所成立后开展过一系列普查方法试验的研究,最早开展的就是1939年云南呈贡人口普查,这是一次从研究设计、调查内容、调查方法及统计方法来看都具有现代意义的人口普查。而人口普查本质上是社会调查的一种特殊形式,因此这更是一次目标明确的、科学的、扎根中国大地的关于调查技术和统计方法的试验与研究,是宝贵的学术遗产,具有重要的学术价值和可借鉴之处。即便在当今中国社会科学界,关于研究方法中国化的试验与研究也是凤毛麟角。

虽然已有学者关注到呈贡人口普查,在展示史料的同时,肯定了其对于现代人口普查的意义(乔晓春,1955;侯杨方,2010;阎明,2010;袁卫,2012;杨海挺,2015;吕文浩,2018)。但呈贡人口普查所开展的普查方法探索与试验的关键细节,以及其中所蕴含的量化意识与技术仍有进一步挖掘的空间。有鉴于此,本文从调查研究方法的角度详致考察这次人口普查方法试验,探讨实际执行者与主持人之一的戴世光在其中所做的贡献,他关于研究方法的本土化探索、对调查数据质量的量化管理和兼具国际视野的学术自觉堪称经典。


二、情定“国情普查”门

戴世光(1908.12.1—1999.8.1)是我国著名的统计学家、人口学家、社会调查研究方法专家,1952年从清华大学调入中央财经学院统计系,1953年转入中国人民大学统计系,从事统计学与人口学的教学和研究工作。他曾对我国1953年的人口普查方法和数据做过细致的分析,在肯定这次人口普查的同时也实事求是地给出了改进建议(戴世光,1957)。1974—1978年,他在北京经济学院从事了四年人口学研究工作(实际没去,研究所设在中国人民大学校内北五楼),又捡起三十多年前的人口统计研究,此后一直没有停止对人口统计方法与社会科学研究方法的钻研。在此期间,除了合编《资本主义国家经济统计指标基本知识》《世界人口统计简编》外,还写出《世界各国人口政策》《战后美国人口问题》《战后法国人口问题》等专论。1978年再次转入中国人民大学统计系,完成《半封建半殖民地中国人口问题的分析》。1982年作为全国第三次人口普查办公室顾问前去昆明指导云南省人口普查工作,并与云南大学人口研究所陈旭光教授合作,共同开展“1942—1982年昆明环湖县区人口的变动与发展”这一课题研究。1988年出版《1942—1982年昆明环湖县区人口的变动与发展:一个城乡社区的人口学研究》一书,“该著作的出版,在国内外人口学界引起了广泛的关注,被认为是研究中国现代城乡社区的珍贵文献”(袁卫,2012:147)。而这一切都要从他选择“国情普查”门讲起。

1927年,戴世光考入清华大学经济系,是年考试题目是“试论中法两国人口繁殖之不同点及其原因”——后来对国情普查情有独钟很可能源于此事。1931年获经济学学士,遂进入清华大学研究院研究“社会、经济统计方法应用问题”(戴世光,2008:2),1934年考取清华第二届留美公费生。1935年9月抵美入密歇根大学数学系研究院研习数理统计,1936年6月获密歇根大学理学硕士学位。恰在此时,戴世光意识到还需更深入地研究人口统计指标,因此申请转入哥伦比亚大学“继续研究经济统计一年,以求得应用统计方面之学识 ”。同年9月进入哥伦比亚大学,师从社会学与统计学教授罗伯特·E. 恰道克(Robert E. Chaddock)和弗德里克·C. 米尔斯(Frederic C. Mills)等研习人口统计、经济统计和统计方法。1937年夏天完成论文《美国人口增长的预测》,结束哥伦比亚大学的研究生学习,开启了一年多的从书斋走向田野的国际考察。

戴世光先在美国国情普查局实习了一个月,学习人口、工业、农业、商业普查的调查方法,搜集各种有关统计方法的材料,还参加了部分统计整理计算工作。同年9月前往英国伦敦,在英国人口普查局生死登记处及工业、农业、商业等部门的统计机构参观调查,并搜集与调查和统计方法有关的材料。1938年2月离开伦敦前往德国统计局实习,约两三周后前往巴黎,在法国统计局以及其他部门的统计单位调研、实习,半个多月后去往瑞士日内瓦,做了一些市政府统计工作的调查。4月20日抵达印度马德里,随后前往西拉姆,在内务部人口普查局出生死亡登记处着重考察普查人员训练、普查经费管理、调查时间等实际操作问题,查阅了该处大量的调查记事及有关的文件资料,了解工业、农业的统计调查方案。正是在这里,戴世光第一次系统学习了人口资料的统计方法——条纸法(回国后,他创造性地将条纸法应用在呈贡人口普查中)。随后,到加尔各答实习一个多星期,在各级统计机构研习人口、工业、农业的调查与统计方案。6月初搭船去香港,返回战火中的祖国。


三、战火中的现代人口普查试验

抗战时期,国内学者普遍意识到当时中国的根本问题在于怎样建设成现代化国家,因此一定要有所凭借,其中对人口事实的了解尤为重要。尽管当时国情普查研究所的研究人员不仅经常面临空袭的威胁,还要忍受因物价飞涨而带来的种种困扰,但他们克服种种艰难困苦,可以说是在战场上开展人口普查与农业普查试验。这次试验为我国开展全国人口普查积累了宝贵经验,对新中国成立后开展的前两次人口普查具有重要借鉴意义。

(一)我国人口统计变迁史上的里程碑

人口统计为庶政之母,此前我国虽无人口普查(census),但户口登记调查(registration)由来已久。我国的人口统计以禹贡九州表为嚆矢。自商汤至清末,我国历代人口编查方法或沿袭旧制,或创立新规,沿革经历大致如下:商汤井田制、周朝乡遂法、汉代算赋法、隋朝输籍法、唐朝坊村邻里户籍法、宋神宗保甲法、明黄册编查法、清乾隆保甲法,究其性质,纯属人口登记,也就是所谓的动态人口统计,缺乏静态人口统计,即现代意义上的人口普查。其功用只在分配土地、厘定税赋、征募兵役,以维持社会治安。光绪三十四年(1908 年),为准备立宪,清政府开始筹备户口编查,由民政部奏定调查户口章程,先调查户数,后调查户口,宣统二年(1910年)才得以实行(陈正谟,1930;文永询,1934)。宣统二年的户口调查是我国人口调查方法与人口统计史上承上启下的关键事件。民国时期,各省警察局所做的人口调查,方法大都复制这次,只是略做调整。

1912年中华民国成立后,内务部立即着手全国范围的户口调查,涉及十九省及京兆、北京两区,总计户数为65896781,人口数为351045822。户数、人口数较宣统二年均激增,疑似是当时各省选举,由政客操纵浮报民数,以期在国会中多占议席所致。1928年国民革命军入定中原,结束军阀混战,统一全国,训政开始,人口统计首为急务。内政部于当年秋天制定户口调查规则及调查表格,通行各省切实调查,汇齐报部,至1931年内政部公布调查统计结果,人口总计为474487000(范师任,1931)。此次调查虽然采用稍微近代化的方法,但仍带有不少仿古色彩,以现代人口统计视角看,确有许多不足之处,比如:虽有规定的调查日期和调查时刻,但各地执行不一;各地调查方法各异、统计与审查工作缺乏专业统计人才致使统计误差时有发生;等等。直到1947年,行政院新闻局印行的《统计事业》中仍在讨论“户口普查方案”。

民国时期,我国的人口统计和人口问题一直是国内外学者持续关注的热门话题,关于人口调查,人口学家、统计学家、社会学家等从不同学科视角做出过不同程度的探讨与区域性的实践研究,集中在20世纪30年代且以县域为单位。例如,1931年金陵大学农业经济系和迈阿密大学Scrips人口问题研究基金会在江苏省江阴县峭岐镇合作进行人口调查统计实验,1933年2月参谋本部国防设计委员会在江苏省句容县试办句容县人口农业总调查,1933年9月在江苏省江宁自治实验县开展人口调查,1937年在福建省昌乐县开展人口农业普查。这些县域性的人口调查或多或少都具有了一些现代人口普查的要素,何以1939年的呈贡人口普查试验能谓我国现代人口普查的雏形?不可否认的是,呈贡人口普查试验借鉴了前述人口调查统计的实践经验。比较而言,呈贡县人口普查的先进之处至少体现在以下四个方面。

第一,从组织者的专业性与参与度来看,只有呈贡人口普查是由当时隶属最高学府清华大学的国情普查研究所主持,且以陈达、李景汉和戴世光三位不同领域的学术专家为核心,他们全程参与整个试验过程,保障了调查的规范性和科学性。虽然1931年江阴县的人口调查试验由中外两所大学合作进行,但实际执行者是上海法商学院的毕业生陈彩章,外方专家汤普逊在试验期间身处美国。1938年英文报告An Experiment in The Registration of Vital Statistics in China在美国出版,其中对研究过程的记录相对简单,几乎不见任何人口统计学的学术性语言。1933年句容县人口农业总调查重点也在于试验方法,而非句容一县统计本身,并得金陵大学农业经济系教授的襄助,研究报告全面详细,然细查之下,报告中的统计方法及经过粗糙不明。

第二,从调查的执行人员来看,呈贡人口普查招募当地的小学教员为调查员,统计员是国情普查研所的工作人员和西南联合大学社会学系的在校生,他们相对更专业,其他调查员或以乡镇副镇长或保甲长为主,或以农民、商人为主,兼有中小学教员辅助,虽有培训,然而“第一,乡镇长是义务职,平常对于公事,向极颛顼,是玩忽惯了的。这次的调查,在他们的眼光中会当作平常例行公事一样看待。第二,近几年来,这样的调查表,那样的调查表,实在也太多了,省发到县,县发到区,区发给各乡镇长,各乡镇长照例置之不理,等到上面催到不亦乐乎,然后呈请补发表格,在三四天之内,闭门造起来,……只要表格送出衙门口,就算完了。所谓调查,就是这么一回事”(张心一等,1934:57)。

第三,从人口普查表来看,呈贡人口普查表最接近现代人口普查表,简明扼要,而其他人口普查表的题项繁多,可行性不高、规范性不足。

第四,只有呈贡人口普查对调查过程采用量化管理,而且调查报告术语专业、行文规范。因此,呈贡人口普查堪称我国人口统计史上的里程碑。

(二)呈贡县人口普查

1938年戴世光回国后,应梅贻琦邀请加入清华大学国情普查研究所,并在经济学系教授统计学,相继在云南呈贡县设计并组织开展人口普查和统计、农业普查和统计以及人口出生和死亡登记等国情普查工作。可以说,戴世光的三年海外求学和实习经历与此时国情普查研究所欲求在中国做一次人口普查的试验需求完美匹配。戴世光入所后就招聘助理和统计练习生若干人加以指导和培训,到云南省民政厅、昆明市政府、呈贡县政府、宜良县政府、晋宁县政府所属之人口普查机构参观调查,通过云南省民政厅第三科(云南全省编查保甲户口办事处),商借包括公共处所、普通户、船户、寺庙在内的各县户口调查表格等在内的资料,自行研究。通过分析比较和实地考察,确定呈贡县作为人口普查试验区优势明显。此地距离昆明市不足20公里,有火车直达昆明,交通便利,居民以经营农业为主,人口数量合理。1938年12月2日,陈达自上海携眷返回昆明,戴世光到车站迎接并汇报了自己对周边各县所做的考察情况和意见,随后陪同陈达在昆明官渡镇及附近乡村、呈贡县回龙乡等地调研,与地方官员接洽商谈。对此,陈达写道:

戴世光对于选择试验区事,已着手进行,除路远者不适宜外,余亲赴昆明市近处视察,先到昆明县属官渡镇及其近村。官渡离昆明市南门外约五里,一日下午与戴步行去,归时沿滇越铁路走,遇火车来到九门里时,车虽徐行但不停,余等一跃登车。

余与戴君另一日往呈贡见县长,并到回龙乡在乡公所与乡长、保甲长、小学教员相谈。余有意选呈贡县为试验区。李景汉兄适由迤西归昆明,某日请李与同人二人,往官渡及呈贡视察,以便汇集各人的印象,作最后的决定。(陈达,1946:319-320)

在各方共同努力下,1939年3月抗战进行时,云南呈贡人口普查落地。试验的范围选定在云南省呈贡县,目的是找到适合我国国情的人口普查方法,包括人口资料的搜集、整理以及分析方法,为将来开展全国范围的人口普查提供可靠的数据支撑与技术实践经验。这次试验的内容分为三大块:设计、调查与统计。“设计的范围包括本试验自始至终各主要步骤,如试验区的选定、调查表的编制、工作人员的组织与训练、统计法的选择,人口统计的数量与性质的决定,经费的估计等。设计、调查与统计的总和,可简称为方法的试验。”(戴世光,1940:2-3)试验原则有四:结果务求比较可靠、经费务求比较节省、时间务求比较经济、手续务求比较简单。普查日定在1939年3月6日,委定各乡小学教员为调查员并给予培训,通令各乡保甲长负责宣传及领导调查,调查周期为1939年3月12日至1939年5月1日,调查过程中先对调查表做初步审核,调查结束后复查,初审和复查工作结束后还需要根据随机抽样的原则随机抽选10%的调查表做实地复查。初审、复查、抽查的标准与依据有四:一致性(consistency)、统一性(uniformity)、完全性(completeness)和准确性(accuracy)。

搜集工作完成后,开始整理人口资料,包括计算和统计两部分。因为是试验,所以采用了两种整理法:划记法和条纸法。1939年12月两种方法的比较试验完成,综合考虑数据录入的精确度、人力与经费的需求,最终确定条纸法更适合我国国情。同时拟根据这次试验的经验于1940年冬天在云南举行更大范围的人口普查,即云南环湖十县人口普查,以做进一步的试验。 1940年8月,国情普查研究所出版《云南呈贡人口普查报告》(油印本),计153页。如果说评判一项试验是否科学的标准之一是可复制性,那么呈贡人口普查是一次科学的普查方法试验。这份报告详细记录了试验的全过程,细到条纸的厚度、长度、宽度、颜色、缺角位置,且用于整理条纸木箱的制作全过程以及所需洋钉、麻绳的数量,均附有图片。每一个质量审核环节都有错误率计算方法和结果解读。即使没有受过人口普查方法专业训练的人,依照此报告也能复制出一个相似的人口普查执行方案。


四、社会调查方法的本土化探索

我国学术研究的本土化始于清末民初,彼时随着留学生陆续回国并在大学担任教职、开展研究,西方的知识体系在阐明和解决中国问题时,具备何种程度的有效性和可行性渐受学者关注。吴文藻曾呼吁建构有中国特色的理论体系和研究方法,培育“独立的科学人才,来进行独立的科学研究”,使学术研究“植根于中国土壤之上”,从而实现“彻底中国化”(吴文藻,1990)。在学术研究本土化的实践过程中,最能体现这一追求的就是结合本土社会实际所开展的一系列实地调查。毋宁说,学术研究本土化的最初表征就是社会调查的本土化。其中,戴世光打破了19世纪末20世纪初学术界欧风美雨带来的全面崇洋媚外与闭门造车的两极分化局面,用深厚且专业的学术素养和扎根中国大地的实际行动打开了中国现代人口普查的新局面。

(一)国际经验的本土化探索

国际经验的本土化研究,就探索者而言至少需要具备两个条件。一要熟知本土风俗习惯,二要深谙国际经验与人口统计分析要求。戴世光深知唯有通过科学的调查方法才能准确把握中国人口现状,进而为学者开展研究、政府制定政策提供客观的现实依据。纵观这次试验的全过程,从试验地点和普查日的选取、调查对象的界定、调查表题项和表格的设计、填表方式、调查员的选择与培训,再到调查表格的整理以及最后的统计分析,处处透露着国际经验的本土化探索,限于篇幅,下面仅就其中一二略做分析。

在人口普查中确定人口标准是关键,即设定统计口径。戴世光指出国际上通用的标准有两个:实际人口和住所人口,“英国采用上述第一种标准,美国采用第二种标准,西班牙和德国采用两种混合制。我们求与我国的社会情形及办理人口普查的方便起见,似以采用住所人口制为宜。农业社会的人口富于固定性,大多数人都有住所;况我国的家庭制度根深蒂固,无家的个人比较少见。我们于举行人口普查时,如以住所为标准,对于计算固定人口的总数时,可以减少重复及遗漏”(戴世光,1940:2)。

关于人口普查表,“我们详查本国的需要及欧美的成例,拟定人口普查表,共包含10个项目,即姓名、与户长的关系、通常住所、籍贯、性别、年龄、婚姻、教育、职业(包括行业及职务)及废疾。这些项目似于近世人口普查为最基本并不可缺少的问题,在试验人口普查时,不妨暂时采用,将来我国对于人口问题的研究较深、对于普查日的经验较富时,关于问题表的项目,可以参酌实情而修改。我们希望中央政府于不久的将来,制定并颁布标准问题表,以便各省县举行人口普查时采用,庶几全国有一致的问题表,以期由该问题表所得的各种答案,可供比较的研究”(戴世光,1940:3)。即在累积足够国内经验的基础上,结合国情,制定标准问卷,以便于做比较研究。关于填表方式,戴世光综合考察了国际常见的三种方法:调查对象自填、调查员根据受访者回答代填、调查员代填后由被调查者署名。英、法、德诸国用第一种方法,美国、印度用第二种方法,意大利用第三种方法。尽管第一种方法便捷,但考虑到当时我国国民文化程度普遍较低,一部分户长连名字都不会写,且大众对普查意义的了解尚不充分,所以采用第二种填表方法。

符码(coding)是整理人口普查表的第一步,用现今的调查术语讲就是事后编码。编码难度最大的题项是“职业”。戴世光在海外实习时发现欧美国家已发展出自己的一套混合职业符码制度,大的分类为行业,小的分类为职务,只有一个符码表(编码表、编码手册)。他根据当地的职业状况,改成两项交叉制,行业与职务各有一符码单,两项交叉,能获同样的结果,后者较为简单,也更符合中国人的职业情况。

在整理人口普查表后,如何统计是此次试验的重要内容。为此,戴世光提出三个中心问题:“(一)在统计方法中,自人工到机器,哪一种比较适合于我国的人口普查?对于这个问题,要想寻得适当的答案,我们必须注意:(甲)准确性,(乙)劳力的需要,(丙)经费。(二)整理人口材料时,用何种方式列表比较合理?(三)为适应我国政府的需要及社会科学的研究,哪几种人口统计,我们应该优先供给?”(戴世光,1940:16)接着,他基于在欧美国家及印度所做的相关考察提出四种方法,分别是划记法、条纸法、边洞法和机器法。随后,他用了一大段文字描述四种方法的起源及在不同国家的应用情况,并列出了相关的英文参考文献,足见其在权衡比较时所持有的慎之又慎的态度。在综合比较四种国际常用方法的基础上,结合国内鲜见的实践[民国二十四年(1935年)山东邹平县的人口普查],决定在这次试验中仅对划记法与条纸法做初步分析,至于其余二法,须俟试验完成,另印报告(戴世光,1940)。

理论和技术的本土化向来极其复杂,需要经历漫长曲折的探索与反复验证,既要避免简单地将外国理论、模型套用于中国案例,又要防止不顾中国国情生搬硬套国际经验,这些问题绝非坐在书房拍脑袋就能解决。在这次试验中,每一次国际经验的本土化操作都克服了上述弊病,凡借鉴必注明缘由、凡改革必讲明具体做法。

(二)国内外经验的创造性改进

民国时期,人口普查都称“户口普查”。这是基于“口系于户”“户着于地”的传统观念。这一时期,户口普查均由户口行政机关办理,有四种系统:户口普查、警察户口调查、户籍与人事登记以及保甲户口编查。四种户口的行政系统目的不同,办理机构各异,但登记与调查的内容不免有重复抵触之处,这是各自为政、缺乏统计的一种表现(朱君毅,1988)。训政时期,《户口调查统计报告规则》《统计法》先后颁布,通令全国各省一致遵行,由此各地纷纷开展人口调查,虽然不规范,但也积累了一些探索性经验。戴世光虽曾留学海外,但并没有轻视这些地方性的户口调查,反而遍查各地相关资料,特别是云南本省的户口调查经验,全面吸纳国内外经验,这在五四运动以来全面批判传统的大背景下愈显难得。

戴世光通过翻阅我国既往地方性的户口调查,发现以往的人口调查差不多是一户一张表,非常不经济。“民国二十七年云南省的普通户调查表,亲属占7栏,同居占6栏,佣工占4栏,共计17栏。再加上每张表右首的填载例,约占12栏的地位,结果一张表专为一户之用,如一户仅有一人,也须用一张表,亲属若有八人,就要用两张表。”(戴世光,1940:3)对此,他给出具体的改进做法并量化了改进的效果。“本届呈贡的人口普查表与上述云南的调查表,大小是一样,但是每张计有25栏,可以填25人,如平均以每家5口计,则表数可省4/5,印表经费当然也有比例的节省。另一点是为调查员省时间着想,有许多项目的性质是有固定的分类,而且有的只能分为二种或三种,如婚姻不外‘已’、‘未’和‘鳏寡’(乡村甚少离婚者)。与其调查员逐项照填答案,不如用符号代替。”(戴世光,1940:3-4)他通过把以往的开放题改成封闭题,提高了填答效率,降低了填答错误率。

在用条纸法整理普查资料的过程中,戴世光首先介绍了条纸法,“简单地说,条纸整理是用一张条纸来代表一个人,条纸的两端抄记上关于某个人的符码”(戴世光,1940:31)。在统计某一具体的人口特征时,只需点数这一特征栏中有多少张条纸,就能得到关于这一人口特征的统计数字。随后为了适应需要和实现经济与准确的双重目的,戴世光在方法和工具上都做了相应的创新。一是用的纸相较于印度的更厚,而更厚的纸张数起来可以提高速度,减少错误;同时缩小条纸尺寸,保证条纸成本不增加。二是利用符码,抄录时只抄符码,既简化了手续,也节约了时间。三是只用条纸的两端记符码,审查时便利许多。分类员只要捏住条纸的一端,就可以翻阅另一端的符码。而印度的条纸则自上而下,需要一项项将材料抄入。四是将印度分类时所用的木盒改为可以活用的木表。木表用木板、洋钉和麻绳隔成,上面用写白字的黑布做横幅标题。除此之外,还用条纸颜色表示性别,男性为黄色,女性为白色,而且性别不同,条纸的缺角也各异。当下全世界都在倡导创新,恰恰从侧面反映出创新维艰。在调查方法的创新上,并不是只有实现研究范式的转换才是创新,创新很难一蹴而就,细节的改进也是一种创新。

在调查员的人选上,戴世光注意到在国际上“英、美采用临时雇员,按件计工资,在德、日系借重公务员及中小学教员,有奖状而无薪金,间或给予津贴。这两种各有利弊,但原则上似以后者为佳,因为国家可将调查员的工作视为公民的天职,正如人民有服兵役的义务一样。前者虽可利用报酬对工作加以控制,但临时征雇的调查员,大致无训练,又多为失业者”。虽然“我国向来借重乡保长,但乡保长的地方公事太忙,且大多数不识字,对于调查难以胜任”。 综合国内外以往的经验确定“我们此次以小学教员为调查员,无薪,有津贴及奖状”,而且“老百姓对教员,具有相当的信仰和尊敬……对于所问各项,有据实答复的倾向,不会产生派疑或征兵的猜疑……很自然地减少了许多困难”(戴世光,1940:11)。

正因为既深谙中国的文化传统及社会现实,又熟知西方先进的人口普查技术,戴世光才探索出了适合我国国情的人口普查方式。这既不是西方先进普查技术的直接转渡,也不是基于我国以往普查方式的消极继承,而是在学术自觉和实践自觉基础上的批判性创新。


五、精细的量化管控与超前的数据化思维

(一)量化意识是量化管控的前提

进入21世纪,冠以数字开头的新名词满天飞,量化管理俨然成为一种新型管理模式。功能强大的计算机和日益精进的互联网技术为更精准的量化管理提供了技术支撑,但这不能直接等同于量化管理。要向智慧的量化管理靠近,首先就要回归基础和日常,同时还要有信度和效度兼顾的数据及专业化的数字人才。在此次试验中,戴世光以严谨的数据化思维,借助统计方法,对整个试验过程做了精细的量化设计与管控,可谓我国近代量化管理社会调查的雏形。其中,对调查数据质量的量化管理思维与技术对今天的社会调查依然深有启发。

量化管理的前提是量化意识,也可以说是档案意识,如此才能提前设计好事件推进过程中每一步可能产出的数据并提前做好数据采集的准备工作。这一步一旦被忽视,后期便会深陷“无米之炊”的困境。戴世光对这次试验的设计从一开始就有意识地布局数字生产且操作务实。在云南呈贡人口普查的报告中,他非常有前瞻性地、细致地记录了试验过程中每一步能够被量化的数字,包括调查员培训及实地调查所需的天数、调查员和监察员(及督导)每日的平均工作量、抽样的错误次数及比较分析、末次审查的平均速度、事后编码的效率及出错率、随机抽查的错误率等等。而且他准确地运用最小值、最大值、算术平均数、众数、百分比等统计量,做出了科学的统计分析,为后面开展全国人口普查提供了参考。

在报告的第二章“调查经过”中,戴世光通过一系列的数字客观、清晰地呈现了普查开展的日期、所用的时间和调查员的平均工作量:“原定于民国二十八年三月六日开始调查,因为训练班延长了半天,致路远的调查员,当日不能达到其工作区,所以临时决定普查日不更改,而调查却由三月十二日开始。……调查工作开始最者为三月九日,最迟者为四月十日,全县半数以上的调查区在三月十二日开始工作。在规定工作时间5日以内开始工作的调查区,计占调查区总数的7成。……实地调查所用的时间,最的由调查日起3天即行结束,最晚的计占50天,平均每调查区占15天。若由工作日数来说,则最少的占用2日,最多的也不过用16日,平均连续工作8日,即可完毕,而用5-9日的调查区,约占全数的57%。调查员每天调查的人数,最少为40人,最多的为210人,平均每天调查83人。每个调查员平均每日曾调查55~105人之间的占调查区总数的78%。”(戴世光,1940:11)如此详尽的记录,不仅直观地展现了此次试验的整体概况,也为后期把握全国性普查的进度、合理分配人员、估算工作量等提供了可凭借的数据。

(二)基于随机抽样的质量控制

在对整个调查数据的质量管理,即信度监督过程中,戴世光将量化管理发挥到极致,即便今天的社会调查有计算机与互联网的加持,绝大多数也没有达到这次试验的水平,究其根本在于没有掌握量化管理的精髓:高质量的过程数据[现在所谓的并行数据(paradata)]与严谨科学的统计思维。

在这次试验中,人口普查数据的质量管理集中体现在调查过程中对人口普查表的四次复查审核(调查员自审、监察员审核、1%的抽样检查和末次审核)和调查结束后整理人口普查表的两次复查审查、六次复查都有错误数据记录,且有错误之间的比较与原因探析。这里仅以两次10%的抽样质检为例,“在每个调查区的调查及复查工作结束之后,就开始最后一步抽查的工作。按自由选样的原则,抽出十分之一的表号(以调查表为单位),按家长姓名找着该家后重新调查一次。这次负责调查的是本所同仁,按着抽查方法及计算错误细则分别工作,平均一天每人可以抽查三个调查区”(戴世光, 1940:13),并把抽查结果制成抽样错误分析表。

根据戴世光的设计,最后一次质检基于随机原则(隔十抽一,即等距抽样)从呈贡县全人口中以家庭表为单位随机抽取10%的子样本,由不同调查员再重新调查一次。这样的设计既保证了调查的质量,而且比对了两次调查的不一致之处(差误率),用鲜活的数据展示调查信度。报告中详细记录了差误的计算法则并给出细致的描述,“以上各项全是说明每一百个人平均错多少,譬如教育为1.0%,是说100个人中,平均有一个人的教育项目是错的;漏填为2.0%,是指每调查100人要漏2个人。先以各调查区为单位,根据抽查结果计算百分比,然后就每项目所有调查区组成频数分配。因为这些分配都有高度的正偏度(positive skewness)。如采用算术平均数作平均数,则将受很严重的极端影响,所以上述各种百分比,全是用众数(mode)来代表的”(戴世光,1940:11)。值得关注的是,即便是在一次随机质量抽样的错误描述上,戴世光亦非常谨慎,在考察了错误呈正偏态分布后,决定采用众数作为平均数来表示调查出错的基本情况(戴世光,1940)。今天又有多少调查项目能够行此质控之操作?而在这一次人口普查试验中,基于随机抽样的量化质控在不同环节至少出现过六次。

(三)基于试验数据与统计的研究方法比较试验

戴世光将数据作为探索人口普查本土化的基准。在整个试验过程中,他经常“没事找事”,善于“无中生有”,用“无中生有”的数据优化人口普查。随着试验中生产的过程数据的增多,决策基础更为扎实,决策能力亦随之提高。

人口普查资料的整理与统计向来是一项耗资甚多、烦琐艰巨的工作,更不要提在这个过程中还要做各种试验。在比较划记法与条纸法时,戴世光基于三个维度:准确的程度(信度)、时间和经费,收集并记录了每步产生的试验数据,借用适当的统计方法进行比较分析,最终谨慎地给出试验结果和结论。采用划记法整理的呈贡全县人口普查表,统计出呈贡县有70755人,采用条纸法统计出71223人,后者多出468人,两法相对的错误比率是0.66%(468/70755)。但他认为单从理论上作比较还不够,而且究竟哪种方法得出的总人数是真值也无法断定。因此,需要从统计结果中抽取一部分做比较试验,同时要找出一个完全对的数字作比较依据,不仅总数要和调查表上的人数符合,而且每一项要再对着调查表重新数一次。综合比较后决定以乌龙浦村男女受教育程度、壮丁人数和第一人口监察区家庭人数为试验对象,比较数表结果、划记法结果和条纸法结果三种结果的差异,以数表结果为真数值(戴世光,1940)。试验结果整理成表格,如表1至表4所示。

以数表结果为比较基准,划记法的结果显示男子教育各单元格的绝对差误总和是5,即|465-464|+|152-153|+|1-0|+|38-37|+|16-15|=5,女子教育各单元格的绝对差误总和是19(算法同男子)。用条纸法统计的结果显示男子教育各单元格都没有差误,女子教育各单元格的绝对差误只有2,转换成的相对差误是:划记法的男女教育相对差误分别为0.545和1.820(即5/917和19/ 1044),对应的条纸法的结果分别是0.000和0.192(戴世光,1940)(见表4)。

同理,计算出乌龙浦村壮丁人数,划记法的绝对差误总和是4,条纸法的绝对差误总和是2,相对而言,条纸法的错误只有划记法的一半。第一人口监察区家庭人数的划记法绝对差误总和是65,条纸法的绝对差误总和是8,计每百个单位的相对误差为:划记法1.278、条纸法0.162。戴世光在报告中给出的结论是“我们可以看出条纸法比划记法准确得多,之所以只选了这三种来作比较,是因为数目太大的,找比较的根据太难;而拿数目太小的来比较,容易受偶然现象的影响,不见得可靠”。 毫不意外的是,在选择试验比较标准和材料时,他依然尽可能遵循概率统计的条件。“此外,划计法的几步工作都是连接在一起的,不能将它分成一步一步的来和条纸法作更进一步的比较。但只看这三种比较的结果,我们至少可以说条纸法要比划记法准确,虽然我们不敢断定说条纸法一定比划记法准确几倍。”(戴世光,1940:47)可以看出,戴世光仅将结论限定在试验数据的范围内,没有做任何无事实依据的外推。

关于两种整理方法的经费和时间比较,因两种方法并非同时施行(划记法是 1939年7月8日—10月10日,条纸法是1939年10月15日—12月31日),加之物价飞涨,所以比较困难。但经费和时间的比较结果又非常重要,因为涉及后期开展全国人口普查的总体筹备部署安排。戴世光的解决之道 是“关于费用,从本所支出账目里,可以找出纸张文具在这两个时期间变动的情形,有了这个标准,就可以假设两种方法是同时进行的”。他以报纸、蓝墨水、米三种物品在1939年7月初和10月初的价格为参照,“进一步假定划记法也是十月初举行的,以两个时期开始时墨水的价比,定全部文具费用的价比。当然这个办法并不太可靠,不过大致不差。此外报纸的价钱有了,统计员的薪金也很容易算”。不得不说,好的社会调查设计者不仅是调查方法专家,更是通才式学者,深入生活,了解物价指数等与调查息息相关的各种社会信息。而由上述方法计算出的划记法总费用为1334.42国币元,比条纸法少44.33国币元,“其间划记法进行时所费的时间多,因为薪金多;条纸法所需要的统计工具却比划记法多,结果费用差不多可以扯平。由于这个分析,我们可以说条纸法费用是多些,不过其差别很少,并不能算重要”。关于花费时间的比较,他以效率最高的统计员速度为标准,分析两种方法每步工作所需的时间。假定人口总数是1万人,将4名统计员平分为两组,分别用划记法和条纸法整理,在详细列出每种方法各项目所需的时间后,得出结论 “26天与24天的比例,相差甚微。根据本次的试验,两法所需的时间,似无重要的区别”(戴世光,1940:47)。

戴世光没有因划记法比条纸法多出44.33国币元、多2天的工作量,就简单随意地断定划记法比条纸法更不经济、效率更低。他承认有差异,但也非常清楚这个差异实际上不能算“显著”。今天很多做差异比较的定量研究,发现一点差异就大惊小怪,很多时候都默认所谓的“统计显著”等同于“事实显著”,浪费大量精力分析一些莫须有的、不重要的差异。除此之外,他还发现“经费及时间与资料的多少,有一种直线的关系,即资料多,则时间与经费将比例地增多;而这两个因素与拟编制统计表的数目是曲线关系,即需要的统计表多,则时间与经费会增多,但非比例的,因为统计表的多少与一部分整理手续无关,是以我们在最后除了做一个清算表之外,同时还提出另外两个因素,以为参考之用”(戴世光,1940:49)。这两个因素是统计资料单位的数目和统计表数,前者具体指人口数和家庭数,后者具体指个人统计表数量和家庭统计表数量。

最终,戴世光基于真实的试验数据,通过科学的统计分析与比较,并结合当时中国国情,给出了此次试验的结语,而非结论:“统计方法最重要的一点是准确,我们只能在相当准确的条件之下,节省经费,是以经费节省是有限度的,如果我们把准确牺牲太多,即使经费很节省用,也没有意义。根据上面的分析,我们认为,条纸法胜于划记法。”(戴世光,1940:50)


六、启示:实践自觉的社会调查研究方法试验

目前,学界关于戴世光的研究绝大多数都聚焦于他在统计教学和统计科学研究上的贡献(袁卫,2012,2019,2020;颜日初,1979;施泰,1996;石敏、杨海挺,2016),虽偶有提及他作为人口统计学家的贡献(袁卫,1989),但着墨欠乏,更不要提他在社会调查研究技术方面的成果。但是,戴世光在《戴世光文集》代自序中自我总结了研究生涯“以上四项就是我从事科学研究60年对于统计科学研究,以及中国人口问题研究的经验小结”,其中第二项是 “(二)实事求是是端正我在研究中国人口问题学术思想上徘徊、摇摆的指导思想”(戴世光,2008:代自序),可见他自己认定了人口问题研究在其学术生涯中的地位。关于戴世光全程参与的这次人口普查试验,也鲜有学者关注到,少有的几篇研究大都浮于表面,停留在简单介绍的层面,没有从社会学、人口学、统计学的视角做全面深入的研究。这次试验以及近代唯一一所社会调查研究方法的研究中心——国情普查研究所有太多研究价值,绝非 一篇文章所能涵盖。

温故而知新,继承学术历史遗产是学术创新的基础和路径之一。组建于战争年代的国情普查研究所,是近代中国唯一一所以研究普查研究方法为目标的学术性研究机构。“国情是多方面的,国情的普查当然也是,方面虽多,总括起来却又不出两种基本的东西,一是人,一是物;一是民众,一是产业;人口的普查关于前者,而农工商矿的普查属于后者。”(梅贻琦,1944:梅序)1939年的呈贡人口普查和1940年的呈贡农业普查正是针对国情两个方面的两次方法试验,试验目标明确,研究问题清晰,研究人员专业,研究方法科学,研究过程规范,研究结果具有极高的学术价值与现实指导意义。研究成果之一的《云南呈贡人口普查报告》将科学性、可行性、学术性与实用性完美结合在一起,内容翔实,没有假大空的弊病,包含调查设计(抽样设计、普查表设计/调查问卷的设计、访问员手册/调查手册、审核表、复核表)、试调查、访问员和督导的招募与培训、合理有效的质控(科学的量化质控)、事后随机抽样抽检、数据录入(比较法、抽检法)、符合统计原理的数据描述与数据分析(众数作为平均数)等,值得今人学习。

文化自觉是实践自觉的基础与底蕴,有了实践自觉,方能谈及理论自觉。尽管当时没有数据意识、数字化管理等概念,但先辈们在实地研究中践行着量化管理的内涵,自觉寻找人口普查技术中国化与本土化的依据并开展严密的实证验证,为新中国成立后开展第一次真正全国范围的人口普查奠定了实践基础,提供了技术支持与宝贵的一手经验。


(注释与参考文献从略,全文详见《社会学评论》2023年第2期)

0
热门文章 HOT NEWS