微信版 移动版

社会学研究方法

村田忠禧:人文社会科学研究中高频字词计量分析法的有效性——以中共党代会政治报告为例

2007-05-06 作者: 村田忠禧
 原载《河南师范大学学报:哲社版》2006年第2期p209~215

  「英文标题」Validity of Calculating Analysis Method to Words of High-frequencyin Humane and Social Study

  ——take political report of the CPC Representative Congress as anexample

  CUN TIAN Zhong-xi (Yokohama National University)

  「内容提要」我们可以通过对构成文献的汉字、词语和词组进行分析来理解人类的思想和行为。相比于平均的使用频度,如果找出在特定时期频繁出现的特定的汉字,就可以搜寻到包含此汉字的词汇,并将其作为特定的关键词。在统计计算之际,应该注意的是为了比较而建立一个共同的平台,有必要对数据进行平均化的处理。通观高频度词语的变化,就可以把握政策变动的大体情况。了解复合词语的使用状况就可以理解更为具体的变化的实态。

  「英文摘要」Human\'s thoughts and behaviors can be understood by researchinto words and phrases that constitute the material.Compared with theaverage using frequency ,a key word can be found if it appears frequentlyin a given time.In calculating ,it should be noticed that it is necessaryto analyze the statistics averagely.Change of words of high-frequencyreflects the change of polices,and usage of compound words can reflectmore specific changes.

  「关键词」人文社会科学研究/高频字词/计量分析法humane and socialstudy/words with high-frequency/calculating analysis method

  在人文科学研究中,研究者的立场与观点会对分析结果产生很大影响。要得出使每一个人都不得不承认的具有客观性与科学性的结论极为不易。现代中国的政治研究尤其如此。但如果不去追求客观的、科学性的研究,而把表述作者的主观、任意的见解称为研究的话,就违背了学术研究的宗旨——真理的探求。所幸的是,计算机的发展和互联网的普及,为电子化文本文献的分析研究提供了更为便利的条件。

  文献记载了人类的思想和行为,因此我们希望通过对构成文献的汉字、词语和词组进行分析来理解人类的思想和行为。过去在人文科学领域中,这种科学性的研究之所以很难实现,原因在于要找到这种从量的方面到质的方面都具有稳定性和代表性的资料,并将其处理为能够进行分析的状态,是极为不易的,需要进行庞杂的工作。但是现在情况发生了很大变化,现今计算机的发达极大地推进了文献的电子数据化进程,而且对此进行计量分析的高效的计算机软件也丰富了起来,过去难以想象的、有意义的研究变得不那么难了。墨守旧有的研究方法会落伍于时代的发展,必须积极地采用科学技术的发展成果、探索适应电子化时代的新研究方法。

  一、用于分析之文献素材的选择

  为了使分析者不受主观的左右、得出同一的结论,必须从分析对象中剔除杂物,尽可能确保分析对象资料在量和质两方面的稳定状态。这一项工作的难度,是妨碍采用与自然科学中相同的方法来分析极其复杂的人类社会问题的重要原因。但是,即使是复杂的人类社会的活动,如果仔细观察,在特定的状态下有时也会显示出类似的动向。在这种条件下进行比较分析应当说是非常可行的。

  如要分析中国共产党这一主体的思想行为亦即方针政策,笔者认为选择全国代表大会(本文以下简称党代会)的政治报告和中共中央委员会的机关报《人民日报》社论等资料,对其进行收集整理,能够保证分析对象达到量的和质的稳定性。

  政治报告、《人民日报》元旦社论都是在某些特定的时期向国内外公布中国共产党政策的文献。政治报告作为党的一项规定,从1982年十二届全国代表大会起,每五年定期公布一次。与此相对,《人民日报》元旦社论是在中华人民共和国成立后,每年都必然公开发表,其定期性比党代会政治报告更强。

  建国以来的政治报告(从1956年八大开始到2002年十六大为止)平均字数为25591字。与之比较,元旦社论的平均字数约是它的1/8,即低于3117字。在信息量上劣于前者。政治报告和元旦社论在回顾过去、展望未来这一特点上是相同的。前者以至少五年为单位,而后者则以一年为单位。政治报告内容均是以总结过去党的活动并对今后进行展望、提出任务为目的的正式文件,因而其词汇和表现形式极其规范。与此相对,元旦社论则以总结过去的一年、期待新的一年并把新的一年的特征以简洁明了的形式给读者以强烈印象为意图,因而引用诗词和成语这一文学性的技巧表达是很明显的,词汇和表现形式不是很规范化。在这一点上两者的特点有所不同。然而作为中国共产党每隔一定时期发表其当时政策和方针这一点上是相同的。故可以说两者作为分析对象都具有很大的有效性。笔者曾以现今为止的党代会政治报告及《人民日报》社论为素材而进行过分析,并发表了若干论文。以下将要介绍的就是以党代会政治报告作为素材进行研究的成果②。

  二、由高频字推衍、提取高频词

  在以中文和日语所撰写的文献中,对汉字的使用频度进行统计分析是有意义的。汉字具有表意性,有的一个字就是一个词。而且即使复音词中的每个字(亦即词素)对推衍包含此汉字的关键词也是极为有效的。所以相比于平均的使用频度,如果找出在特定时期频繁出现的特定的汉字,就可以搜寻到包含此汉字的词汇,并将其作为特定的关键词。例如,依顺序排列中华人民共和国建国以来党代会(八大至十六大)的所有的政治报告中出现频率最多的20个汉字是:



  与此相应,十六大中出现频率最多的20个汉字依序排列为:



  在这两组居前20位的汉字中,我们首先排除掉“的”、“和”、“是”等这样的表示语法关系的用字,重点来观察一些带有实际意义、能够构成词语的用字。可以看出,没有出现在全体平均的前20位,但出现在十六大的前二十位汉字中有[发]、[展]、[进]、[化]、[制]、[全]、[建]、[政]这8个字。从这个事实出发,在十六大“发展”这一词汇出现得极其频繁,换而言之,我们可以得出“发展”这一词汇是构成十六大主题的中心性的关键词。依此类推,其他的高频字也一样,只要是关心中国当代政治的人,就可以进行推论为什么那个汉字在十六大中那么突出。

  作为另外的一个事例,我们可以试着分析在其他的政治报告中没有出现,却在十六大中出现的突出的汉字。那么,就可以发现有一个字在其他的大会报告中一次也没有出现,却在十六大报告中出现了9次!这个字就是“俱”,并且是作为“与时俱进”这一成语出现的。“与时俱进”这一提法对于理解十六大的本质具有极其重要的意义。

  图1前26位的高频率汉字



  上面的26个八大到十六大的高频度汉字中,我们忽略“的”“和”“是”等这一类作为语法关系词使用的频率较高的字不计。图1就反映了其他词的使用程度。另外,党代会政治报告的分量是不均等的。进行比较的目的就在于同化在各次大会的总汉字使用量,以此条件为基础计算各个汉字的使用频度。犹如在地层中断层的存在一样,图1中汉字的断层就清楚地表现了出来,即使单单从高频率汉字的出现频率的变化情况出发,就能够对中国现代史进行时期划分,时代变化也很鲜明地表现了出来。也就是说,九大到十一大的图标与其他时期相比表现出了极大的差异。具体而言,“阶”“级”“革”“命”“主”“义”等这样的字在那一时期极其突出,这也反映了极端鼓吹阶级斗争的文化大革命时期的政治报告的特征。

  正如以上所介绍的,从汉字的表意性特点出发,找寻包含此汉字的词汇,是很有可能发现关键词汇的。另外,通过特定的汉字群的表现方式的变化,也有可能发现某一时期的特征。我们只要通过汉字这一元素的成分分析,就能够理解文献内容的大体特征。这是在表音文字的书面语言中绝对无法想象的。汉字特有的表意性质和基于这一特点的分析方法,今后应当引起广泛关注,并且积极地利用。

  三、关于词汇出现频率的分析

  图2平均值的前10位高频词语



  汉字不是以汉字单一的形式出现在语言世界中的,而是以词汇(单词)的形式出现的。汉字转化为词汇时才能在现实的语言生活中表现出生动的活力。所以毋庸讳言,在分析汉字的基础上推衍词语、分析词语是我们本项工作的重点所在。

  但是,在书面上记载的中文和印欧语不同,不能用空白来区分各个词语,基本上是汉字罗列。从什么地方开始,到什么地方结束是一个词,有时会有歧义,很难自动地判断。举一个具体的例子,在十六大政治报告中受到瞩目的词语是“创新”。改革开放以来的政治报告中,这一词语分别在十二大出现了2次,十三大出现了4次,十四大出现了2次,十五大出现了5次,但十六大剧增为33次。但是,如果具体分析在十六大“创新”一词的表现方式,“对外工作开创新局面”这一句中,就是“开创”“新”“局面”,而不是“开”“创新”“局面”。也就是说,“创新”这一词的正确的次数应该是32次,而不是33次。另举一例,“殖民主义”当然应该是“殖民”+“主义”,但如果不进行特别处理,单纯地统计词语频度的话,就会在统计“民主”这一词汇的出现次数时被计算在内。认为“殖民主义”这一词语包含有“民主”这一词显然是错误的,所以就应该消减它的出现次数。另外,“中国人民解放军”这一复合词中,是“中国”“人民解放军”,还是“中国人民”“解放军”,或者应该是“中国”“人民”“解放军”,有各种各样的解释。本来一个词包含有多项意义是很正常的,不可能指定为某个单一意义。所以,完全机械地解决诸如在这里所列举的问题是不可能的。笔者认为,只要根据自己研究的目的来处理就行,所以进行了分割处理。比如上述的歧义的情况并不会频繁发生,所以稍稍粗略一点是可以被认为在允许的误差范围内的,也就是说,这种不会影响到分析结果的小的误差,在某种程度上是可以忽略的。或者如果寻求严密性的话,可以通过从“民主”的出现次数中减掉“殖民主义”次数的方法来解决“民主”之中包含有“殖民主义”这一误差。重要的是,对自己进行的运算内含有那样的错误要有清醒的认识并采取措施。在必须寻求正确性的场合下,如上所示那样确定正确的数值就可以了,而不一定非要考虑制作自动化分析程序等。

  基于上面的前提,笔者尝试计算一下建国以来的中共党代会政治报告中使用的词汇的出现频度。在统计计算之际,应该注意的是为了比较而建立一个共同的平台,亦即在此有必要对数据进行平均化的处理。进入十二大以来的改革开放期后,每个报告的分量基本是固定的。就像要反映在此之前政治的不稳定性一样,政治报告的分量也存在着剧烈的变化。因此,单纯的实有数量亦即词汇出现次数的比较毫无意义,必须将所有政治报告进行平均化处理,并比较词汇的出现频度比例。为了实现均等化,应当计算汉字的使用量,并求出政治报告字数的平均使用量,以及各次大会政治报告的标准化的用字量的系数,并利用这一系数求出各种各样的词汇的标准出现频度。

  四、从高频度词汇的变化把握政治变动大体状况

  经过以上所述的处理所得出的建国以来的党代会政治报告中出现频度最高的10个词语如表1所示。如果将此图形化,更能从视觉上看出历史的变化。

  其中最引起笔者瞩目的是:与图1的前35个高频度汉字相同的部分在词语方面也很清楚地表现出了九大到十一大即“文革”期间特殊性,即“阶级”“革命”“毛主席”“无产阶级”等词语在这一时期显著地增加了。此外,通观全体,出现最多的词语是“社会主义”。换言之,从此数据可以看出,什么是社会主义以及如何建设社会主义这一问题,是建国以来中国共产党最大的课题。但是,在“文革”期间,“社会主义”一词被“革命”和“阶级”所取代而减少了。另外一个应该引起注意的事实是在十六大中“社会主义”一词与“发展”“经济”“建设”等词相比次数也减少了。

  在此不是作为平均数值,而仅仅用图形方式表示出十六大中出现频度最高的前10个词语。





  十六大中出现频度最高的“发展”一词,在九大到十一大的文革期间出现的次数极少,随着十二大之后改革开放政策的进展,其次数逐渐上升,在十五大和十六大中达到了第一位。但是十五大中,“发展”和“社会主义”曾以大体相同的次数而处于对抗状态;十六大则转变为“发展”“建设”“经济”“人民”“社会主义”这样的顺序,整体上出现次数最多的“社会主义”在十六大中退到了第五位。从这10个词的变化中可以看出,十三大以来,或者说从十四大到十六大的词汇的出现方式很相似,据此也可以看出,即使是相同的改革开放时期,“经济”“建设”等词语所占的位置也发生了变化。总之,通观高频度词语的变化,就可以把握政策变动的大体情况。

  五、复合词语的分析

  复合词汇不是作为单纯的词汇的集合体,而是作为复杂的概念的表现而被创造和使用的,因此有时就会因为被复合而由原义产生变化。了解复合词语的使用状况就可以理解更为具体的变化的实态。

  十六大中出现最多的“���展”一词,是反映十六大具有的特征的关键词语。因此,观察改革开放以来的政治报告中包含“发展”的词汇的表现方式,就可以得出以下的结果。这里列举出包含“发展”的词语中频度超过3次的政治报告的有关数据。

  包含“发展”的词语中出现最多的是“经济发展”一词,改革开放以来,总是占据着第一位。在各种各样的政治报告中,“经济发展”一词占“发展”一词的比例,十四大比例最高,为13.3%;再是十五大为9.8%,十三大为7.8%,十二大为7.6%,然而十六大却降低为5.1%.同时,十六大“发展”的出现次数却最多,为237次,这一情况很耐人寻味。也就是说,虽然十六大在继续以“经济发展”为牵引力,同时也提出了全方面“发展”的必要性。这也明显地表现在“全面发展”这一词上。这些事实都紧密地联系着十六大“全面建设小康社会”的主题。

  前面我们介绍的是十六大中“社会主义”一词出现次数减少这一特征,下面列举出改革开放以来包含“社会主义”的词语的前10位,如表4所示。



  这里“社会主义”的复合词语的表现方式引人瞩目的是,十六大“中国特色社会主义”以26次的高频度出现,而“建设有中国特色社会主义”却一次也未出现。也就是说,“有”这个字消失了。这应该解释为“中国特色社会主义”作为一个复合词已经固定了下来。下面介绍的就是在政治报告中这一复合词的变化过程。最初是表现为“有中国特色的社会主义”的(在十三大出现了14次,十四大出现了8次),而后“的”字被省略,转为“有中国特色社会主义”(十四大出现了26次,十五大出现了37次),十六大最终省略了“有”字,“中国特色社会主义”是作为一个新的复合词语出现的。而且在十四大和十五大中都没有“有中国特色社会主义”之外的使用方法。所以,严格地计算的话,“中国特色社会主义”在十六大中只出现了26次。通过这样的词语的变化过程,可以看出中国共产党对什么是符合中国国情的社会主义这一问题的摸索和认识过程。作为这一追求的结果的“邓小平理论”(十五大首次出现)和“三个代表重要思想”(十六大首次出现)概念的提出,也是值得重视的。



  除此之外,十六大出现了十次以上的社会主义的复合词还有“社会主义市场经济”(十四大首次出现,次数为14次,十五大出现了19次,十六大出现了16次)和在十六大出现了14次的“社会主义民主”一词。还应注意到其中“社会主义民主政治”出现10次,占了很高的比例。另外“社会主义事业”也出现了13次。

  相反,值得注意的是,虽然是“社会主义”的复合词,“社会主义理论”和“科学社会主义”在十六大中却完全没有提起。“社会主义商品经济”在十三大以14次的次数经常被提起,十四大之后却变更为前面所说的“社会主义市场经济”的提法。十三大以来才提出的“社会主义初级阶段”的提法,十五大也20次被提起,但在十六大中虽然存在,次数却减少到了仅仅3次。分析含有“民主”的复合词的表现方式可以看出十六大和十三大的类似之处。

  我们可以很清楚地发现,通观这些复合词语的出现频度,完全可以解释中国共产党政策的变化过程。

  六、在特定时期比较突出的词汇

  下面我们列出了十六大的新出现词汇。

  三个代表(27)、“三个代表”重要思想(25)、全面建设(18)、全面建设小康社会(16)、先进文化(12)、与时俱进(9)、文化产业(6)、城镇化(5)、经济全球化(4)、西部大开发、世界多极化、世贸组织、恐怖主义、台湾分裂势力、血肉联系、扩大内需、执政方式、政治文明(3次)、透明、执政兴国、干部选拔任用、最低生活保障制度、环保、政治为民、村民自治、民族文化、文化公益事业、城市居民、西部开发、两岸统一(2次)。

  下面列举与上述情况相反的十二大到十五大政治报告中出现,而十六大却未出现的词语。

  与“阶级斗争”的关联而具有否定性印象的“资本主义”等相关词语在十六大中未出现。但是作为生产要素的“资本”一词在十五大出现了9次,在十六大也出现了7次。这里的“资本”一词已经完全没有负面的印象了。这一事实同“社会主义”的复合词语在十六大减少的事实相吻合。实际上,这些都是耐人寻味的事实。

  一般而言,包含“主义”的词语有逐渐减少的倾向。下面表示的词汇在十六大中完全没有出现过。



  与此相反,十六大增加了的“主义”的复合词“爱国主义”,在十二大中出现了3次,之后在十三大、十四大分别出现了1次、十五大中出现了2次、十六大增加到了4次。十二大中“国际主义”出现了3次,是作为对照中国共产党的“爱国主义”和“国际主义”时的概念,十三大以后“爱国主义”占上风了。

  七、“生活”一词意义的变化

  从十二大以来的“生活”一词的出现次数看,十二大出现了50次,十三大为30次,十四大为15次,十五大为34次,十六大变为30次。十二大时出现次数最多。但是,从这个词的具体用法,就可以看出随着时代的发展其意义变化还是很大的。



  如同在十二大中“政治生活”的出现次数以14次之多为特征,截至十五大,“生活”一词还是大多作为表示人类的社会活动意义的词语来使用的。在十六大中涉及人们日常生活时使用的词语很多,如“最低生活保障制度”这样的提法,就是原来的政治报告中从未涉及的新词。人们日常生活的重要性作为十六大的一大特征,“人民当家作主”这样的表现也出现了5次。从十二大到十五大之间总共出现了4次这一情况来看,可以明白为何在十六大又突出强调,因为这和“执政为民”的强调有很密切的关系。

  八、关于用一般性文献分析研究的可能性

  中共的党代会政治报告是很规范的文献,适合于用以进行比较分析。在现实的语言生活中具有规范性条件的文献是很少的。那么,用这样的方法来对一般性文献进行分析是否不可能呢?比较分析任何事物都必须有一个共同的平台,所以最重要的就是发现这一共同的平台。只是茫然地把《人民日报》社论排列比较是无法进行的,而且仅将合乎于分析者想要立论的目的之社论任意抓来分析的话,难免主观性太强,容易陷于牵强附会。所以,如果关注元旦社论和国庆社论之类每年定期发表的社论,是很有可能从其词汇的变化中了解时代变化的[4].但是,记载现实人类行为的文献并不一定有如政治报告和社论那样的类型化。那么对于并非类型化的文献,这里介绍的分析法是不是就无效呢?笔者认为是有效的。只是,为了保证分析结果的有效,不可以仅仅收集以及分析片面的、对于分析者而言似乎有利的情报,必须努力收集大量的、尽可能完备的资料。从大量的数据中求出各种各样的汉字和词语的出现频度的平均值,再将其与作为将要分析的对象的时期和文献的值进行比较,就是很有可能的。在这一点上毛泽东关于农村调查的观点就很值得借鉴。毛泽东曾经在1930年5月提出了“没有调查就没有发言权”这一著名的口号。第二年四月又进行了重要的补充,发展为“没有正确的调查同样没有发言权”。我认为较之“正确的调查”,用“全面性、客观性”来表达更为有益。但无论如何,毛泽东历经十一个月的实践而得来的认识上的变化是应该非常可贵的。

  我们的分析和研究正确与否,最终要看是否能够正确地反映客观世界。为了保证客观性就必须尽可能地排除先入为主的观点。但是,作为认识主体的人类实际上总是带着主观的意图去分析事物,不可避免地带有先人为主性,这一点也是不能否定的。要在探求客观世界的基础上起到探照灯的作用,重要的是如果由探照灯的照射而浮现出的客观情况与自己的预见相异时,要随时检查和自己的认识发生差异的原因是什么,从而为了达到更正确、更有深度的认识,要经常努力提高“探照灯”的性能。只要不断地进行这种努力,科学的认识就是有可能的。因此,认为人类科学不存在客观真理、只存在研究者的不同看法,这种不可知论是应该予以否定的。

  注释:

  ①这里介绍笔者为此研究而使用的软件:中共党代会政治报告的电子数据是从人民日报社的人民网http://www.people.com.cn上“资料中心”的文本资料“中国共产党历次全国代表大会”那里下载的。在处理时运用了可以处理中文和日文的EmEditor这一软件。EmEditor这一软件除了日语版和英文版之外,还有简体中文版和繁体中文版。在中文的os上类似于这样的处理文本的软件几乎没有的情况下,实在是一个非常方便的软件。汉字和词语的频度统计计算,运用了横滨国立大学工学部研究科研究生特别编制的程序charactor counter 、word counter,但由于其本身很简单,故前者用于计算全角文字的数值,后者计算用户做成的符合文本文件的文字的数值。此外还使用了KWIC Finder 这一检索软件。由于此软件可以以KWIC(keyword in context)形式表示检索结果,很方便于进行分析。但是毕竟是日语检索的软件,为了检索中文文献就必须转换为Shift JIS 以检索中文数据。也就是说,中文作者必须在Shift JIS 的基础上使用能够键入中文的软件。然后在整理和分析检索结果的时候使用了Microsoft 的Excel.过去从未想到的一例有趣的研究是,横滨国立大学教育学系的学生总汇了1946年到1995年的《人民日报》新闻中包含“地震”一词的新闻。从印刷物中寻找包含“地震”的新闻即使花一年、一个月都是很艰难的事情。但是现今《人民日报》的新闻已经被电子数据化,制作成光盘予以发售。由此,本科生的毕业论文也能够进行这样的研究。作为同样的事例,笔者能够介绍国会会议录检索系统http://kokkai.ndl.go.jp/(这里可以在线检索从1947年6月3日到现在为止的国会的所有会议录)。笔者运用国会会议录检索系统检索了包含“尖阁列岛”或“尖阁诸岛”或“鱼钓岛”的议事录,这些词语最早在1954年2月15日参议院水产委员会出现,出现次数以1978年最多,其次在1971年、1997年也多次出现。即使足不出户,在很短的时间也可以查阅到这些资料。

  ②村田忠禧:《通过对字词使用的计量分析研究中共党史——以政治报告为素材》,《中共党史研究》1999年第4期,第79-84页;村田忠禧:《中共党大会政治
0