基于数理统计方法的红楼梦研究Word文件下载.docx
《基于数理统计方法的红楼梦研究Word文件下载.docx》由会员分享,可在线阅读,更多相关《基于数理统计方法的红楼梦研究Word文件下载.docx(11页珍藏版)》请在冰点文库上搜索。
了、不、的、一、来、道、人、是、说、我、这、你、去、也、着、玉、有、儿、宝、个、子、又、贾、里、们、见、只、得、那、太、便、好、在、笑、他、家、上、她、么、大、姐、头、听、就、出、回、知、要、日、下、都、心、二、事、老、过、还、话、起、自、如、看、没、叫、两、到、母、些、时、之、今、小、问、因、奶、等、凤、娘、可、什、呢、忙、想、夫、面、爷、才、中、王、打、此、进、罢、倒、样、吃、和、姑、正、后、无、几、黛、天、然、为、前、再、意、别、门、外、走、三、丫、袭、怎、妹、众、多、方、生、作、明、已、将、身、以、把、气、何、钗、给、亲、拿、手、与、年、十、坐、若、用、请、房、且、命、发、春、薛、政、原、妈、姨、花、所、处、先、准、平、己、瞧、边、住、管、琏、内、女、送、死、连、会、至、告、东、早、西、香、往、月、喜、却、安、能、放、分、当、未、从、带。
本文中写作风格和情景分析的所用字词主要从这189个中选取,并且添加一些的重要的字词,再结合matlab编程统计处在每回合出现的频数。
对于一些人物的分析,本文主要对于出场率较高的人物进行编程汇总。
由于篇幅的原因,本文中对于这些数据的统计不再列出。
(三)前80回和后40回的分析
1.写作风格
通过数据准备我们提炼出以下常用虚词:
了、的、着、也、么、之、呢。
将这些虚词出现的规律记为一个随机变量,且。
前80回虚词规律记为,后40回记为。
做假设检验
,
作为一元情况下两样本t检验统计量的推广,用似然比方法可以求得霍特林统计量
其中:
,分别是对应的样本协方差矩阵。
当原假设为真的时候,统计量
对于实现给定的显著性水平,拒绝规则为:
计算可得:
,所以拒绝原假设,认为它们的均值是不同的。
通过上述的分析,认为前80回和后40回的作者在写作风格上发生了变化。
而实际中一个人在一定时期对于虚词的用法是服从一定的规律的,这样的事实说明了在前80回和后40回中作者本身要么发生了重大变化,要么其后面的作品并非完全由自己完成。
2.人物
红楼梦中设计人物众多,光是女性就分成金陵十二钗正榜,副榜,又副榜,三副榜,......,八副榜,外副榜等等。
如此众多的人物,在前80回和后40回中出现的规律随着自身的命运也出现了变化。
如果把每个人物在各回合中出现的频率看成服从一种分布,那么我们就可以通过人物规律发生的变化进行分析。
本文采用两个独立样本的K-S检验方法([7]),要求假设
;
提出的检验统计量是
定理:
设两个总体分布函数连续且相等,则
其中为的分布函数,。
由此可见,当足够大时,选择为统计量,对应的拒绝域为
,是对应的分位数。
考虑到秦可卿这个人物虽列位于正榜,但是犹豫特殊原因,使其在前几回就退出了这个舞台。
其次,除了正榜中的女性之中,一些有地位的丫鬟如:
袭人,晴雯,平儿等,在故事中也有着鲜明的个性特征,所以同时把她们计入考察的对象。
再次,在这个“女儿王国中”,也能看到各色各样的男子,如主人公贾宝玉,其父贾政,贾琏等等一些有着省份地位的人。
最后限于篇幅,本文对如下的人物80回前后的每回出现频率做了K-S检验,结果如下表:
人名
最极端差别
K-S统计量
渐近显著
性(双侧)
绝对值
正
负
黛玉
.175
.088
-.175
.904
.388
宝钗
.188
-.050
.968
.306
元春
.000
-.088
.452
.987
探春
.025
湘云
妙玉
.225
1.162
.134
迎春
.300
-.300
1.549
.016
惜春
-.013
熙凤
-.188
巧姐
.313
1.614
.011
李纨
.050
.038
.258
1.000
晴雯
.200
-.200
1.033
.236
袭人
.138
-.087
.710
.694
鸳鸯
.100
-.025
.516
.952
平儿
.075
-.075
.387
.998
紫鹃
.338
1.743
.005
麝月
-.038
香菱
宝玉
贾政
.500
2.582
贾琏
.425
2.195
贾赦
(表1)
从表1中,迎春,巧姐,紫鹃,贾政,贾琏这几个人在前80回和后40回出场规律有着极其的不同。
迎春父亲贾赦欠了孙家五千两银子还不出,就把她嫁给孙家,实际上是拿她抵债。
出嫁后不久,她就被孙绍祖虐待而死,正好对应了我们出场次数规律的不同。
巧姐在《红楼们》中出现年纪较轻,但在后40回中,贾府落难之际受助于刘姥姥逃离劫难,归隐田园。
紫鹃作为第一女主角的贴身丫鬟,也是唯一个人真正为黛玉考虑的人,在“紫鹃试玉”一回中更是表现出了对于主人的忠诚。
即便是这样一个人物,在最后的回合中还是逃不过命运的安排。
贾政,贾琏这对叔侄,如图1看出,在前80回中,除建造大观园时期他们两极少出现,大多数是在大观园中姑娘们的世外桃源生活。
而后40回中由于贾政府出现危机,两个贾府起着支柱作用的男人此时必然会多次出现。
图1
但是,对于显著性不是很高的一些检验,我们不能肯定这些都是人物的出场规律是相同的。
比如显著性相对较小的妙玉,惜春,从个图2可以知道,这两个人在前80回出场次数都不多,而且相对比较平稳。
在《红楼梦》中妙玉只有四个性情相投的人,其中之一就包括了惜春。
这两个人有着共同的语言,她们都特别的孤僻,她们对于世俗看的都很开,而命运却是同样的可悲。
最后大观园被抄的时候,一个被“众贼劫持而去”,一个最后落发为尼,出现的回合频率多少也出于这些原因。
图2
而对于剩下的那些出场规律几乎没有发生变化的人物来讲,并不是说明他们命运没有发生变化,只是在一定程度上说明了他们在故事情节中的重要性。
读过《红楼梦》的人都知道,在后面40回合中随着家族的没落,每个人的命运都发生了悲剧性的转换。
3.情景
韦博成(2009,[5])运用Fisher精确条件检验和渐近正态检验对《红楼梦》中出现的情景做了分析,主要是通过统计的方法来检验80回前后对于不同景物的关注程度。
本文将通过对每回合情景指标出现频率的不同,通过聚类的方法来对各回合进行分析。
主要采用下表中的的情景指标:
总数
死
喜
笑
哭
乐
花
酒
悲
前80回
464.00
451.00
3,363.00
270.00
159.00
780.00
466.00
96.00
后40回
392.00
242.00
580.00
331.00
53.00
156.00
143.00
89.00
(表2)
对于上述指标,采用系统聚类([8])的方法进行分析。
系统聚类方法的基本思想是:
开始将n个样本各自作为一类,并规定样本之间的距离和类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其他类的聚类;
重复进行两个最近类的合并,每次减少一类,知道所有的样品合并为一类。
在本文中,将120个回合看成120个样本,样本中包括表2的各种指标,考虑到样本之间并没有真实的距离,采用皮尔逊相似作为距离的定义,并且采用不同的聚类法,得到下表:
聚类方法
组间连接
组内连接
最远邻接
重心法
中位数
Ward最小
方差
1类
76
77
75
80
2类
4
3
5
26
28
23
20
36
21
14
12
17
19
95.00%
96.25%
93.75%
100.00%
5.00%
3.75%
6.25%
0.00%
65.00%
70.00%
57.50%
50.00%
90.00%
52.50%
35.00%
30.00%
42.50%
10.00%
47.50%
(表3)
从表3发现,当运用系统聚类法将《红楼梦》120回合分成2类时,各种方法中1类时占了绝大多数的回合,而且2类主要集中出现在后40回中。
从图4看出,“笑指标”在前80回中出现次数较多,后从81回开始该指标渐渐减少。
而“哭指标”前80回出现频率不高,而后40回中该指标呈递增趋势。
对应上述分析,我们看到“笑多哭少”的回合分成为1类的多,“哭多小少”分成为2类的多,所以可以认为1类是“欢快”的回合,而2类认为是“沉重”的回合。
图4
“大观园”是横穿在《红楼梦》中的一个主要线索([9]),有着双重影像:
在天上,他是虚无缥缈的太虚幻境;
在人间,它是与浑浊男人世界相隔绝的女人国。
在前80回中,主人公们居住在大观园中,大部分情境给我们描绘出了一幅世外桃源的生活情境。
而对于2类集中于后40回中更是合情合理的。
从第81回开始,自大观园被抄后,“四大家族“的开始没落,各个主人公开始了悲剧命运,显示了后40回中具有浓重的悲剧色彩。
(四)结束语
本文通过对于《红楼梦》中的写作风格,人物每回合出现频率,情景做了分析,研究了前80回合和后40回合之中的不同。
事实上,作为一部文学巨著,《红楼梦》书中的值得研究的太多了,红学就是一门专门研究它的一门学科。
本文中只是对于这本书做了小部分分析,其中还有很多问题,如前80回合和后40回合对待皇权的态度的不同,诗歌感情色彩的变化的分析,人称的变化分析等等,还有很多这样的题目值得去思考。
同时本文中在《红楼梦》中的提出的三种统计方法,都很好的分析出了前80回合和后40回的区别。
其实,对于红学中的其他问题这三种方法也能得到很好的运用,如运用聚类分析对虚词分析(1987,[4]),运用独立样本检验动词和名词的搭配(2009,[5])以及运用K-S检验法检验动词,连词的分布等。
由此可见,本文中提出的三种方法在《红楼梦》的研究中的运用范围具有一定的广泛性。
参考文献
[1]陈炳藻,从词汇卜的统计论《红楼梦》的作者问题,“首届国际《红楼梦》研讨会”(1980,美国威斯康星大学)。
[2]贾洪卫,董坚,徐锐,计算机与“红学”研究综论(2003,可参见http:
//www.Tlsoft.corn中国人民人学统计数据库研究室)。
[3]陈大康,从数理语言学看后四十回的作者,红楼梦学刊,1(1987),293—318。
[4]李贤平,《红楼梦》成节新说,复旦大学学报社科版,5(1987),3-16。
[5]韦博成,《红楼梦》前80回与后40回某些文风差异的统计分析(两个独立二项总体等价性检验的一个应用),应用概率统计,4(2009)。
[6]李瑞芳,孙军波,常诗珧,基于计算机的《红楼梦》字词浅探,电脑知识与技术,5(2009),753—755。
[7]刘国祥,何志芳,杨纪龙,概率论与数理统计,甘肃教育出版社,300-304。
[8]王学明,应用多元分析(第三版),上海财经大学出版社,208-213
[9]陆杰,幻境和现实的交错与重合——是比较《红楼梦》前80回和后40回之大观园,广东教育学报,1(2001)
11