基于数理统计方法的红楼梦研究Word文件下载.docx

资源描述

基于数理统计方法的红楼梦研究Word文件下载.docx

《基于数理统计方法的红楼梦研究Word文件下载.docx》由会员分享，可在线阅读，更多相关《基于数理统计方法的红楼梦研究Word文件下载.docx（11页珍藏版）》请在冰点文库上搜索。

基于数理统计方法的红楼梦研究Word文件下载.docx

了、不、的、一、来、道、人、是、说、我、这、你、去、也、着、玉、有、儿、宝、个、子、又、贾、里、们、见、只、得、那、太、便、好、在、笑、他、家、上、她、么、大、姐、头、听、就、出、回、知、要、日、下、都、心、二、事、老、过、还、话、起、自、如、看、没、叫、两、到、母、些、时、之、今、小、问、因、奶、等、凤、娘、可、什、呢、忙、想、夫、面、爷、才、中、王、打、此、进、罢、倒、样、吃、和、姑、正、后、无、几、黛、天、然、为、前、再、意、别、门、外、走、三、丫、袭、怎、妹、众、多、方、生、作、明、已、将、身、以、把、气、何、钗、给、亲、拿、手、与、年、十、坐、若、用、请、房、且、命、发、春、薛、政、原、妈、姨、花、所、处、先、准、平、己、瞧、边、住、管、琏、内、女、送、死、连、会、至、告、东、早、西、香、往、月、喜、却、安、能、放、分、当、未、从、带。

本文中写作风格和情景分析的所用字词主要从这189个中选取，并且添加一些的重要的字词，再结合matlab编程统计处在每回合出现的频数。

对于一些人物的分析，本文主要对于出场率较高的人物进行编程汇总。

由于篇幅的原因，本文中对于这些数据的统计不再列出。

（三）前80回和后40回的分析

1.写作风格

通过数据准备我们提炼出以下常用虚词：

了、的、着、也、么、之、呢。

将这些虚词出现的规律记为一个随机变量，且。

前80回虚词规律记为，后40回记为。

做假设检验

，

作为一元情况下两样本t检验统计量的推广，用似然比方法可以求得霍特林统计量

其中：

，分别是对应的样本协方差矩阵。

当原假设为真的时候，统计量

对于实现给定的显著性水平，拒绝规则为：

计算可得：

，所以拒绝原假设，认为它们的均值是不同的。

通过上述的分析，认为前80回和后40回的作者在写作风格上发生了变化。

而实际中一个人在一定时期对于虚词的用法是服从一定的规律的，这样的事实说明了在前80回和后40回中作者本身要么发生了重大变化，要么其后面的作品并非完全由自己完成。

2.人物

红楼梦中设计人物众多，光是女性就分成金陵十二钗正榜，副榜，又副榜，三副榜，......，八副榜，外副榜等等。

如此众多的人物，在前80回和后40回中出现的规律随着自身的命运也出现了变化。

如果把每个人物在各回合中出现的频率看成服从一种分布，那么我们就可以通过人物规律发生的变化进行分析。

本文采用两个独立样本的K-S检验方法（[7]），要求假设

;

提出的检验统计量是

定理：

设两个总体分布函数连续且相等，则

其中为的分布函数，。

由此可见，当足够大时，选择为统计量，对应的拒绝域为

，是对应的分位数。

考虑到秦可卿这个人物虽列位于正榜，但是犹豫特殊原因，使其在前几回就退出了这个舞台。

其次，除了正榜中的女性之中，一些有地位的丫鬟如：

袭人，晴雯，平儿等，在故事中也有着鲜明的个性特征，所以同时把她们计入考察的对象。

再次，在这个“女儿王国中”，也能看到各色各样的男子，如主人公贾宝玉，其父贾政，贾琏等等一些有着省份地位的人。

最后限于篇幅，本文对如下的人物80回前后的每回出现频率做了K-S检验，结果如下表：

人名

最极端差别

K-S统计量

渐近显著

性（双侧）

绝对值

正

负

黛玉

.175

.088

-.175

.904

.388

宝钗

.188

-.050

.968

.306

元春

.000

-.088

.452

.987

探春

.025

湘云

妙玉

.225

1.162

.134

迎春

.300

-.300

1.549

.016

惜春

-.013

熙凤

-.188

巧姐

.313

1.614

.011

李纨

.050

.038

.258

1.000

晴雯

.200

-.200

1.033

.236

袭人

.138

-.087

.710

.694

鸳鸯

.100

-.025

.516

.952

平儿

.075

-.075

.387

.998

紫鹃

.338

1.743

.005

麝月

-.038

香菱

宝玉

贾政

.500

2.582

贾琏

.425

2.195

贾赦

（表1）

从表1中，迎春，巧姐，紫鹃，贾政，贾琏这几个人在前80回和后40回出场规律有着极其的不同。

迎春父亲贾赦欠了孙家五千两银子还不出，就把她嫁给孙家，实际上是拿她抵债。

出嫁后不久，她就被孙绍祖虐待而死，正好对应了我们出场次数规律的不同。

巧姐在《红楼们》中出现年纪较轻，但在后40回中，贾府落难之际受助于刘姥姥逃离劫难，归隐田园。

紫鹃作为第一女主角的贴身丫鬟，也是唯一个人真正为黛玉考虑的人，在“紫鹃试玉”一回中更是表现出了对于主人的忠诚。

即便是这样一个人物，在最后的回合中还是逃不过命运的安排。

贾政，贾琏这对叔侄，如图1看出，在前80回中，除建造大观园时期他们两极少出现，大多数是在大观园中姑娘们的世外桃源生活。

而后40回中由于贾政府出现危机，两个贾府起着支柱作用的男人此时必然会多次出现。

图1

但是，对于显著性不是很高的一些检验，我们不能肯定这些都是人物的出场规律是相同的。

比如显著性相对较小的妙玉，惜春，从个图2可以知道，这两个人在前80回出场次数都不多，而且相对比较平稳。

在《红楼梦》中妙玉只有四个性情相投的人，其中之一就包括了惜春。

这两个人有着共同的语言，她们都特别的孤僻，她们对于世俗看的都很开，而命运却是同样的可悲。

最后大观园被抄的时候，一个被“众贼劫持而去”，一个最后落发为尼，出现的回合频率多少也出于这些原因。

图2

而对于剩下的那些出场规律几乎没有发生变化的人物来讲，并不是说明他们命运没有发生变化，只是在一定程度上说明了他们在故事情节中的重要性。

读过《红楼梦》的人都知道，在后面40回合中随着家族的没落，每个人的命运都发生了悲剧性的转换。

3.情景

韦博成（2009,[5]）运用Fisher精确条件检验和渐近正态检验对《红楼梦》中出现的情景做了分析，主要是通过统计的方法来检验80回前后对于不同景物的关注程度。

本文将通过对每回合情景指标出现频率的不同，通过聚类的方法来对各回合进行分析。

主要采用下表中的的情景指标：

总数

死

喜

笑

哭

乐

花

酒

悲

前80回

464.00

451.00

3,363.00

270.00

159.00

780.00

466.00

96.00

后40回

392.00

242.00

580.00

331.00

53.00

156.00

143.00

89.00

（表2）

对于上述指标，采用系统聚类（[8]）的方法进行分析。

系统聚类方法的基本思想是：

开始将n个样本各自作为一类，并规定样本之间的距离和类之间的距离，然后将距离最近的两类合并成一个新类，计算新类与其他类的聚类；

重复进行两个最近类的合并，每次减少一类，知道所有的样品合并为一类。

在本文中，将120个回合看成120个样本，样本中包括表2的各种指标，考虑到样本之间并没有真实的距离，采用皮尔逊相似作为距离的定义，并且采用不同的聚类法，得到下表：

聚类方法

组间连接

组内连接

最远邻接

重心法

中位数

Ward最小

方差

1类

2类

95.00%

96.25%

93.75%

100.00%

5.00%

3.75%

6.25%

0.00%

65.00%

70.00%

57.50%

50.00%

90.00%

52.50%

35.00%

30.00%

42.50%

10.00%

47.50%

（表3）

从表3发现，当运用系统聚类法将《红楼梦》120回合分成2类时，各种方法中1类时占了绝大多数的回合，而且2类主要集中出现在后40回中。

从图4看出，“笑指标”在前80回中出现次数较多，后从81回开始该指标渐渐减少。

而“哭指标”前80回出现频率不高，而后40回中该指标呈递增趋势。

对应上述分析，我们看到“笑多哭少”的回合分成为1类的多，“哭多小少”分成为2类的多，所以可以认为1类是“欢快”的回合，而2类认为是“沉重”的回合。

图4

“大观园”是横穿在《红楼梦》中的一个主要线索（[9]），有着双重影像：

在天上，他是虚无缥缈的太虚幻境；

在人间，它是与浑浊男人世界相隔绝的女人国。

在前80回中，主人公们居住在大观园中，大部分情境给我们描绘出了一幅世外桃源的生活情境。

而对于2类集中于后40回中更是合情合理的。

从第81回开始，自大观园被抄后，“四大家族“的开始没落，各个主人公开始了悲剧命运，显示了后40回中具有浓重的悲剧色彩。

（四）结束语

本文通过对于《红楼梦》中的写作风格，人物每回合出现频率，情景做了分析，研究了前80回合和后40回合之中的不同。

事实上，作为一部文学巨著，《红楼梦》书中的值得研究的太多了，红学就是一门专门研究它的一门学科。

本文中只是对于这本书做了小部分分析，其中还有很多问题，如前80回合和后40回合对待皇权的态度的不同，诗歌感情色彩的变化的分析，人称的变化分析等等，还有很多这样的题目值得去思考。

同时本文中在《红楼梦》中的提出的三种统计方法，都很好的分析出了前80回合和后40回的区别。

其实，对于红学中的其他问题这三种方法也能得到很好的运用，如运用聚类分析对虚词分析（1987，[4]），运用独立样本检验动词和名词的搭配（2009，[5]）以及运用K-S检验法检验动词，连词的分布等。

由此可见，本文中提出的三种方法在《红楼梦》的研究中的运用范围具有一定的广泛性。

参考文献

[1]陈炳藻，从词汇卜的统计论《红楼梦》的作者问题，“首届国际《红楼梦》研讨会”（1980，美国威斯康星大学）。

[2]贾洪卫，董坚，徐锐，计算机与“红学”研究综论（2003，可参见http：

／／www．Tlsoft．corn中国人民人学统计数据库研究室）。

[3]陈大康，从数理语言学看后四十回的作者，红楼梦学刊，1（1987），293—318。

[4]李贤平，《红楼梦》成节新说，复旦大学学报社科版，5（1987），3-16。

[5]韦博成,《红楼梦》前80回与后40回某些文风差异的统计分析（两个独立二项总体等价性检验的一个应用）,应用概率统计，4（2009）。

[6]李瑞芳，孙军波，常诗珧,基于计算机的《红楼梦》字词浅探,电脑知识与技术，5（2009），753—755。

[7]刘国祥，何志芳，杨纪龙，概率论与数理统计，甘肃教育出版社，300-304。

[8]王学明，应用多元分析（第三版），上海财经大学出版社，208-213

[9]陆杰，幻境和现实的交错与重合——是比较《红楼梦》前80回和后40回之大观园，广东教育学报，1（2001）

展开阅读全文