红楼梦的文本分析探索人物之间的关系.doc

上传人:wj 文档编号:2502009 上传时间:2023-05-03 格式:DOC 页数:16 大小:572.50KB
下载 相关 举报
红楼梦的文本分析探索人物之间的关系.doc_第1页
第1页 / 共16页
红楼梦的文本分析探索人物之间的关系.doc_第2页
第2页 / 共16页
红楼梦的文本分析探索人物之间的关系.doc_第3页
第3页 / 共16页
红楼梦的文本分析探索人物之间的关系.doc_第4页
第4页 / 共16页
红楼梦的文本分析探索人物之间的关系.doc_第5页
第5页 / 共16页
红楼梦的文本分析探索人物之间的关系.doc_第6页
第6页 / 共16页
红楼梦的文本分析探索人物之间的关系.doc_第7页
第7页 / 共16页
红楼梦的文本分析探索人物之间的关系.doc_第8页
第8页 / 共16页
红楼梦的文本分析探索人物之间的关系.doc_第9页
第9页 / 共16页
红楼梦的文本分析探索人物之间的关系.doc_第10页
第10页 / 共16页
红楼梦的文本分析探索人物之间的关系.doc_第11页
第11页 / 共16页
红楼梦的文本分析探索人物之间的关系.doc_第12页
第12页 / 共16页
红楼梦的文本分析探索人物之间的关系.doc_第13页
第13页 / 共16页
红楼梦的文本分析探索人物之间的关系.doc_第14页
第14页 / 共16页
红楼梦的文本分析探索人物之间的关系.doc_第15页
第15页 / 共16页
红楼梦的文本分析探索人物之间的关系.doc_第16页
第16页 / 共16页
亲,该文档总共16页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

红楼梦的文本分析探索人物之间的关系.doc

《红楼梦的文本分析探索人物之间的关系.doc》由会员分享,可在线阅读,更多相关《红楼梦的文本分析探索人物之间的关系.doc(16页珍藏版)》请在冰点文库上搜索。

红楼梦的文本分析探索人物之间的关系.doc

《红楼梦》的文本分析

摘要

《红楼梦》作为中国古代优秀的章回体文言文小说,其中的人物关系错综复杂,所以研究《红楼梦》中的人物关系疏密度具有重要意义。

本文以所选《红楼梦》文段中的人物作为特征项,通过分析人物出现的频率和出现位置的分布,来分析所选文段中人物的主次以及他们之间的关系疏密度。

首先通过Matlab等软件进行编程获取所取的文段样本中的人物以及人物出现的频数和位置分布,再根据人物之间出现位置的绝对值距离与人物之间关系密切性近似成反比的关系来建立能够刻画人物之间关系疏密度的数学模型。

通过我们所建立的数学模型计算出的人物之间关系疏密度的结果能够较好地符合所选文段中人物之间关系疏密度的实际情况,我们所得到的人物之间关系疏密度近似服从幂律分布,与现有的一些研究结论相符合。

关键词

人物关系疏密度数理统计方法绝对值距离幂律分布

一、问题重述

文本分析是对文本信息进行挖掘,信息检索的一个基本问题,由于文本中一般含有大量的信息,如何从大量的文本中挖掘有用的信息,就需要选取合适的分析角度对文本进行分析。

基于数理统计的方法对文本进行分析一直以来是一个热点。

对于《红楼梦》的文本分析,目前已有很多人从不同的角度提出了分析方法。

如运用聚类分析对虚词分析(1987,[1]),运用独立样本检验动词和名词的搭配(2009,[2])以及运用K-S检验法检验动词,连词的分布等,但现有的分析主要集中在对写作之人写作手法和写作风格上的分析,或是对于情景的关注程度的分析,却没有人对小说三要素之一的人物进行过深入的分析。

本文采用数理统计的方法主要对《红楼梦》里的人物主次和主要人物之间关系疏密度进行分析。

二、问题分析

每个文本里包含了多个人物,每个人名出现的频率存在差异,每个人名可能多次出现,在整个文本里出现的位置也存在差异。

要对人物进行分析就要统计每个人物在文本里出现的频率和出现的位置分布。

可认为人物出现的频率与人物的重要程度是正相关,对于每个人物出现的位置分布,可认为两人物多次出现的位置邻近的越多,则两人物间关系越密切,反之,两人物的名字出现的位置邻近的越少,则两人物间的关系越疏远。

可用绝对值距离来反映两人物的出现的位置的邻近程度,可认为绝对值距离与两人物的邻近程度近似成反比关系。

因此两人之间关系疏密度可看成是两人多次出现的位置相互间的绝对值距离反比的累加。

基于此来建立我们的数学模型。

三、模型假设

1)假设人物名字出现的频数与人物的主次成正相关,出现次数越多,越是主要人物。

2)假设人物A出现的各个位置附近人物B出现的次数较多且距离人物A出现的位置较近时,可认为人物A与人物B的关系较为密切(这里的关系指两人间的关联,而非带有感情色彩的关系);反之,可认为人物A与人物B的关系较为疏远。

四、符号说明

选取的文字去除停用词后的样本;

选取的文字去除停用词后的样本1;

选取的文字去除停用词后的样本2;

选取的文字去除停用词后的样本3;

样本的总字数;

样本的总字数;

样本的总字数;

样本的总字数;

从样本中提取的人物;

从样本中提取的人物1;

从样本中提取的人物2;

……

从样本中提取的人物n;

人物出现位置的相对数值;

人物第1次出现的相对位置;

人物第2次出现的相对位置;

……

人物第m次出现的相对位置;

人物与人物关系疏密度;

五、模型建立与求解

1.模型的建立

记从《红楼梦》中选取的某段文字去除停用词后记为样本,所选的三段文字去除停用词后分别记为,对于样本,它的总字数为,三个样本的总字数分别记为,从样本中提取的某人物记为,提取的n个人物分别记为,人物某次出现的相对位置记为,m次出现的相对位置分别记为,的定义为

上式中乘以100的原因是为避免“人物第m次出现的位置值/人物所在样本去除停用词后的总字数”的数值过小,在使用Matlab处理时会出现较大误差。

人物()m次出现的相对位置组成的一维向量用表示。

定义样本中人物与人物关系疏密度如下:

其中,如果,则令;

的定义:

将从样本中提取的所有人物出现的相对位置值从小到大排列,相邻的相对位置值之差(绝对值)的平均值作为。

引入r的意义:

由于可能出现特别小的情况,当特别小时,会特别大,为了避免过大而引起出现较大误差,故引入r,当时,令;r取所有人物出现的相对位置值从小到大排列后,相邻的相对位置值之差(绝对值)的平均值作为,可使上述误差大大降低,而且所得结果与事实符合的较好。

模型的意义:

当人物出现的各个位置附近人物出现的次数较多且距离人物出现的位置较近时,可认为人物与人物的关系较为密切;反之,可认为人物与人物的关系较为疏远。

我们所定义的关系疏密度是一个能够综合反映人物出现的各个位置附近人物出现次数的多少和距离人物出现位置远近的量。

观察,我们可以看到当有多个出现位置在出现位置附近时时,由累加效果可看出会相对较大,当出现的某个位置与出现的某个位置距离较近时,会比较大,同样会相对较大,因此能够反映人物与人物的关系疏密度。

2.样本的选取

我们选取《红楼梦》前四十回里的第二十回去除停用词后作为第一个样本,第四十一回到第八十回中的第六十回去除停用词后作为第二个样本,第八十一回到第一百二十回中的第一百回去除停用词后作为第三个样本。

3.数据的获取

获取方法

1)提取样本中的人物,我们使用中国科学院计算技术研究所的ICTCLAS系统来完成,并经过一定的人工修正。

2)通过程序1(使用Matlab所编),我们可以统计每个人物在样本中出现的频数m和获得人物()m次出现的相对位置。

3)按上述1、2步骤分别对进行处理。

获取结果

1)表一为从三个样本中提取的人物、人物出现的频数和频率(某人出现的频数比上所有人出现的频数之和)、样本的总字数。

2)表二为从三个样本中获取的人物出现的相对位置向量。

4.数据的处理

1)对表一中三个样本中的人物和对应的频率画出散点分布图,并用曲线拟合,作图结果分别为图一、图二、图三。

2)通过使用excel软件利用表二中的相关数据计算得到三个样本中的r值,计算结果如下表:

三个样本的

数值

0.525

0.874

0.845

3)通过程序2和程序3利用表二中的相关数据分别计算三个样本中的。

计算所得结果记入表三。

4)利用上述步骤3所得的结果,画出主要人物与其他人物之间的关系疏密度的散点分布图,并用曲线拟合,作图结果分别为图四、图五、图六。

图一

上图中其他人物的序列如下表:

1

2

3

4

5

6

7

8

9

10

11

12

宝玉

黛玉

宝钗

贾环

袭人

麝月

莺儿

李嬷嬷

凤姐

晴雯

贾母

赵姨娘

55

24

17

15

14

10

8

7

7

6

4

3

图二

上图中其他人物的序列如下表:

1

2

3

4

5

6

7

8

9

10

11

12

宝玉

赵姨娘

探春

袭人

蕊官

蝉儿

莺儿

藕官

豆官

李纨

晴雯

黛玉

24

22

13

9

6

6

5

4

3

3

3

2

图三

上图中其他人物的序列如下表:

1

2

3

4

5

6

7

8

9

10

11

12

薛蝌

宝玉

宝钗

宝蟾

贾母

袭人

探春

王夫人

黛玉

薛姨妈

薛蟠

凤姐

19

15

14

11

11

11

10

9

6

5

2

2

图四

上图中其他人物的序列如下表:

1

2

3

4

5

6

7

8

9

10

11

黛玉

宝钗

袭人

麝月

贾环

晴雯

莺儿

李嬷嬷

贾母

凤姐

赵姨娘

139

89

81.6

70.5

64.8

41.1

32.8

32.5

26.6

25.3

10.9

图五

上图中其他人物的序列如下表:

1

2

3

4

5

6

7

8

9

10

11

赵姨娘

探春

蕊官

袭人

莺儿

蝉儿

藕官

黛玉

李纨

晴雯

豆官

44.8

29.5

23.3

19.4

16.8

9.5

7.1

5.8

5.1

3.4

3.3

图六

上图中其他人物的序列如下表:

1

2

3

4

5

6

7

8

9

10

宝钗

袭人

探春

黛玉

贾母

王夫人

宝蟾

凤姐

薛姨妈

薛蟠

36

34.8

31.3

29.8

24.4

17.1

4.3

3.4

1.5

0.8

六、参数估计与模型检验

基于以上所作图的结果,我们可以得出结论:

1)所选《红楼梦》文段中的人物出现频率近似符合幂律分布,三个样本中排前三的主要人物如下表:

宝玉

黛玉

宝钗

宝玉

赵姨娘

探春

薛蝌

宝玉

宝钗

通过阅读所选文段与实际情况符合的较好。

2)三个样本中人物“宝玉”都是主要人物,与《红楼梦》以宝玉为主人公这一事实符合的较好。

3)由图四、五、六,可得《红楼梦》文本中的人物之间关系的疏密程度近似符合幂律分布,且基于样本一,人物“宝玉”与“黛玉”的关系较为密切。

与所选文段实施情况一致。

4)基于样本二,人物“宝玉”与“赵姨娘”的关系较为密切,根据该章回的事实,该结果基本属实;基于样本三,人物“宝玉”与“宝钗”的关系较为密切,根据第一百回的事实情况,该结果基本正确。

根据所取的样本文本中的事实情况,我们所估计的得到的的人物关系与样本中所体现的人物关系基本符合。

七、模型异同点分析

根据所取的样本文本及所绘制的图,可以得出相同点和异同点如下:

相同点:

1)人物“宝玉”出现的频数最多,“宝玉”为样本中的最主要的人物;

2)在所取的样本中人物“宝玉”与人物“黛玉”,“宝钗”,“袭人”的关系较与其他人物相比较更为密切。

不同点:

1)在不同的所取的样本中,主要人物不完全相同,排前三的主要人物如下表:

宝玉

黛玉

宝钗

宝玉

赵姨娘

探春

薛蝌

宝玉

宝钗

2)在不同的所取的样本中,最主要人物“宝玉”关系最为密切的人物也不相同,在三个样本中和“宝玉”关系排前三的如下表:

黛玉

宝钗

袭人

赵姨娘

探春

蕊官

宝钗

袭人

探春

在不同的样本中其他人物与人物“宝玉”的关系程度也不同,在样本W1中“黛玉”的比重为139,而在样本W3中,“黛玉”的比重仅为29.8,可见相同的人物在不同的文本中与“宝玉”的关系也不相同。

八、模型评价

模型优点:

1)对《红楼梦》的人物关系的疏密程度作出了数学上的统计分析,对人物之间的关系非常清晰明白。

2)采用绝对值的反比例函数的方法近似刻画了人物之间的关系的疏密程度,对关系程度的刻画符合幂律分布,比较符合事实。

模型缺点:

1)没有特别好的统计方法去统计不同人物的不同称谓,例如人物“林黛玉”的称谓就有“黛玉”,“林妹妹”,“颦颦”,“颦儿”,“潇湘妃子”等好几种称谓,没有做到完全的人物统计;

2)绝对值的反比例函数取值是否合理,只能模糊估计,不能精确计算。

表一

人物

频数

频率

人物

频数

频率

人物

频数

频率

宝玉

55

0.32

宝玉

24

0.24

薛蝌

19

0.17

黛玉

24

0.14

赵姨娘

22

0.22

宝玉

15

0.13

宝钗

17

0.10

探春

13

0.13

宝钗

14

0.12

贾环

15

0.09

袭人

9

0.09

宝蟾

11

0.10

袭人

14

0.08

蕊官

6

0.06

贾母

11

0.10

麝月

10

0.06

蝉儿

6

0.06

袭人

11

0.10

莺儿

8

0.05

莺儿

5

0.05

探春

10

0.09

李嬷嬷

7

0.04

藕官

4

0.04

王夫人

9

0.08

凤姐

7

0.04

豆官

3

0.03

黛玉

6

0.05

晴雯

6

0.04

李纨

3

0.03

薛姨妈

5

0.04

贾母

4

0.02

晴雯

3

0.03

薛蟠

2

0.02

赵姨娘

3

0.02

黛玉

2

0.02

凤姐

2

0.02

统计

170

1

统计

100

1

统计

115

1

总字数

4337

总字数

6194

总字数

4793

表二

人物

位置分布向量

宝玉

1937 59 165 201 272 276 331 382 407654

8859711007 1167 11921268 1312 1379 1398 1505 155716221674 1706 1724 1751 1837 1892 1965 2262 2312 235426222639 2806 3237 3255 3286 3324 3330 3362 3436 348735293568 3609 3647 3672 3693 3783 3915 4005 4127 4254

黛玉

1023 63 99 128 556 8552465 3319 3340 339134803514 3545 3591 3653 3678 3726 3888 3940 4026 408141964232

宝钗

31 89172 558 853 1938 1957 2129 2169 2244 228823332468 2618 3241 3263 3631

贾环

19301951 2078 2098 2132 2254 2327 2600 2635 2754 278729532987 3087 3211

袭人

139145 225 335 423 488 963 1070 1225 1316 132415171857 1870

麝月

13641392 1415 1532 1595 1709 1713 1741 1784 1843

莺儿

19422042 2070 2120 2138 2162 2308 2797

李嬷嬷

214340 445 582 645 680 801

凤姐

810860 2855 2958 2984 3103

晴雯

9281340 1643 1685 1764 1798

贾母

12901295 2609 3292

赵姨娘

27622814 2977

人物

位置分布向量

宝玉

140184 317 597 640 694 717 730 785 819 127518102055 2167 3351 3357 4348 4362 4443 4446 4485 448745634687

赵姨娘

10321185 1331 1642 1670 1685 1760 1970 2030 2073 209623302488 2639 2663 2716 2824 2928 3118 3253 4492 5552

探春

27942802 2857 2948 3133 3278 3302 3320 3402 3449 348036934521

袭人

19109 2067 2321 2345 2445 2682 4583 5047

蕊官

486552 687 796 2536 2728

蝉儿

35073646 3699 3871 3981 4167

莺儿

159203 422 437 462

藕官

16592534 2730 3344

豆官

25562628 2745

李纨

692800 3140

晴雯

24412668 2786

黛玉

4142058

人物

位置分布向量

薛蝌

16311660 1676 1690 1737 1748 1798 1810 1858 1890 219422662319 2379 2445 2479 2591 2625 2663

宝玉

123428 3711 3716 3802 3915 3928 3975 4047 4121 414943084457 4533 4698

宝钗

3941077 1422 1535 2716 3353 3954 3985 4110 4137 429044664577 4616

宝蟾

17441901 1927 2046 2079 2089 2150 2197 2293 2550 2611

贾母

2322719 2739 2784 2901 3316 3884 3900 3998 4685 4734

袭人

34333449 4107 4139 4282 4468 4496 4584 4601 4705 4719

探春

27353462 3567 3649 3685 3769 3870 4116 4607 4739

王夫人

2572725 2773 2822 2952 3346 3404 3902 4000

黛玉

38273942 4027 4052 4061 4083

薛姨妈

304383 891 1361 1516

薛蟠

185309

凤姐

47594780

表三

宝玉

黛玉

宝钗

贾环

袭人

麝月

莺儿

李嬷嬷

凤姐

晴雯

贾母

赵姨娘

宝玉

345.0

黛玉

139.0

108.7

宝钗

89.0

37.0

52.5

贾环

64.8

16.1

39.6

57.7

袭人

81.6

19.3

19.9

9.9

43.7

麝月

70.5

6.3

10.9

10.8

21.0

45.7

莺儿

32.8

6.4

26.9

33.1

6.8

7.8

31.0

李嬷嬷

32.5

10.7

10.1

2.4

15.9

3.0

1.5

19.7

凤姐

25.3

10.3

9.3

14.9

5.8

2.9

3.6

8.0

16.5

晴雯

41.1

4.4

6.8

6.1

12.5

23.0

4.4

2.5

2.7

15.9

贾母

26.6

6.5

6.6

6.7

8.4

5.1

2.0

1.1

1.9

3.3

7.2

赵姨娘

10.9

3.4

3.5

11.5

1.1

1.1

3.8

0.4

6.0

0.6

1.1

6.0

宝玉

赵姨娘

探春

袭人

蕊官

蝉儿

莺儿

藕官

豆官

李纨

晴雯

黛玉

宝玉

121.3

赵姨娘

44.8

96.9

探春

29.5

36.5

61.5

袭人

19.4

27.0

8.9

20.3

蕊官

23.3

14.0

6.1

5.6

13.5

蝉儿

9.5

6.6

14.4

2.4

1.1

16.3

莺儿

16.8

4.1

1.4

4.5

7.7

0.5

17.8

藕官

7.1

17.4

11.8

4.9

3.8

1.9

0.6

5.9

豆官

3.3

14.8

7.4

5.6

4.6

1.0

0.4

4.7

6.9

李纨

5.1

8.6

9.0

4.2

2.1

1.1

1.9

2.0

2.2

3.9

晴雯

3.4

14.6

7.9

6.1

4.1

1.0

0.4

4.2

5.4

2.3

5.4

黛玉

5.8

6.9

1.0

2.5

2.2

0.3

4.1

0.6

0.4

0.4

0.4

2.4

薛蝌

宝玉

宝钗

宝蟾

贾母

袭人

探春

王夫人

黛玉

薛姨妈

薛蟠

凤姐

薛蝌

119.5

宝玉

7.4

59.4

宝钗

14.2

36.0

37.7

宝蟾

51.2

4.3

6.6

47.1

贾母

12.9

24.4

19.0

6.7

30.9

袭人

5.0

34.8

28.5

2.9

14.9

40.9

探春

7.6

31.3

17.5

4.2

17.4

20.3

27.7

王夫人

11.4

17.1

14.7

6.0

22.9

8.8

12.6

23.0

黛玉

3.0

29.8

18.6

1.7

12.7

12.2

12.7

9.7

26.7

薛姨妈

6.5

1.5

6.5

2.8

2.2

0.8

0.9

2.5

0.5

8.8

薛蟠

1.0

0.8

1.3

0.6

1.9

0.3

0.3

1.8

0.2

2.8

3.1

凤姐

0.7

3.4

2.4

0.4

4.0

5.9

3.7

0.6

0.8

0.1

0.0

4.7

九、附录

程序1

clc;

closeall;

fid=fopen('C:

\Users\kai\Desktop\1.txt','r');

iffid==-1

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 党团工作 > 入党转正申请

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2