文学研究助手数据结构报告Word格式.docx
《文学研究助手数据结构报告Word格式.docx》由会员分享,可在线阅读,更多相关《文学研究助手数据结构报告Word格式.docx(9页珍藏版)》请在冰点文库上搜索。
![文学研究助手数据结构报告Word格式.docx](https://file1.bingdoc.com/fileroot1/2023-5/5/0eb0b9c7-6ff8-4e7d-8415-a27b81af0456/0eb0b9c7-6ff8-4e7d-8415-a27b81af04561.gif)
问题描述
文学研究人员需要统计某篇英文小说中某些形容词的出现次数和位置。
试写一个实现这一目标的文字统计系统,称为“文学研究助手”。
基本要求
英文小说存于一个文本文件中。
待统计的词汇集合要一次输入完毕,即统计工作必须在程序的一次运行之后就全部完成。
程序的输出结果是每个词的出现次数和出现位置所在行的行号,格式自行设计。
算法思想
本次课程设计使用的是串模式匹配的KMP算法,模式匹配算法KMP为普通模式匹配的改进,优点在与时间复杂度由原来的O(n*m)变为O(n+m),即是说统计时间大大缩短。
当要统计的词汇量很大时,计算机统计所需时间将很漫长,如果使用者急需使用统计结果,这是又因为统计太慢导致研究受阻,这样就得不偿失了。
而本程序将大大改善这种状况,让计算机在短时间内统计出使用者想要的统计结果。
本程序虽然精简,但是对模式匹配算法KMP的使用极其灵活,需灵活调用模式匹配算法KMP的函数来快速解决问题。
该算法的核心思想是:
每当一趟匹配过程中出现字符比较不等时,不需要回测指针,而是利用已经得到的“部分匹配”的结果将模式向右滑动尽可能远的一段距离后,继续进行比较。
模块划分
本次课程设计所用到的程序主要包含四个模块,分别是主程序模块、有序表单元模块、单词单元模块和单词文本串文件单元模块。
其中主程序模块需要实现的功能是,输入文本并统计文件中每个需要测试的单词出现的次数和位置,并输出结果。
源程序
#include<
stdio.h>
stdlib.h>
#defineMAXSTRLEN255//最大串长
typedefcharSString[MAXSTRLEN+1];
intnext[MAXSTRLEN];
//KMP算法中用到的next
intIndex(SStringS,SStringT,intpos)//KMP算法
{
inti=pos,j=1;
while(i<
=S[0]&
&
j<
=T[0])
{
if(j==0||S[i]==T[j]){++i;
++j;
}
else
j=next[j];
}
if(j>
T[0])return(i-T[0]);
return0;
intlenth(SStringstr)//求串长
inti=1;
while(str[i])i++;
return(i-1);
voidfind(charname[],SStringkeys)//查找函数
{
SStringtext;
//用于存放从小说文件读取的一行字符串
inti=1,j=0,k,q=0;
//i用于存放行号,j用于存放列号,k用于输出格式的控制,q用于统计出现次数
FILE*fp;
if(!
(fp=(fopen(name,"
r"
))))//打开小说文件
printf("
打开文件出错!
\n"
);
exit(0);
keys[0]=lenth(keys);
//求关键字的长度
printf("
\n%s\n"
&
keys[1]);
//打印关键字
while(!
feof(fp))//如果还没到小说文件末尾,则继续循环
k=0;
fgets(&
text[1],MAXSTRLEN,fp);
//从小说文件中读取一行字符串,存入text串中
text[0]=lenth(text);
//求读入的串的长度
j=Index(text,keys,j+1);
//调用KMP算法,统计关键字在该行出现的位置,若匹配不成功则返回0
if(j!
=0)
{printf("
行=%d,列=%d"
i,j);
k++;
}//若匹配成功则打印行号和列号
while(j!
=0)//若该行找到了关键字,则继续寻找看是否还能匹配成功
{
j=Index(text,keys,j+1);
//调用KMP算法从刚找到的列号后一字符起匹配
if(j!
=0)
{printf("
%d"
j);
k++;
}//若匹配成功,则打印列号
}
i++;
//行号加1,在下一行中寻找
q+=k;
//累加k以统计关键字出现次数
if(k)printf("
//输出格式控制
%s出现%d次。
keys[1],q);
//打印关键字出现次数
voidmain()
charname[50];
//存储输入的小说路径字符串
SStringwords[10];
//定义字符串数组,用于存储输入的关键字
intm,n,i;
----------------------欢迎使用文学研究助手--------------------"
//打印标题
while
(1)//不停循环,直至完成查询或者退出服务
是否需要为你服务:
需要输入1,不需要输入0。
scanf("
%d"
m);
//输入判断是否需要服务
if(m==1)//需要服务时执行
输入你想查询的文档名字:
scanf("
%s"
name);
//输入文件名
输入查询字符串的个数:
n);
//输入查询字符串个数
输入你要查询的字符串:
for(i=0;
i<
n;
i++)
scanf("
words[i][1]);
//用户一次性输入要查找的关键字,words[i][0]用于存放字符串的长度
find(name,words[i]);
//对于每一个关键字,调用查找函数进行查找统计
break;
elseif(m==0)//不需要服务时执行
break;
else
printf("
输入错误!
\n\n"
//输入不合规范时执行
system("
pause"
程序测试
将所设计的程序输入c++软件,经组建编译后结果如下:
程序能正常编译,说明程序没有问题。
程序运行结果如下:
程序能够正常运行,各功能也能正常实现。
总结和体会
通过本次课程设计,我掌握了数据结构的应用、算法的编写等基本方法,并学会了如何设计完整的程序,利用数据结构设计程序来解决问题。
本次课程设计中,使用的算法主要为KMP算法,程序的执行流程大概为,先输入文章到文件中去,在将文件中的文章付给全局数组,然后输入你想测试的单词个数,然后在输入测试的单词,最后用KMP算法进行模式匹配。
在编写程序的过程中,我遇到了一些问题,在翻阅资料以及请教同学后,终于完整的设计出这个程序。
在程序中,尽量注释每个语句的含义,这样既方便别人查看程序,也方便自己能够快速发现程序中出现的问题,并及时改正。
本次课程设计,对我来说收获颇多。
它不仅让我巩固了所学的数据结构这门课程里的一些知识,还能够自己去设计一些简单的程序,并能够运用所学的知识去解决一些实际问题。
设计过程中质疑(或答辩)记载:
指导教师评语:
评分:
签名:
2014年月日