资源描述

网页正文提取系统的详细设计与实现毕业设计论文.docx

《网页正文提取系统的详细设计与实现毕业设计论文.docx》由会员分享，可在线阅读，更多相关《网页正文提取系统的详细设计与实现毕业设计论文.docx（23页珍藏版）》请在冰点文库上搜索。

网页正文提取系统的详细设计与实现毕业设计论文.docx

网页正文提取系统的详细设计与实现毕业设计论文

毕业设计（论文）原创性声明和使用授权说明

原创性声明

本人郑重承诺：

所呈交的毕业设计（论文），是我个人在指导教师的指导下进行的研究工作及取得的成果。

尽我所知，除文中特别加以标注和致谢的地方外，不包含其他人或组织已经发表或公布过的研究成果，也不包含我为获得及其它教育机构的学位或学历而使用过的材料。

对本研究提供过帮助和做出过贡献的个人或集体，均已在文中作了明确的说明并表示了谢意。

作者签名：

　　　　　日　期：

指导教师签名：

　　　　　日　　期：

使用授权说明

本人完全了解大学关于收集、保存、使用毕业设计（论文）的规定，即：

按照学校要求提交毕业设计（论文）的印刷本和电子版本；学校有权保存毕业设计（论文）的印刷本和电子版，并提供目录检索与阅览服务；学校可以采用影印、缩印、数字化或其它复制手段保存论文；在不以赢利为目的前提下，学校可以公布论文的部分或全部内容。

作者签名：

　　　　　日　期：

学位论文原创性声明

本人郑重声明：

所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。

除了文中特别加以标注引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写的成果作品。

对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。

本人完全意识到本声明的法律后果由本人承担。

作者签名：

日期：

年月日

学位论文版权使用授权书

本学位论文作者完全了解学校有关保留、使用学位论文的规定，同意学校保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。

本人授权　　　　大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。

涉密论文按学校规定处理。

作者签名：

日期：

年月日

导师签名：

日期：

年月日

摘要

随着互联网信息技术的不断发展，互联网的信息量也日益膨胀。

近年来，全球因特网上的信息数据正以爆炸式的速度在增长。

据IDC报告称，从现在到2010年，预计信息量将以每年57%的速度增长，在2010年信息总量将达到988EB（1EB=10亿GB），约为2006年的6倍，相当于有史以来所有书籍数字信息量的1800万倍。

面对如此巨大的互联网信息库，如何快速、有效、经济地检索到某个主题的所有相关信息就成了当前一个十分热门的研究课题。

这时，搜索引擎的出现无疑给人们带来了极大的方便。

然而，随着互联网信息的不断巨增和搜索引擎所覆盖网页范围的不断扩大，人们发现，即使是借助搜索引擎的帮助，他们也越来越难以有效和准确的找到自己所需要的信息资源。

本文在研究了现有的搜索引擎的解决方案后，通过采用一种统计网页特征的方法，将中文网页中的正文部分抽取出来。

该方法首先将网页表示成基于XML的DOM树形式，利用统计的节点信息从树中过滤掉噪音数据节点，最后再选取正文节点。

该方法相比传统的基于包装器的抽取方法，具有简单，实用的特点，试验结果表明，该抽取方法准确率达到90％以上，具有很好的实用价值。

关键词　中文信息处理；垂直搜索；信息抽取；正文提取

1.绪论

本章主要从介绍垂直搜索引擎的与海量搜索的区别，国内外该方向的研究情况，课题来源意义以及论文所要研究的主要内容来描述课题内容。

1.1课题背景

1.1.1搜索引擎的历史

最早现代意义上的搜索引擎出现于1994年7月。

当时MichaelMauldin将JohnLeavitt的蜘蛛程序接入到其索引程序中，创建了大家现在熟知的Lycos。

同年4月，斯坦福（Stanford）大学的两名博士生，DavidFilo和美籍华人杨致远（GerryYang）共同创办了超级目录索引Yahoo，并成功地使搜索引擎的概念深入人心。

从此搜索引擎进入了高速发展时期。

目前，互联网上有名有姓的搜索引擎已达数百家，其检索的信息量也与从前不可同日而语。

比如最近风头正劲的Google，其数据库中存放的网页已达30亿之巨！

随着互联网规模的急剧膨胀，一家搜索引擎光靠自己单打独斗已无法适应目前的市场状况，因此现在搜索引擎之间开始出现了分工协作，并有了专业的搜索引擎技术和搜索数据库服务提供商。

像国外的Inktomi（已被Yahoo收购），它本身并不是直接面向用户的搜索引擎，但向包括Overture（原GoTo，已被Yahoo收购）、LookSmart、MSN、HotBot等在内的其他搜索引擎提供全文网页搜索服务。

国内的XX也属于这一类（XX已于2001年9月开始提供公共搜索服务），搜狐和新浪网站使用的就是它的技术（搜狐二级网页搜索现已改为中搜的引擎，而新浪则已转用Google的搜索结果）。

因此从这个意义上说，它们是搜索引擎的搜索引擎[1]。

1.1.2搜索引擎的发展方向

互联网存在的价值就是低成本、高容量、多方的信息传递。

互联网每一个杀手级应用都离不开信息和传递这两个关键词。

邮箱是、即时通讯是、搜索引擎是、将来的杀手级应用还依然离不开信息和传递这两个关键词。

搜索引擎的发展历史是一个挖掘用户需求然后满足用户需求的过程。

在可以预见的不久的将来，从产品角度看待网页搜索引擎的发展大致有如下几个方面[1]：

（1）确解用户之意，信息抽取，优化排序

（2）基于视觉网页块分析

（3）网页库内容分类

（4）潜在相关性

（5）网页结构化信息抽取类技术，网页上文本内容的相关性分析

（6）自然语言处理、简单的语意语法分析

（7）重复识别

（8）行业优化

（9）采集更多的数据

（10）跟踪互联网变化，细节上的优化，博弈

1.1.3搜索引擎的最新技术发展

搜索引擎经过几年的发展和摸索，越来越贴近人们的需求，搜索引擎的技术也得到了很大的发展。

搜索引擎的最新技术发展包括以下几个方面[2]：

（1）提高搜索引擎对用户检索提问的理解

为了提高搜索引擎对用户检索提问的理解，就必须有一个好的检索提问语言，为了克服关键词检索和目录查询的缺点，现在已经出现了自然语言智能答询。

用户可以输入简单的疑问句，比如“howcankillvirusofcomputer？

”。

搜索引擎在对提问进行结构和内容的分析之后，或直接给出提问的答案，或引导用户从几个可选择的问题中进行再选择。

自然语言的优势在于，一是使网络交流更加人性化，二是使查询变得更加方便、直接、有效。

就以上面的例子来讲，如果用关键词查询，多半人会用“virus”这个词来检索，结果中必然会包括各类病毒的介绍、病毒是怎样产生的等等许多无效信息，而用“howcankillvirusofcomputer？

”，搜索引擎会将怎样杀病毒的信息提供给用户，提高了检索效率。

（2）对检索结果进行处理

1、基于链接评价的搜索引擎

2、基于访问大众性的搜索引擎

3、去掉检索结果中附加的多余信息

（3）确定搜索引擎信息搜集范围，提高搜索引擎的针对性

1、垂直主题搜索引擎

2、非WWW信息的搜索

3、多媒体搜索引擎

（4）提供更优化的检索结果

1、纯净搜索引擎

2、元搜索引擎

1.2课题来源、目的和意义

上世纪八十年代以来，全球信息量每隔20个月就增加近一倍。

一个不大的企业每天要生产100MB以上来自各方面的营业数据。

面对季度膨胀的信息量，人们受到“信息爆炸”，“混沌信息空间”和“数据过剩”的巨大压力。

信息爆炸带来了剧烈的市场变化。

展现在人们面前的已经不是局限于本部门、本单位和本行业的庞大数据库，而是浩瀚无垠的信息海洋。

因此，如何从海量信息中得到有用信息是大家共同关注的热点问题。

目前互联网领域主要的通用搜索引擎服务商如Yahoo、Baidu、Google等，为用户提供的都是横向的海量信息搜索。

他们可以满足大量信息的横向搜索、提供，但很难兼顾搜索的准确度与相关度的质量。

通用搜索引擎的价值在于在所大量的信息导航，对于信息需求相对集中、分类更加详细的行业客户缺乏想到。

垂直搜索引擎的产生正是有效的解决了以上通用搜索引擎无法满足的市场需求。

垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取，也就是将网页的非结构化数据取成特定的结构化信息数据，好比网页搜索是以网页为最小单位，基于视觉的网页分析师以网页块为最小单位，而垂直搜索是以结构化数据为最小单位。

然后将符合要求的数据存储到数据库，进行进一步的加工处理，如：

去重、分类等，最后分词、所以再以搜索的方式满足用户的需求。

整个过程中，数据由非结构化数据抽取成结构化数据，经过深度加工处理后以非结构化的方式返回给用户。

1.3主要研究内容

此次课题主要是通过对现在流行的几种垂直搜索技术进行研究，总结出开发垂直搜索引擎的一般模块及功能。

根据现有的搜索引擎的相关技术，设计并开发出一种高效准确的网页正文提取系统。

在设计开发的过程中，提取系统应体现自己的特点。

所以，本次设计的主要目标是建立一个由新闻信息结构化提取和检索为主要服务内容的新闻网页正文提取系统。

本次设计出来的网页正文提取系统所具有的特点是应用范围广。

该系统可以应用于网页去重，建立高质量的索引，获得准确的分类聚类结果以及为用户提供准确的文摘等。

研究的重点是合理的机内文本表示，寻找“发现”正文和噪声的方法，提取正文，去除噪声。

并针对网页表现形式多种多样，互联网网页源码风格差异较大等难点提出了解决方案。

2.网页正文提取系统的详细设计与实现

2.1基本原理

目前互联网上的大部分网页都是采用HTML格式，此格式采用大量的标签来控制网页显示的内容，例如，

标签用来定义表格，

标签用来进行文字分段。

HTML标签的书写格式比较自由，网页的表现形式也各种各样，因此不同的网页的链接等噪声信息和正文的呈现形式变化多样，只采用标签来进行正文提取难度较大。

因此根据中文新闻网页的特点，本文采用文献[4]提到的方法，利用中文标点符号定位正文所在标签，并针对此方法的不足，本文提出了利用中文标点结合链接数的方法定位包含正文的标签，然后利用中文标点及链接在每个子标签中的比例去除其中的噪声，准确提取正文内容。

针对有些网页尾部包含的无关链接的摘要噪声与正文形式类似的情况，本文发现正文块之间包含的链接个数较少，而正文与无关摘要噪声间通常相隔若干链接群的特点，提出了正文间最大链接数目的概念，可以有效去除正文后面跟随的无关链接的摘要信息，提高正文提取的准确率。

本文提取网页正文的方法分为两个步骤，首先利用网页的HTML内容建立符合W3C组织发布的DOM（DocumentObjectModel）标准的树形结构；然后遍历网页的DOM树的各个标签节点，利用中文标点和链接信息定位正文所在标签，对此标签内容进行二次抽取，提取出准确的正文内容。

系统的原理流程图如图2-1所示。

2.2网页预处理系统

2.2.1HTML标签规范化

由于HTML标签文法的自由性，导致许多网页的标签使用不规范，为网页处理带来了很大困难。

例如某些开始标签没有对应的结束标签，标签的嵌套顺序错乱等。

因此首先需要对网页的HTML标签进行规范化。

本文采用开源工具HTMLTidy来对网页进行规范化，形成利于处理的规范HTML网页。

下面就处理页面源码时遇到的情况分类说明。

（1）结束符丢失或不匹配的检测和纠正

heading

subheading

修改为

heading

subheading

（2）结束标记错位的纠正

hereisaparaboldbolditalicbold?

normal?

修改为

hereisaparaboldbolditalicbold?

normal?

（3）标题的修复

italicheading

newparagraph

这类错误将影响到标题的显示，字体的颜色、大小等达不到预期的效果。

修改为

italicheading

newparagraph

（4）标签的顺序错位

heading

newparagraphboldtext

somemoreboldtext

修改为

heading

newparagraphboldtext

somemoreboldtext

（5）将

匹配到正确的地方。
heading
sub
heading
修改为
heading
sub
heading
（6）在结束标签中丢失“/”
References
修改为
References
（7）列出丢失的标签
1stlistitem
2ndlistitem
修改为
1stlistitem
2ndlistitem
2.2.1建立网页的DOM树结构
当建立了规范的HTML网页后，就需要将网页建立成符合W3C组织发布的DOM标准的树形结构，以方便网页的处理。
本文采用开源工具TinyXml建立网页的DOM树。
建立网页的DOM树后，每一个HTML标签对应一个树节点，嵌套的标签利用子树表示，因此可以方便地对网页标签进行遍历和其它操作。
因为我们已经知道要抽取的正文是放在table中的，文献[11]告诉我们，这类问题应该采用基于树结构的解决方案。
所以，我们需要先把网页表示成一棵树。
由于网页结构的复杂性。
在把网页表示成一棵树之前，必须先对网页进行预处理，使其变为规范的网页。
规范网页的要求如下[12]：
（1）“〈”和“〉”只能用来包含网页标记（tag），当在其它地方出现这两个符号时应该用“<”和“>”代替。
（2）所有的标记必须匹配。
即每个开始标记都对应一个结束标记。
（3）所有标记的属性值都必须放在引号中。
如〈ahref=“www.w3c.org”〉。
（4）所有的标记必须是正确嵌套的。
如〈a〉⋯〈b〉⋯〈/a〉⋯〈/b〉是不正确的嵌套。
正确的嵌套形式应该是〈a〉⋯〈b〉⋯〈/b〉⋯〈/a〉。
经过规范的网页可以很容易的根据其中HTML标记把它表示成一棵树，树中的每个结点包含了一对标记间的所有字符，结点的名字为对应的标记的名字。
2.3核心算法基本思想
经观察发现，新闻类的网页的正文绝大部分都包含在

、
和
标签中，其中

和
标签一般包含正文的主体部分，
中包含正文的剩余段落，而且正文中含有较多中文标点而含有较少的链接（标签）。
因此本文先利用中文标点和链接信息来定位最可能包含正文部分的标签，然后对这些标签下的内容进行筛选，提取出正文内容。
算法的具体步骤如下[12]：
（1）去除包含噪声的树节点
有些HTML标签不会包含正文内容，如下拉表单标签