排序算法论文搜索引擎论文.docx

资源描述

排序算法论文搜索引擎论文.docx

《排序算法论文搜索引擎论文.docx》由会员分享，可在线阅读，更多相关《排序算法论文搜索引擎论文.docx（7页珍藏版）》请在冰点文库上搜索。

排序算法论文搜索引擎论文.docx

排序算法论文搜索引擎论文

摘要：

该论文首先介绍了搜索引擎的三种基本排序算法，然后介绍了中文词性标注的原理和算法，本文重点是将词性标注原理引入到了搜索引擎的应用中，从输入的索引词着手，提出了运用词性分类优先的方法来影响索引文档的排序，即不同词性给予不同的优先级，根据优先级大小依次筛选文档，进而提高索引精度。

该方法是在牺牲有效性的基础上提高索引可靠性的。

关键词：

排序算法；搜索引擎；词性标注

speechclassificationpriorityapplicationinthesearchengine

zhangjingchun1,guanshixue1,2,mayuan1

（1.lanzhouuniversity,collegeofinformationscienceandengineering,lanzhou730000,china;2.pla66483troops,beijing100093）

astract:

thepaperfirstintroducesthreebasicsearchenginerankingalgorithms,andthenintroducestheprincipleandalgorithmsofchinesepartofspeechtagging.thispaperfocusontheindexwordsandputsemphasisontheintroductionofthespeechtaggingprincipletoasearchengineapplication,andmakesuseofpartofspeechclassificationmethodtoinfluencetherankingofindexeddocuments,thatis,differentpartsofspeecharegivendifferentpriority.accordingtothepriorityorderoftheindexedwordsthedocumentsareselectedinorder,andthentheindexingaccuracyisimprove.thismethodisbasedontheexpenseofspeedtoimprovethereliabilityofindex.

keywords:

sortingalgorithm;searchengine;partofspeechmark

一、引言

搜索引擎的功能实现分为两大部分，搜集子系统和检索子系统[1]，检索子系统主要对抓取来的网页进行索引，并为用户提供高质量的检索服务。

其中输出列表采用的排序算法直接影响着检索的质量，是检索能力的决定性因素。

十几年间人们一直在不断探索各种文档的排序算法，有基于词频与位置加权的排序，基于超链分析的排序，基于文档结构的排序，以及多种算法的改进与融合。

但总体上看，目前的排序算法主要是在被索引文档方面展开研究的，用户输入关键词仅作为一次搜索的引子。

本文在以上考虑的基础上，引入词性标注和权值门限两个概念。

从索引词的输入端着眼，提出了关键词词性分类优先的方法，旨在进一步影响检索系统的网页输出列表。

二、排序算法

（一）基于词频与位置加权的排序算法

基于词频与位置加权的排序算法源自于传统的信息检索中的文本文档加权标引算法[2]，关键词在文档中的地位由两个方面决定，一个是词频因子，指词在文档中出现的频次，频次越高，该词的权重越高；二是逆文档频率因子，指的是包含该关键词的网页越多，这个词就越不重要。

同时由于关键词在web文档中出现的位置不同，对文档的影响力也是截然不同的。

一般来说，处于标题（title）、摘要（summary）、头段与尾段以及每段段首句的词更能准确地表达整个文档的主旨，自然它们的权重设置也要适当提高，我们把这种调整称为位置加权。

综合考虑以上因素，通过合理的计算就可以得出关键词在网页的权值。

在检索过程中，系统会分析用户输入的索引词与系统内所存文档中关键词的匹配程度，从而得出整个web文档集的排序[3]。

（二）pagerank算法

pagerank算法是由google创始人之一larrypage，于1998年在斯坦福大学就读博士研究生期间和sergeybrin提出的基于网络链接分析的排序算法[4]。

pagerank不是简单地计算一个网页的链接数量（包括链向此网页和由此网页链出的超链数量）来确定网页重要程度的，而是采用了如下算法：

假设a为一个网页，链向它的网页分别为t1、t2、…tn，从a链出的网页仅计算其链接数量设为c（a）；参数d是取值0到1的阻尼系数（也叫规范化因子，通常取0.85较为合适），网页a的pagerank值是：

pr（a）=（1-d）+d（pr（t1）/c（t1）+...+pr（tn）/c（tn））=（1-d）+

（1）

pagerank算法被提出后，人们在此基础上又提出了多种改进的算法。

有topic-sensitivepagerank[5]、加速评估算法[6]和其它一些改进算法，分别对pagerank算法的不足进行了相应的修改补充。

（三）hits算法

hites（hyperlink-inducedtopicsearch）算法是与pagerank算法同期由康奈尔大学的kleinberg提出的[7]，它是一种基于web结构挖掘的算法。

算法认为网页页面有两个方面的属性，一个是权威性（authority），被其它网页指向的属性，用a（t）表示；另一个是中心性（hub），指向其它网页的属性，用h（t）表示。

权威性a（t）用指向自己的网页ta的中心性h（ta）衡量，中心性h（t）用自己指向的网页tb的权威性a（tb）衡量，a、b为自然数。

如下：

（2）

（3）

其中，m、n分别为对应的网页数量。

由公式可以得出，权威性和中心性是相互作用的，高权威性网页是由很多高中心性网页所链接的，同时高中心性网页也必然链向很多高权威性网页。

用户查询过程中，系统首先根据输入的关键词得到最相关的一组网页集合形成根集，再对其进行上下扩展，增加它所链接的和链向它的网页地址。

然后通过根集特征与扩展集特征的对比，完成对扩展集内网页的筛选，去掉不相关和差别较大的网页。

最后计算扩展集内网页的权威值和中心值，并依据此值进行排序[8—9]。

从总体上看，上述排序算法无论是基于内容或是基于链接，还是从结构上考虑，都是从网页角度分析计算来提高排序质量的。

那么我们是否可以换一个方向，从关键词词性上分析能否提高排序质量呢?

　　三、词性标注

词性标注指在给定句子中判定每个词的语法范畴，确定词性并加以标注的过程[10]。

具体指的是，在机器对自然文本分词处理后，根据每个词所在文本中的位置和上下文的关系，分析、计算并确定所得词的词性，为信息检索提供基础。

词性标注过程对于非兼类词（单性词）容易实现，对于兼类词（一个词在不同的语境中呈现不同的词性）则存在着一定的难度。

词性标注的方法主要有基于规则【greeneandrubin，1971】【brill，1993】和基于统计【bahlandmercer，1976】【kempe，1993】两大类，在基于统计的方法中，隐马尔可夫模型（hiddenmarkovmodel简称hmm）是最主要的算法模型之一【11】。

（一）基于规则方法

核心思想是计算机根据具体的上下文结构框架，套用语言学家总结的语言学规律来判定兼类词的词性【12】。

例如，对“作风整顿”中的“整顿”一词进行分析，整顿在词典中判定为兼类词——名词、动词。

依据语言规律，在“作风整顿”中，名词后跟名词，“整顿”为名词；在“整顿作风”中，名词前为动词，所以“整顿”为动词。

这种方法所依赖的规则库是封闭的系统，所以正确率比较低，只能达到77%[13]。

（二）基于统计方法

在统计的方法中，计算机是在对大量自然语料的统计计算基础上自动生成的规则。

其基本思想是，制定词的标志集，选取部分自然语料进行人工词性标注，再利用统计理论进行运算得出统计规律，然后依据统计规律建立统计模型，计算机根据统计模型进行词性标注[12]。

其中应用较为广泛、效果较好的是隐马尔可夫模型。

隐马尔可夫模型是在马尔可夫模型的基础上发展起来的，属于马尔可夫链的一种。

此模型是一个双重随机过程，可观察事件的随机过程是隐蔽的状态转换过程的随机函数[14]。

在词性标注应用中，隐马尔可夫模型应用十分广泛。

假设词的序列w=｛w1，w2，……wn｝作为观察序列，可能的词性序列t=｛t1，t2，……tn｝，作为隐含的状态序列。

目的是得到一个t使得p（t|w）最大，用t*表示。

根据贝叶斯定理：

（4）

（5）

（6）

上式中表示词性为的词的概率，表示词性到词性的转移概率。

四、词性分类优先的应用

当用户输入的索引词为多个，或者输入一个句子并完成分词后，传统的搜索引擎默认关键词之间是and关系，多个关键词之间不存在主次。

那些对用户来说不重要的关键词可能会在输出文档列表顺序中产生了重要作用，干扰了整体的排列顺序。

本文提出了通过区分词性的方法对得到的所有关键词进行比较，在文档排序过程中，凡是涉及到关键词的部分，不再采用简单地关键词权值相加，而是根据关键词词性的优先级逐层析出的方法来干预排列。

设用户输入的索引词为q1，q2，q3……。

搜索引擎根据索引词得到了一个网页集合为p=｛p1，p2，p3，……pn｝，第i个网页内关键词集合为ki={ki1，ki2，ki3……kin}，因此ki中至少包含以上索引词中的一个。

根据词性标注算法标注以上所有索引词的词性，在汉语中词性包括：

名词、动词、形容词与副词、介词、代词、数词、量词，其它如叹词、拟声词、助词不列为关键词。

这里人为设置词性优先顺序为：

名词、动词、形容词与副词、数词、量词、代词、介词。

把相同词性的关键词作为一个训练项t（各同性词的权值相加作为训练项的权值），因此可以得到七个训练项。

当不包含某个词性的关键词时，就没有这个词性的训练项。

在得到的网页集合p内，判断每个网页内关键词是否包含全部索引词，将全部包含的网页作为一个子集s=｛p1，p2，……pm｝，部分包含索引词的网页作为一个子集s’={p1，p2，……pr}，其中m+r=n。

在s内，计算每个网页中训练项各自的权值，并做归一化处理（此处理在现有的搜索引擎中已经得到成熟应用），记为w1pi，w2pi，w3pi……wnpi（），分别对应着t1，t2，t3……tn在网页pi内的权值。

算法中，依据词性的优先级别进行分层计算，并在每一层中设置阀值v（0v3，w4v4）无法通过关键词权值和比较，这也是由词性优先造成的，从而使得pi排在了pj的前面，这样的结果对用户来说某种程度上提高了排列精度，更接近用户满意度。

　　本文提出的方法是从用户界面看搜索引擎系统的，其应用必须和现有的排序算法结合起来使用，并且此方法延长了索引时间，牺牲了有效性。

在未来搜索引擎的发展方向上，追求智能、精确和速度是我们的目标，需要更进一步地探索研究。

参考文献：

[1]李晓明.搜索引擎——原理、技术与系统[m].科学出版社

[2]张春元,康耀红,伍小芹.web信息检索排序算法研究[j].海南大学学报第27卷2009年3月

[3]常璐,夏祖奇.搜索引擎的几种常用排序算法[j].图书情报工作,2003年第6期

[4]sergeyb.lawrencep.theanatomyofalarge-scalehypertextualwebsearchengine[j].http:

//infolab.stanford.edu/backrub/google.html

[6]taherh.haveliwalatopic-sensitivepagerank[j].stanfordsciencedepartmentstnford.ca94305

[7]张岭,马范援.加速评估算法:

一种提高web结构挖掘质量的新方法[j].计算机研究与发展vol.41，no.1jan.2004

[8]j.m.kleinberg.authoritativesourcesinahyperlinkedenvironment[j].ofacm1999http:

//www.cs.cornell.edu/home/kleinber/auth.pdf

[9]陈洁惠.搜索引擎排序算法的研究[d].河海大学,2007年

[10]郭鸿,周娅.web结构挖掘中hits算法的改进[j].信息与纵横,2009年第16期

[11]刘颖.计算机语言学,北京商务出版社[m].2000

[12]helmuts.probabilisticpart-of-speechtaggingusingdecisiontrees[j].universitystuttgart

[13]陈晓文.自动词性标注方法比较[j].温州大学学报vol19,no1feb2006

[14]刘开瑛.中文文本自动分词和标注[d].北京商务出版社,2000

[15]张卫.中文词性标注的研究与实现[d].南京师范大学,2007年

[作者简介]张景春：

兰州大学信息科学与工程学院，副教授硕士生导师，网络安全；

展开阅读全文