计算机专业学年论文基于移动Agent的网络信息检索技术研究.docx

资源描述

计算机专业学年论文基于移动Agent的网络信息检索技术研究.docx

《计算机专业学年论文基于移动Agent的网络信息检索技术研究.docx》由会员分享，可在线阅读，更多相关《计算机专业学年论文基于移动Agent的网络信息检索技术研究.docx（14页珍藏版）》请在冰点文库上搜索。

计算机专业学年论文基于移动Agent的网络信息检索技术研究.docx

计算机专业学年论文基于移动Agent的网络信息检索技术研究

学年论文

题目：

基于移动Agent的网络

信息检索技术研究

学院：

计算机科学与工程学院

专业：

计算机科学与技术

班级：

学生姓名：

学号：

指导教师：

二零一三年六月六日

基于移动Agent的网络信息检索技术研究

摘要

随着Web技术的迅速发展和日益普及,互联网已成为人们获取信息最重要的途径,其规模也正以惊人的速度在增长。

但是由于现有搜索引擎在运行原理!

检索机制!

系统组织结构等方面固有的特点,使得它虽然在一定程度上缓解了人们搜索信息的难题,但还存在着一些缺点和不足。

因此,改善传统的检索模式,使网络信息检索系统能更迅速准确地查找到所需的信息,减少网络的通讯量,成为研究的热点。

移动Agent技术和跨平台语言的出现,为解决Web信息服务中的网络传输和信息检索展示了新的方法。

随着互联网的飞速发展,想要获取有用的信息变得非常困难。

迁移策略是移动Agent（MobileAgent,MA）的核心技术之一,MA的效率很大程度上取决于迁移策略的优化。

本文利用移动Agent改进遗传算法,提出了一种新的移动Agent迁移策略选择,该算法在检索目的性和效率上都有所提高,以及利用多个Agent共同来完成检索任务，通过该模型获得最优的任务分配的策略。

在对移动Agent的研究基础上,设计开发了一个基于移动Agent信息检索系统,较好的解决了大量数据在网络中传输对网络资源的浪费和提高搜索效率的问题。

关键词:

搜索引擎、智能信息检索、Agent

BasedontheAgentinformationretrievaltechnologyandresearch

Abstract

WiththerapiddevelopmentandincreasingpopularityoftheWebtechnology,theInternethasalreadybecomethemostimportantwaypeoplegetinformation,itssizeisalsogrowingatanalarmingrate.Butbecausetheexistingsearchengineintheworks!

Retrievalmechanism.Systeminherentcharacteristicsoforganizationstructure,makeittoacertainextent,easetheproblemsofpeopletosearchinformation,butstillexistsomeshortcomingsandtheinsufficiency.So,improvethetraditionalretrievalmode,makethenetworkinformationretrievalsystemcanmoreaccuratelyfindtheneededinformationquickly,reducetheamountofcommunicationnetwork,isbecomingahotspotofresearch.

MobileAgenttechnologyandtheemergenceofcross-platformlanguage,tosolvethenetworktransmissionofWebinformationserviceandinformationretrievalshowthenewmethod.WiththerapiddevelopmentoftheInternet,wanttomakeitdifficulttogetusefulinformation.MigrationstrategyisthecoreofthemobileAgent（MobileAgent,MA）technology,oneofMAefficiencydependslargelyonthemigrationstrategyoptimization.BasedonmobileAgentimprovedgeneticalgorithm,thispaperproposesanewmobileAgentmigrationstrategychoice,thealgorithmontheretrievalpurposeandefficiencyareimproved,andtheuseofmultipleAgenttocompletetheretrievaltasktogether,throughthemodeltoobtaintheoptimaltaskallocationstrategy.

BasedontheresearchofmobileAgent,designedanddevelopedamobileAgentbasedinformationretrievalsystems,andbettersolvesthelargeamountsofdatatransmissioninthenetworkwasteofnetworkresourcesandimprovethesearchefficiency.

Keywords:

searchenginesandintelligentinformationretrieval,theAgent

第一章引言-1-

第二章网络信息检索-2-

2.1网络信息检索技术-2-

2.2网络信息检索的工作原理-2-

2.3网络信息检索的关键技术-3-

第三章基于移动Agent的网络信息检索-5-

3.1Agent技术简介-5-

3.1.1Agent基本特征:

-5-

3.1.2Agent的分类-6-

3.2基于Agent网络信息检索的技术-7-

3.3基于Agent的网络信息检索的算法实现-8-

3.4基于移动Agent的网络信息检索模型-9-

参考文献-13-

致谢-14-

第一章引言

智能检索是由抽词检索与全文检索发展而来，它以检索词的相关度为基础，是对检索词具有较高的判断能力、理解能力和处理能力的人工智能型的检索系统。

利用分词词典、同义词典，同音词典等来改善用户的输入，此种系统还能对文本资料进行语言学意义的理解，当用户查询时，对查询语句进行理解，然后再对文本进行语义上的概念匹配。

Agent理论技术研究始于20世纪80年代末，它从分布式人工智能领域拓展开来并与许多其他领域相互借鉴与融合。

对Agent的定义：

Agent是一个具有适应性和智能性的软件实体，能代表用户或其他程序以主动服务方式完成一项工作。

它封装了有独立功能的模块，包括自己的数据和能对这些数据惊醒操作的算法，能接受和处理其他Agent发送来的消息，也能向其他Agent发送消息。

是一个有独立解决问题能力，并随环境变化而变化的实体。

近几年智能信息检索作为人工智能的一个独立研究分支得到了迅速发展，而面对Internet技术的快速发展和网络信息的骤增，如何获取有效信息成为检索研究领域的主流课题。

Agent技术正是在这一背景下应运而生，它与智能检索相结合提高了检索技术的智能化，促进人机交互，使信息的收集、过滤、聚类和信息融合更有效率。

在Agent技术的应用网络信息检索系统中，它可以将基于用户的检索要求多个Agent移动到远程的Web站点等信息数据源上，实时的进行本地信息分析，然后通过网络传输用户得到真正需要的索引信息。

第二章网络信息检索

Internet上的信息资源爆炸性增长除了给人们带来丰富的信息之外,同时也由于其信息量的无限扩张,是人们难以准确的获得特定的信息,在面对如此庞大的网上信息资源使人们感到迷茫,对信息资源的有效利用带来了极大的不便,搜索引擎的出现正是为了解决这种问题。

本章讨论web信息检索的发展过程,重点论述搜索引擎的分类和工作原理,指出现有各类搜索引擎的存在的缺点及目前要解决的问题。

2.1网络信息检索技术

网络信息检索一般指因特网检索，是通过网络接口软件，用户可以在一终端查询各地上网的信息资源。

这一类检索系统都是基于互联网的分布式特点开发和应用的，即：

数据分布式存储，大量的数据可以分散存储在不同的服务器上；用户分布式检索，任何地方的终端用户都可以访问存储数据；数据分布式处理，任何数据都可以在网上的任何地方进行处理。

2.2网络信息检索的工作原理

典型的Web信息检索系统的基本结构图2.1所示,从图2.1可以看出搜索引擎的原理,可以看成三步:

从互联网上抓取网页建立索引数据库在索引数据库中搜索排序。

当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。

因为所有相关网页针对该关键词的相关度已经算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。

这样,网页的具体内容和变化情况就会反映到用户查询的结果中。

图2.1网络信息检索系统的基本结构

2.3网络信息检索的关键技术

Web信息检索系统的设计思路和具体实现各不相同,不同的搜索引擎涉及到一些类似的关键技术:

文档搜集,文档预处理,索引数据库建立以及相似度计算和排序。

其中文档搜集和预处理是web信息检索的基础工作,索引数据库的建立以及相似度计算和排序是信息检索的核心技术,它们决定了检索算法和检索效率。

（l）文档搜索集

对于搜索引擎来说,要搜索所有的网页几乎是不可能的,从目前公布的数据来看,搜索的最大容量也不过是整个网页数量的40%左右,这主要是因为搜索技术的瓶颈以及存储技术和处理技术的问题。

如果数据量很大,也会影响效率,因此,Robot只是搜索那些重要的网页,而在网页重要性方面主要的依据是某个网页的链接深度。

Web的结构类似于有向图,我通常利用广度优先或深度优先进行遍历。

（2）文档预处理

文档预处理包括对搜集网页文档进行过滤,分词,转化等。

搜集到的网页包括图片、址ml、doc、多媒体、PDF、动态网页等。

然后从这些文件中提取文本信息,建立索引。

能否准确的提取文档信息,一方面影响着搜索准确性,另一方面对于Robot跟踪其他链接也有一定的影响。

过滤标识符不难,但是识别信息时,需要同步记录许多版本信息,同时也需要过滤掉一些无用的链接。

（3）索引数据库的建立

经过文档处理,需要对文档的表示建立索引。

面临庞大的用户检索需求,这就要求检索方法要高效,所以,我们尽可能的把大量的运算量在索引建立时完成,因此.索引结构的质量关系到系统的性能。

（4）相似度计算与排序方法

搜索引擎的出现就是为了满足用户的检索需要,能否与用户检索需要的最相关的高质量文档纳入结果排序的前面是衡量搜索引擎性能的关键技术。

目前,不同的引擎有着不同的相关度排序方法,其中有两种比较流行:

词频统计法,即文档中查询词出现的频率越高,其排序越靠前;超链接分析法,即一个网页链接次数越多而且链接的站点越权威质量就越高。

第三章基于移动Agent的网络信息检索

3.1Agent技术简介

智能软件agent是能为用户执行特定的任务、具有一定程度的智能以允许自主执行部分任务并以一种合适的方式与环境交互的软件程序。

软件agent技术是为解决复杂、动态、分布式智能应用而提供的一种新型的计算机手段。

智能软件agent的属性如图3.1所示:

图3.1智能Agent属性

3.1.1Agent基本特征:

（1）代理性:

Agent最基本的功能是代理。

用户或软件完成某些任务，如代理用户查找Internet上的信息,代理软件与其他软件进行通信。

（2）主动性:

Agent的代理功能是根据用户的需求或当前的环境状态以主动服务方式提供的。

例如,网络监控Agent将主动报告网络资源的使用现状。

（3）自主性:

要保证Agent的主动性,则Agent本身应该是一独立自主的计算实体。

它能根据当前动态变化的环境状态,在无需外界参与的情况下,独立地发现和利用完成任务所需的资源和服务,独立地制定完成任务的规则,最终实现规划、达到目标。

例如,若一组自主的Agent协同完成工作流管理,当某个Agent的意图临时改变时,则其他Agent要能重新制定完成任务的规划。

（4）智能性:

自主性的实现需要Agent具有相关的知识、能够进行相关的推理或智能计算。

此外,当用户的需求没有明确给出时,Agent能够推测用户的意图、爱好或兴趣并为其代劳。

Agent还能从经验中不断学习,以提高自身处理问题的能力。

这些都说明Agent具有较高的智能例如,Agent代替用户在网上购物时,可以根据用户的爱好或消费水平,挑选用户喜爱的的推理或智能计算。

（5）交互性:

如果把各种计算资源（包括人）都包装成Agent,各个Agent都有标准的外部接口,采用统一的通信语言进行信息交流,则多个Agent可以通过相互协商和协作来共同完成复杂的任务。

而且,各种Agent可以作为标准构件,接插到一个通用的集成框架中构造多Agent系统,可以实现电子商务、CIMS等诸多应用。

（6）机动性:

Agent是计算机用户的代理秘书,能够随计算机用户的移动而移动,不管是地理位置的移动还是计算位置移动（如URL的改变）。

例如,便携机的用户移动到另一个地方,他在Internet上的主机地址也随之改变,这时他可以通过他的个人移动Agent与当地服务器相连,实现在Internet上的即插即用。

以上这些Agent技术特性将在Internet的开发中得到充分应用,并使Agent成为Internet上的核心技术之一。

3.1.2Agent的分类

由于Agent的定义不统一,各个领域的研究者都把具有某些Agent属性的研究对象称为某类Agent。

因此,为明确这些Agent的具体含义,必须根据Agent的不同功能和特性对Agent进行分类。

本文对这些Agent进行归类总结,并解释它们的具体含义。

Agent可分为人类Agent、硬件Agent和软件Agent,如图3.2所示,本文研究的重点是软件Agent。

图3.3中列出了在文献中经常提到的一些Agent类型圈。

图3.2一般agent分类

图3.3软件Agent分类

由于移动agent可以在异构的软、硬件网络环境中自由移动,因此这种新的计算模式能有效地降低分布式计算中的网络负载、提高通信效率、动态适应变化的网络环境,并具有很好的安全性和容错能力。

3.2基于Agent网络信息检索的技术

由于Web服务器端有综合性知识库,因此为智能Agent的活动提供了基础。

Agent能够从用户日常的检索、浏览等行为中学习用户的兴趣,推理用户的需求,为每个用户建立个性化的文档集,能够主动地根据用户的兴趣需求从Web上检索相应的信息,甚至能够监控信息源的变化,及时地报告给用户。

Agent可用几种方法学习用户的行为:

l观察用户执行的动作,找出规律。

2接受用户直接或者间接的反馈。

3接受用户训练,从用户直接给出的例子中得到知识。

4询问其它具有同样工作的Agent,信息检索agent之间可以共享和交流信息,实现协作式信息检索。

Agent需要掌握的知识有三类:

用户特征,包括用户经常性的网络行为特征和对信息需求的特征;主题词与关联词,包括与主题词内涵相同的近似性关联词和对主题词外延加以限制的限制性关联词;结果信息,它存放在用户信息库中,用于分析用户对它的满意程度以及访问频度。

Agent还能够移动到远程服务器上,并在服务器上进行信息检索,以避免将信息下载到客户端。

基于Agent网络信息检索系统具有以下优势：

（1）执行动态方式

基于Agent的网络信息检索系统，Agent动态地将用户请求移动在网络节点上执行，移动Agent可以在节点的搜索信息使用过滤器。

然后用户真正所需的信息通过网络输送回来，避免了网络传输回大量的无关数据。

由于Agent的网络信息传输和信息搜索处于分开状态，所以大大降低了网络流量，降低了对带宽的要求。

（2）计算异步能力

Agent是在服务器上执行，因此只需要传输源码、数据和操作状态的信息网络时确保稳定的网络连接，而在服务器上的信息过滤、搜索等占用大量时间的操作则不需要连接网络。

这使得基于多Agent的信息检索系统对网络可靠性的依赖也大大降低，即使是在一个不稳定的网络环境下仍能保证稳定的工作。

（3）并行搜索功能

该系统可以创建多个Agent到相同或不同的网络节点进行搜索，从而大大降低了时间来完成搜索任务。

从信息检索的现状出发,运用人工智能技术,提出一种基于Agent的信息检索方法..通过建立用户个性化信息表,辅助过滤Agent在信息提取过程中的精确性,弥补了现有系统在自适应用户兴趣和交互方式等方面的不足.

3.3基于Agent的网络信息检索的算法实现

Agent信息检索的目标是发现与用户兴趣相接近的文档,并不要求搜索整个网络,搜寻整个网络对个人用户而言,代价太大,而且也不能达到很好的效果。

通过对不同引擎搜索方法的分析,结合我们Agent的具体应用环境和面向个人用户的特点,我们采用的策略为:

有限深度一广度优先的搜索算法,沿着与用户所要求的内容接近的文档中的链接搜索,这与沿任意链接搜索相比,找到相关文档的可能性要大些,也与人们浏览Web文档的方式一致。

为了实现这种策略,采用算法具体如下:

1.链接现有网络搜索引擎,从引擎中搜索满足用户要求的网址,返回到本地,并按公式进行优先级排序,优先级高的网址将在下面步骤优先得到处理;

P=Sum（intexist（stringx,stringURL））

其中:

x代表各个引擎,如果某URL存在于对应此引擎返回的搜索结果集中,则函数exist（x,URL）返回整数l,否则返回0;Sum（inty）为求和函数;P越大,表示此URL的优先级越高。

2.按优先级高低,把URL传递给网页下载模块下载对应网页;

3.调用信息过滤算法,提取网页的关键词向量,跟Agent的关键词向量进行比较,如果相似度达到一定程度,则保存此网页,并提取此网页中的URL,存入未处理的网址库中,否则抛弃此网页;

4.如果未处理网址库中还有待处理网址,则转2循环;如果未处理网址库中没有待处理网址,或者己发现足够多的相近文档,或者搜索已经达到一定的时间,则停止搜索。

在上述算法中的循环,我们实际上采用了有限区域深度一广度优先搜索的递归方法。

使用这种方法,系统既可以有一定的搜索深度,又有一定的搜索广度。

在一般情况下,Agent采用有限深度优先的搜索方法,但当它找到有价值的页面时,如果系统资源允许,它又尽可能的采用广度优先的方法。

3.4基于移动Agent的网络信息检索模型

移动Agent的出现改变了现有的传统web信息检索模式的弊端,由于robot不能移动,所以必须将远程web站点上的内容全部或者部分下载到本地,然后才能进行索引处理。

由于下载的页面中有许多无用的或暂时的信息,势必会影响索引速度,同时也增加了网络流量,浪费了网络通信资源。

移动Agent取代了以前的静态Robot,它负责移动到Web站点进行信息检索,并返回检索结果。

基于移动Agent的网络信息检索系统具有下列优势:

动态执行方式;异步计算能力;自主选择路由;并行检索能力。

基于移动Agent的web信息检索系统一般包括用户Agent,移动Agent服务器,检索Agent,黄页服务器。

其体系结构如图3.4所示。

用户Agent在信息检索之前,对创建的Agent进行状态,知识库,约束条件等进行初始化。

它一方面将用户兴趣模型,分类信息库等写入知识库中。

另一方面可以跟踪用户行为,学习、记忆用户兴趣,进入知识库管理,通过这种方法可以人工干预系统中机器学习用户兴趣过程中的不完善的地方,增加用户感兴趣的信息,删除对用户没用的信息,以弥补机器学习推理机制的不足,同时也可加快机器学习的过程系统的工作流程如下:

图3.4基于移动Agent的网络信息检索系统体系结构

（1）Agent初始化以后,各web站点向黄页服务器注册,黄页服务器根据web站点的性质对其进行分类。

（2）访问检索服务器中服务Agent提供的检索页面,然后将检索请求提交给服务Agent。

web服务Agent得到用户的检索请求后,查询黄页服务器,找到与检索请求相关的主机,并将黄页服务器返回的主机地址组成系统检索的地址列表。

Web服务Agent确定地址列表后,创建检索Agent。

（3）使用检索Agent移动到网络中完成检索.检索Agent根据Web服务Agent传递给它的参数初始化后,开始检索周期,自主地在地址列表给出的主机间移动并进行检索。

检索Agent到达serverA后,采用TFIDE一个改进算法识别服务器上的资源。

（4）ServerA搜索完毕以后,检索Agent根据路由策略,约束条件,网络状态和服务器负载等条件决定下一要移动的ServerB,到达该服务器后,对共享资源进行检索,找到符合用户的检索请求信息,并保存检索结果,然后继续按照路由策略移动到下一个主机进行检索,直到检索完地址列表中的所有主机。

（5）检索Agent将检索结果返回到查询服务器,将结果提交给Web服务Agent后,自身消亡,结束整个检索周期。

当然,通过检索返回结果中的相应有效信息也可自动的对知识库进行修改和更新。

积累学习经验和知识,不断改进,Agent的适应性或进化性,推理、规划能力在此得以体现。

以上是基于移动Agent的网络信息检索的整个流程,它可以带着用户的请求到服务器上去运行,并且可以根据路由策略,在站点之间进行移动,检索完成后,将结果返回给用户,避免大量数据在中间传输,对带宽的利用率提高了。

本章主要介绍了网络信息搜索Agent:

该模块通过查询代理与Internet上的搜索引擎实现连接,当搜索引擎搜索到的网址不够多或不能满足用户要求时,系统又可启用自身的搜索工具,采用有限区域深度一广度优先的算法进行自主搜索,从而提高了搜索的效率。

总结

现有的搜索工具都是运用传统的c/s模式,把远程主机的页面拉到本地进行检索,这种模式耗费了大量宝贵的网络带宽"将移动Agent技术应用到网络信息检索中,可以根据用户的检索请求,将携带用户任务的移动Agent从网络中的一个节点迁移到另一个节点,在信息源端执行,并行地进行本地的信息分析,然后将用户真正需要的索引信息通过网络传输回来,从而避免了大量中间结果在网络中的传输,而且可利用移Agent的适应性可根据环境的变化自主地做出决定。

本文将移动Agent技术应用到网络信息检索中去,开发设计了一个基于移动Agent的web信息检索系统。

通过以上的研究分析,可以看到,移动Agent技术应用于网络信息检索服务可以解决网络信息检索服务在实际应用中遇到的许多关键性问题。

（1）利用移动Agent的动态适应性改进遗传算法,并将改进的算法应用到移动Agent迁移策略的选择上,用户在检索目的性上,还是效率上都有所提高。

（2）本文利用移动Agent的主动性,基于当前的知

展开阅读全文