天网搜索引擎设计概述.docx

上传人:b****1 文档编号:2878869 上传时间:2023-05-04 格式:DOCX 页数:44 大小:202.55KB
下载 相关 举报
天网搜索引擎设计概述.docx_第1页
第1页 / 共44页
天网搜索引擎设计概述.docx_第2页
第2页 / 共44页
天网搜索引擎设计概述.docx_第3页
第3页 / 共44页
天网搜索引擎设计概述.docx_第4页
第4页 / 共44页
天网搜索引擎设计概述.docx_第5页
第5页 / 共44页
天网搜索引擎设计概述.docx_第6页
第6页 / 共44页
天网搜索引擎设计概述.docx_第7页
第7页 / 共44页
天网搜索引擎设计概述.docx_第8页
第8页 / 共44页
天网搜索引擎设计概述.docx_第9页
第9页 / 共44页
天网搜索引擎设计概述.docx_第10页
第10页 / 共44页
天网搜索引擎设计概述.docx_第11页
第11页 / 共44页
天网搜索引擎设计概述.docx_第12页
第12页 / 共44页
天网搜索引擎设计概述.docx_第13页
第13页 / 共44页
天网搜索引擎设计概述.docx_第14页
第14页 / 共44页
天网搜索引擎设计概述.docx_第15页
第15页 / 共44页
天网搜索引擎设计概述.docx_第16页
第16页 / 共44页
天网搜索引擎设计概述.docx_第17页
第17页 / 共44页
天网搜索引擎设计概述.docx_第18页
第18页 / 共44页
天网搜索引擎设计概述.docx_第19页
第19页 / 共44页
天网搜索引擎设计概述.docx_第20页
第20页 / 共44页
亲,该文档总共44页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

天网搜索引擎设计概述.docx

《天网搜索引擎设计概述.docx》由会员分享,可在线阅读,更多相关《天网搜索引擎设计概述.docx(44页珍藏版)》请在冰点文库上搜索。

天网搜索引擎设计概述.docx

天网搜索引擎设计概述

一个海量ftp信息的搜集与服务系统的设计与实现

---陈华2001.6.10

摘要

在因特网上对众多FTP站点进行快速的文件条目查找,是网络信息搜索的重要组成部分。

本文以“天网”FTP搜索引擎为例,介绍了千万级基于WEB的强大的FTP搜索引擎的设计与实现,并重点分析了系统所采用的关键技术和方法。

关键词FTP,搜索引擎,WWW

●Abstract

FTPSearchEngineisapowerfultooltosearchusefulfilesforusersfromvariousresourcefulFTPsites.Inthispaper,mainlydescribedarethedesignandimplementationofourFTPsearchengine,aswellasthekeytechnologiesandmethodsweadopt.

●KeywordFTP,SearchEngine,WorldWideWeb

一、引言………………………………………………………………………………...4

二、搜索引擎的历史与发展………………………………………………………………4

a)搜索引擎的起源…………………………………………………………………4

b)真正意义的搜索引擎…………………………………………………………….4

c)Ftp的搜索引擎………………………………………………………………….5

I、基于文本的ftp搜索引擎:

Archie。

…………………………………………..5

II、基于Web的Ftp搜索引擎。

…………………………………………………5

三、天网ftp搜索引擎的现状…………………………………………………………….5

a)天网Ftp搜索产生的起源与发展历史。

………………………………………….5

b)天网ftp搜索引擎的现状………………………………………………………6

i.提供的功能…………………………………………………………………6

1.文件类型的分类………………………………………………………..6

2.时间过滤………………………………………………………………6

3.大小过滤………………………………………………………………6

4.精确匹配………………………………………………………………6

5.站点限制………………………………………………………………6

6.结果中查询功能……………………………………………………….6

7.支持常用的*,?

,与,并操作………………………………………...7

8.多语言版本……………………………………………………………7

9.快捷方式系统………………………………………………………….7

ii.数据量……………………………………………………………………..7

1.站点数量在3000以上…………………………………………………7

2.文件条目1300万左右…………………………………………………7

3.快捷方式约一千条……………………………………………………..7

iii.访问量……………………………………………………………………..7

1.日页面下载量在3万左右……………………………………………...7

2.日访问人数在1.5万以上………………………………………………8

四、海量ftp搜索引擎的系统结构设计…………………………………………………….9

a)系统的结构设计:

四大模块和五个数据库………………………………………9

b)数据库功能和结构说明…………………………………………………………10

i.文件类型库………………………………………………………………...10

ii.站点列表库…………………………………………………………………11

iii.素材数据库…………………………………………………………………11

iv.索引数据库…………………………………………………………………12

v.快捷方式数据库……………………………………………………………13

c)搜集建库模块…………………………………………………………………...14

i.搜集建库过程说明………………………………………………………….14

ii.站点获得策略………………………………………………………………14

iii.并发搜集策略………………………………………………………………15

iv.分布搜集策略………………………………………………………………15

v.多次尝试和断点续搜………………………………………………………..15

vi.线性的建库过程…………………………………………………………….15

vii.数据库的切换………………………………………………………………16

d)搜索服务模块…………………………………………………………………..16

i.搜索服务过程说明…………………………………………………………16

ii.服务接口说明………………………………………………………………17

iii.匹配算法…………………………………………………………………...17

iv.Cache策略…………………………………………………………………18

v.强大的过滤功能的实现…………………………………………………….18

1.文件类别过滤…………………………………………………………18

2.文件大小过滤…………………………………………………………18

3.文件最后修改时间过滤………………………………………………..18

4.站点过滤………………………………………………………………18

5.精确匹配………………………………………………………………18

vi.对“与”、“并”、*、?

操作以及结果中再搜索的支持………………………19

e)WWW搜索界面………………………………………………………………...20

i.CGI参数说明………………………………………………………………20

ii.智能的换页机制……………………………………………………………20

iii.使用结果页面模板………………………………………………………….21

iv.多语言版本的支持………………………………………………………….21

v.漂亮、实用的结果输出页面………………………………………………...22

vi.为支持分布搜索的改进……………………………………………………..22

1.使用多服务器的可能性和必要性……………………………………….22

2.分布搜索的实现………………………………………………………..22

3.对分布搜索的加速……………………………………………………..23

f)支持多媒体文件的特别处理技术…………………………………………………23

i.多媒体文件条目的文件名特殊性以及查询特殊性……………………………23

ii.一种比较有效的处理技术…………………………………………………...23

iii.在建库模块的改动………………………………………………………….23

iv.在CGI模块的改动…………………………………………………………24

g)快捷方式系统……………………………………………………………………24

i.使用快捷方式的原因………………………………………………………..24

ii.快捷方式系统的关系图……………………………………………………...24

iii.文件分类类别层次的显示…………………………………………………...25

iv.快捷方式条目的显示………………………………………………………..25

v.注册新的软件………………………………………………………………26

vi.过滤用户注册的快捷方式……………………………………………………26

vii.管理快捷方式系统…………………………………………………………..26

五、天网ftp搜索与国内国际Ftp搜索引擎的比较………………………………………..26

a)国内国际ftp搜索引擎系统按原型分类说明:

…………………………………...26

b)功能比较:

………………………………………………………………………27

c)数据量比较:

……………………………………………………………………28

d)速度比较:

………………………………………………………………………28

六、天网Ftp搜索引擎未来的发展………………………………………………………..28

七、结束语……………………………………………………………………………….29

一、引言

今天搜索引擎的核心是网络导航服务,搜索引擎是一个网络门户,他们提供新闻,在线图书馆,词典,以及其它网络资源,他们提供了不仅仅是网站搜索的服务,他们的涉及面越来越广,也越来越有用。

比如,Yahoo!

注重的是网站分类归总服务,而如AltaVista,Excite等则注重提供庞大的搜索数据库。

根据中国互联网络信息中心(CNNIC)有关中国Internet发展状况统计报告,搜索引擎是除电子邮件以外网民使用最多的服务。

面对浩如烟海的网络信息资源,网络搜索与导航已成为网络用户必不可少的工具。

与相对众多的WWW搜索引擎相比,功能强大的FTP搜索引擎并不常见,由此限制了人们对具有大量信息与资源的FTP站点的访问。

实现一个高速、海量、功能强大而又基于WEB的FTP搜索引擎将为网络用户提供极大方便。

为此,北京大学计算机系网络与分布式系统领域最新开发出了“天网”FTP搜索引擎,并已作为“天网”中、英文搜索引擎[1,2]的一个子系统在网上提供服务,获得了广大用户的一致好评。

本文将从“天网”FTP搜索引擎的系统结构与算法出发阐述一种千万级FTP搜索引擎的设计与实现的方案。

二、搜索引擎的历史与发展

a)搜索引擎的起源

1991年,XWAIS版本提供了一个有着友好界面的信息搜索系统,但这个系统要求很特殊的文件格式。

而在同一年还出现了另外一个信息搜索系统,这是我们所称之为的GOPHER。

Gopher是一种按"菜单"形式组织的分布式文档查询系统,最初在Minnesota大学发展起来(1991年),开始用于校园网,后来推广到Internet.Gopher为用户查询信息提供一个多级的菜单界面,只需按照菜单指示的路径就能获取你想要的信息,使用非常方便.Gopher由Gopher客户(GopherClient)程序和Gopher服务器(GopherServer)程序两部分组成.在Internet上建立了数以千计的运行Gopher服务器程序的Gopher服务器.它们是一些能为用户提供信息查询服务的计算机系统.到1995年初的统计,约有6,000主机安装了GopherServer,遍及全世界100多个国家.绝大多数Gopher服务器都是向所有Internet用户开放的.Gopher系统的主要信息形式是正文文件.信息文件可能驻留在不同的计算机上,通过目录结构把它们链接在一起.一个Gopher服务器的所有信息文件组成一棵信息树.由于这种链接是透明的,用户查询时可以在信息树之间自由穿越,不必考虑信息的物理位置.Gopher客户程序是用户端的信息浏览程序,用于同GopherServer进行对话.用户查询时,通过Client对Server发出查询请求;Server接收这种请求并把查询结果送回Client.任何一台能够通过某种方式与Internet连接的计算机,都可以通过一定方法成为Gopherclient.

b)真正意义的搜索引擎

最早的真正意义上的搜索引擎是Lycos,创建于1994年的春天,当时MichaelMauldin将JohnLeavitt的spider程序接入到其索引程序中。

Yahoo!

也是在当年成立的。

而NCSAMosaic出现在1993年,Netscape出现在1994年。

搜索引擎起源于传统的信息全文检索理论,即计算机程序通过扫描每一篇文章中的每一个词,建立以词为单位的倒排文件,检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率,对包含这些检索词的文章进行排序,最后输出排序的结果。

搜索引擎除了全文检索系统之外,还要有“蜘蛛”(SPIDER)系统,即能够从互联网上自动收集网页的数据搜集系统。

蜘蛛将搜集所得的网页内容交给索引和检索系统处理,就形成了我们常见互联网搜索引擎系统。

c)Ftp的搜索引擎

I、基于文本的ftp搜索引擎:

Archie。

Archie能在只知道文件名的前提下,为用户找到这个文件所在的FTP服务器的地址。

Archie实际上是一个大型的数据库,再加上与这个大型数据库相关联的一套检索方法。

该数据库中包括大量可通过FTP下载的文件资源的有关信息,包括这些资源的文件名、文件长度、存放该文件的计算机名及目录名等。

使用Archie服务器有三条途径,常用到的是:

通过远程登录到Archie主机,用Archie作为登录名。

一旦登录成功,一个Archie程序将自动执行,这时一次输入一条命令,告诉Archie想查寻的内容,Archie将检索自己的数据库并显示检索的结果。

如果用户对自己想要的东西并不太清楚,Archie还提供“whatis”服务项目,该服务提供成千上万个程序、数据文件和文档的简短说明。

II、基于Web的Ftp搜索引擎。

WWW的出现改变了Archie在文件搜索方面的统治地位,在美观、方便的WWW页面上搜索ftp文件成为用户的一大需求。

在功能上,基于Web的ftp搜索引擎实现的功能与Archie基本一样,都是对用户提交的查询匹配串找到可以下载的ftp站点链接。

但基于Web的ftp搜索引擎也有很多特色的功能,比如天网ftp搜索引擎的文件分类功能等等。

基于Web的ftp搜索引擎也采用了很多WWW搜索引擎的策略,比如使用Spider自动收集数据,采用倒排索引,智能换页链接技术以及大型ftp搜索引擎必须采用的分布收集和服务技术。

目前国内国际ftp搜索引擎已有不少,但在系统底层上有区别的只有几种,其中较为有名的有北京大学天网搜索引擎的ftp子系统,华南木棉的ftp搜索系统,号称全球最大的ftp搜索引擎的,以及使用的的fastftpsearch,小型网站常使用的NOSEYPARKER系统以及其他一些搜索引擎。

三、天网ftp搜索引擎的现状

a)天网Ftp搜索产生的起源与发展历史。

在天网1.0系统里,有一个简单的ftp搜索引擎,它只扫描几个教育网的ftp站点,算法上基本由unix命令组成,只能提供简单的字符匹配功能,而且界面很简单。

由于用户对ftp搜索的需求增加,我们在1999年秋开始了ftp搜索引擎的项目,并于2000年春交付了一个可以服务的百万级ftp搜索引擎,它搜索了30多个站点,提供150万的文件条目检索。

根据用户反馈和用户查询行为的分析,经过不断改进,在2000年秋ftp搜索引擎和天网的www搜索引擎同时升级并更换主页界面,提供了更为人性化的查询界面和结果界面,系统也更为稳定健壮。

2000年冬,天网ftp搜索引擎开始进行从百万级到千万级的改变。

直到2001年春,一个搜索了国内3000多个ftp站点,提供1300万文件条目索引,并有分类快捷方式系统的全新的天网ftp搜索引擎提供服务了。

b)天网ftp搜索引擎的现状

i.提供的功能

天网Ftp搜索引擎与其它ftp搜索引擎相比,最大的特点就在于它的功能强大。

尤其其中的文件类型过滤和快捷方式系统是所有ftp搜索引擎中独有的。

目前天网ftp所提供的各种功能包括:

1.文件类型的分类

目前文件类型分类分成图象、声音、视频、压缩、文档、程序、源代码、目录等。

文件分类的标准是按文件的扩展名。

由于天网Ftp搜索引擎有特有的文件分类功能,使得我们在搜索时精确度更高,比如要查电影“垂直极限”,只需输入名字“垂直极限”,选择“视频”类型,则各种文件类型的“垂直极限”的下载都找出来了。

如果没有类型过滤,则如果用户输入过于简单的话,可能查出的结果未必都是电影,如果用户输入包括了扩展名的话,则查询结果显然又少了很多,而且非计算机专业用户往往并不知道某个文件类的扩展名有些什么。

另外,在搜索的结果页面里,天网ftp搜索引擎使用了生动的图标区分各个类型的文件,使得文件所属类型一目了然。

文件分类已经成为了天网搜索引擎最强大又最有特色的功能。

2.时间过滤

可以精确到年月日的文件最后修改时间过滤。

这个功能在寻找特定时间的文件时很有用。

3.大小过滤

这个功能与文件类型过滤功能的集合,可以帮助寻找特定类型的文件。

比如同为“.dat”文件,有的是电影格式,有的是普通的数据文件。

但一般而言,大于40M的“.dat”文件应该是电影。

当我们加上这个限制的时候,也就可以找到扩展名为“.dat”的电影了。

4.精确匹配

精确匹配对于查找短文件名的文件比较方便,系统缺省使用是子串匹配,因为子串匹配更符合普通人的思维。

5.站点限制

在天网搜索的3000多个站点里,用户可以选择其中的某个站点,仅仅对其中的文件进行查找。

这个功能使得用户可以只搜对他(她)而言比较快的FTP站点,或他(她)比较喜欢的站点。

6.结果中查询功能

很多WWW搜索引擎支持结果中查询的功能,但大部分Ftp搜索引擎并不支持结果中查询。

天网Ftp搜索引擎采用巧妙的算法实现了结果中查询的功能,使用户可以逐步缩小搜索范围,最终得到想要的结果。

7.支持常用的*,?

,与,并操作

由于大部分用户的查询都不是十分精确的,*,?

,与,并这四个操作就显得十分重要。

与的操作符是空格,并的操作符是逗号。

这些操作的结合可以产生令人惊奇的结果,比如要查羽泉的《最美》,输入“羽泉最美”,则用“羽泉”的查询结果和“最美”的查询结果作“与”操作,得到了用户想要的结果。

8.多语言版本

天网Ftp搜索引擎在结果输出时采用模板技术,使得提供多语言、多界面的搜索结果页面成为可能。

目前天网Ftp搜索引擎支持简体中文和英文,并保留支持其它语言和其它模板的接口。

9.快捷方式系统

快捷方式系统是天网Ftp搜索引擎独有的功能。

目前其它的Ftp搜索引擎仅仅提供了复杂的表单供用户提交查询,却没有考虑到广大搜索引擎用户大部分是普通网民而非计算机专业人士,使用上的简单化和傻瓜化是软件发展的必然。

因而天网Ftp搜索引擎建立了快捷方式系统,用户可以不输入任何字串,用鼠标就可以找到无数电影、音乐、程序、图片等等软件。

而且快捷方式系统包含了注册功能,用户可以注册自己关心的软件,以便其它用户可以很方便的得到搜索结果。

同时,我们对每个快捷方式的点击计数,在显示每一类快捷方式的时候排序,这样对于用户的非特定查询十分方便

ii.数据量

1.站点数量在3000以上

站点列表来源于手工获得和机器扫描,由于扫描了国内大部分网段,因为可以说天网ftp搜索引擎可以查到几乎国内所有的ftp站点。

2.文件条目1300万左右

据国外的统计,全球ftp站点文件数目约一亿两千万,也就是说天网ftp搜索引擎已经搜集到全球十分之一强的ftp网站。

对比已知的若干Ftp搜索引擎,我们可以说天网Ftp搜索引擎已经是国内最大的Ftp搜索引擎。

4.快捷方式约一千条

这个数目将随着用户注册的增加而增加。

目前已经有528条电影快捷方式,295条音乐快捷方式,375条程序下载,59条开发资源快捷方式。

iii.访问量

1.日页面下载量在3万左右

从2001年5月5日开始,我们记录了页面下载的总数,并定期计算每日页面下载量,下表(图1)为我们记录的页面下载日志统计:

时间页面下载总数平均每日下载量

================================

2000.05.05305305

2000.05.061011796

2000.05.10106252403

2000.05.11162255600

2000.05.13234943634

2000.05.15301473326

2000.05.17378833868

2000.05.19417971957

2000.05.20467574960

2000.05.22534103326

2000.07.211385621419

2000.07.221425483986

2000.08.162022862389

2000.08.262279742568

2000.09.042630683899

2000.09.052712618193

2000.09.072778933316

2000.09.243770035830

2000.09.294107036740

2000.10.175110675575

2000.11.026600129309

2000.11.0670200110497

2000.11.2085155010682

2000.11.238800549501

2000.11.2489338813334

2000.11.2792525310621

2000.12.11113140214724

2000.12.16121385216490

2000.12.18125281819483

2001.01.05150269114698

2001.02.14180********

2001.03.06210814815373

2001.03.09217771923190

2001.03.12226534629209

2001.05.13367993629209

2001.05.19385519029209

图【1】天网ftp搜索引擎用户访问日志

从上表可以看出,天网ftp搜索引擎从最初的每日访问量只有几百,上升到现在的每日3万,经历了约一年的时间。

在这一年里,天网ftp的用户随着天网的不断改进不断增加。

而且,其中访问量下降的阶段都是学校的暑假和寒假,由此得出访问天网Ftp搜索引擎的大部分用户是教育网用户。

2.日访问人数在1.5万以上

由每个用户平均查询一到两次算,估计天网Ftp搜索引擎现在每日的访问人数已经达到1.5万以上。

而天网搜索引擎总的每日访问人数在4到5万之间,也就是说天网Ftp搜索引擎已经成为天网搜索引擎系统十分重要、不可缺少的部分,也是天网搜索引擎越来越受用户欢迎的一个因素。

四、海量ftp搜索引擎的系统结构设计

a)系统的结构设计:

四大模块和五个数据库

参考WWW搜索引擎的一般系统结构,我们设计了如下的四个模块:

搜集建库模块、搜索服务模块、CGI和WWW页面模块以及快捷方式系统。

其中使用了五个数据库包括:

站点列表数据库、文件类型数据库、素材库、索引库、快捷方式数据库。

系统程序和数据的物理位置分配主要分七个部分:

1)respath:

源数据目录。

包括搜集建库的程序FtpCollect,站点列表库,文件类型库和素材库。

同时也存放搜集程序的日志。

2)basepath:

主目录。

包括搜索服务器FtpServer,索引

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 法律文书 > 调解书

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2