搜索引擎.docx

上传人:b****3 文档编号:10925769 上传时间:2023-05-28 格式:DOCX 页数:12 大小:691.31KB
下载 相关 举报
搜索引擎.docx_第1页
第1页 / 共12页
搜索引擎.docx_第2页
第2页 / 共12页
搜索引擎.docx_第3页
第3页 / 共12页
搜索引擎.docx_第4页
第4页 / 共12页
搜索引擎.docx_第5页
第5页 / 共12页
搜索引擎.docx_第6页
第6页 / 共12页
搜索引擎.docx_第7页
第7页 / 共12页
搜索引擎.docx_第8页
第8页 / 共12页
搜索引擎.docx_第9页
第9页 / 共12页
搜索引擎.docx_第10页
第10页 / 共12页
搜索引擎.docx_第11页
第11页 / 共12页
搜索引擎.docx_第12页
第12页 / 共12页
亲,该文档总共12页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

搜索引擎.docx

《搜索引擎.docx》由会员分享,可在线阅读,更多相关《搜索引擎.docx(12页珍藏版)》请在冰点文库上搜索。

搜索引擎.docx

搜索引擎

搜索引擎与中文信息处理技术基础

学院:

数学与统计学院

班级:

2011级数学3班

姓名:

谢华蓉

学号:

201171010357

 

一、搜索引擎方面的困难

现有的搜索引擎提供的提问函数是相当有限的,大多数的搜索引擎只提供关键词间最基本的布尔连接。

例如Yahoo只提供AND和OR运算,并且一旦选用了一个逻辑运算符,它必须应用于所有的关键词。

OpenTextIndex允许用户用不同的布尔运算符,但仅允许4个运算符且必须按出现次序运算。

像SQL语言那样复杂的查询语言在现有的搜索引擎中还不能应用。

(1)仅使用关键词提问

现有的搜索引擎仅允许用一组关键词及逻辑运算符组成提问。

但关键词检索不能完全满足用户的要求,而且它是一种盲目的匹配。

而自然语言理解又是非常困难的任务,现在仍在研究之中。

(2)不能用检索历史信息

用户的每次检索都是从头开始的检索,不能从原有的查询结果中作进一步的提炼。

(3)简单的结果表示方法

大多数的搜索引擎都只返回一张长长的检索结果表,一般有几页。

该表中可能包含成千上万个指向WEB站点的连接指针。

用户可能只选择一小部分,而放弃其余部分。

因为用户不可能有这么好的耐心。

结果是他们可能丢失了很多有用的信息。

(4)单个引擎的限制

由于现在WEB上的信息量变得越来越大,单个的搜索引擎不可能包括整个网络的轨迹。

索引机器人的能力,索引数据库的大小,系统维护开销等,都限制了一个搜索引擎的能力。

因此,用户必须尝试用所有搜索引擎去找出他所要的信息。

最坏的是每个引擎互相覆盖,用户会重复发现一条信息。

现在已出现了一些解决方法,如元搜索引擎和分布式搜索引擎。

另外,据文报道,主要的商业性的搜索引擎每分钟要收到1􀀁5~2万个提问,这对索引服务器也是一种很大的压力。

二、三大搜索引擎的比较

1、三大搜索引擎简介

1.1Google()简介

Google是由斯坦福大学计算机科学系LarryPage和SergeyBrine博士于1998年创建.支持30多种语言检索,包括中文简体和繁体,并有中文Google网页.当输入检索词后,Google每次可以检索30多亿个网页,从众多的网页中选取与检索式匹配的链接,检索效率极高.Google富于创新的搜索技术和典雅的用户截面设计,使Google从当今的第一代搜索引擎中脱颖而出.2000年9月,Google开启中文搜索服务,2004年8月在纳斯达克上市,开创了第二代搜索引擎技术.许多权威机构都将其评为最佳搜索引擎.Google利用“蜘蛛程序”在互联网上抓取各个网站的网页,对网页内容进行分词处理,并对抓取到的网络进行超链接分析.

Google是一个功能强大、网络信息资源非常丰富的搜索引擎,包括35个国家和地区的语言资源,占有全球搜索市场的80%.Google原意是表示1后面带有100个零的数字,使用这个词代表公司想征服网上无穷无尽资料的雄心.正如其所期望,许多权威机构都将其评为最佳搜索引擎,全世界平均每天上网人次高达1.5亿.Google在中国搜索市场的市场份额突破30%,并且增长速度迅猛,在中文搜索市场有举足轻重的作用.公司产品Google是全世界最受欢迎的搜索引擎,使用一种自创的称为PageRankTM(网页级别)技术来索引网页,索引是由程序“Googlebot”执行的,它会定期地请求访问已知的网页新拷贝.页面更新愈快,Googlebot访问得也愈多,再通过在这些已知网页上的链接来发现新页面,并加入到数据库.索引数据库和网页缓存大小是以兆兆字节(terabyte)来衡量的.

1.2XX()简介

XX是中国的两位海外留学生李彦宏和徐勇博士创建的中文搜索引擎,它拥有目前世界上最大的中文信息库,总量达到1亿2千万页以上,并且还在以每天几十万页的速度快速增长.2000年1月,XX公司在中国成立了他的全资子公司XX网络技术(北京)有限公司,随后于同年10月成立了深圳分公司,2001年6月又在上海成立了上海办事处.2005年XX在美国纳斯达克上市,成为当年全球资本市场上最为引人注目的上市公司,XX由此进入一个崭新的发展阶段.

XX搜索引擎()的起名源于“众里寻她千XX”和突破“事儿做到九十九度就是做到头”的西方说法,XX就是想要力争做到一XX,做到顶上开花的境界.

XX搜索引擎具有高准确性、高查全率、更新快以及服务稳定的特点,能够帮助广大网民快速的在浩如烟海的互联网信息中找到自己需要的信息,因此深受网民的喜爱.

XX是目前全球最优秀的中文信息检索与传递技术供应商.它在中文互联网拥有天然优势,目前收录中文网页已超过12亿个,这些网页的数量每天正以千万级的速度在增长;同时,XX在中国各地分布的服务器,能直接从最近的服务器上把所搜索信息返回给当地用户,使用户享受极快的搜索传输速度.目前,中国所有提供搜索引擎的门户网站中,超过80%以上都由XX提供搜索引擎技术支持.

1.3雅虎(

雅虎中国是网站分类目录导航的领头军,它以分类目录、网站检索为主,附带网页全文检索,也是目前最重要的搜索服务网站.雅虎有中文、英文等10余种语言版本,每一版的内容互不一样.可以说,每一种不同的版本都是一种不同的、相对独立的搜索引擎.

雅虎是最知名、最流行的互联网门户网站之一.它最初只是一个主题目录,现如今已集搜索引擎、目录和门户网站于一身.想进入雅虎门户网站和主入口点,只要输.要想直接使用该搜索引擎,请输入;要想使用目录,请输入.“雅虎”中规中矩,网页搜索表现不错,但死链率较高而且缺少一些应有的高级搜索功能.另外,该搜索的易用性有待提高,虽然升级后改善了网页的界面,严格控制搜索页面中的排名广告,规定每次搜索结果中的广告数量不能超过5个,但用户打开雅虎中国的首页时还是要受到一些影响.而且,对搜索结果的描述和在用户搜索过程中的提示说明也不太清晰明了,离雅虎“关注用户体验”这一宣传口号,还有一定的距离.

2、Google、XX和中国雅虎的对比

衡量一个搜索引擎质量的优劣主要看其检准率和检全率.这既是搜索引擎要实现的目标,也是它发展的动力.检准率是指搜索到的信息与所需信息相关度高,检全率是揩搜索到的有用信息尽可能全面,因此搜索引擎的融合也可看成检全率与检准率的融合.具体还可从以下6个方面进行考虑:

2.1三大搜索引擎检索界面比较

首页是搜索引擎的“门脸”,也是其展现特色的一个地方.雅虎引擎在打开速度上略逊于Google,Google又略逊于XX.如以下图片是2012年5月1日XX、Google搜索引擎的首页,XX和Google都体现出该天为“五一劳动节”,只有中国雅虎未体现,从这一点上可以看出XX和Google搜索引擎对于实时性的关注程度是非常大的.

Google图片搜索引擎的界面简单、清晰.在Google的首页上点击“图片”链接就进入了Google的图片搜索界面.在关键字栏内输入想要搜索图片内容的关键字,如“世博会中国馆壁纸”就可以搜索到大量与世博会中国馆相关的图片.此外,在界面上还提供“高级图片搜索”“使用偏好”“图片搜索帮助”3个辅助链接,方便使用者根据自己的使用习惯调整和加强检索性能.

XX图片搜索引擎的界面也十分简单、易用.在XX的首页上点击“图片”链接就进入了XX的图片搜索界面.同样在关键字栏内输入图片内容的关键字后就可以搜索到大量相关的图片.XX提供的图片范围有“新闻图片”“全部图片”“壁纸”“表情”“头像”,用户可以根据所要图片的大小和用途来缩小检索范围;同时XX还提供分类浏览目录,方便用户从类别上进行搜索.

雅虎图片搜索引擎的界面非常简洁.在雅虎的首页上点击“图片”链接就进入了XX的图片搜索界面.同样在关键字栏内输入图片内容的关键字后就可以搜索到大量相关的图片.雅虎为注册用户提供了个人图片存储中心,可以将查到的图片存入雅虎相册.雅虎图片搜索使用了图片过滤器,雅虎会自动过滤掉不符合相关法律法规的图片网页等.

2.2三大搜索引擎内容比较

Google的检索结果按相关性由大到小排序输出,其相关性判断依据的是检索词在网页中的出现词频、位置,另外一个重要的依据是通过与该网页链接的网页与检索词的匹配程度来判断其相关度大小.

XX采用了词频统计、超链分析和竞价排名相结合的方式对网页进行相关性评价,能够比较客观地分析网页所包含的信息,从而在一定程度上保证了检索结果的相关性.

雅虎检索结果的相关性按其相关度计算,一般的检索工具是通过计算检索词在每个结果中出现次数和出现位置来计算相关度的.对用户来说,只要把网页本身优化好,就能在雅虎中取得很好的排名。

2.3三大搜索引擎的搜索侧重点比较

(1)Google的搜索侧重点

Google把搜索重点放在信息上,它在不断扩大信息源的同时,也提供用户想要的信息.在广告排序上,Google并不是简单地让出价最高的排在最上面,还要考虑用户点击的因素,用户点击越多的会越往上排,Google特有的匹配度技术、网页相关度分析技术、PageRank网页评级技术等对收录的网页进行分析评级,检查整个网络链接结构,并确定哪些网页重要性最高,然后进行超文本匹配分析,以确定哪些网页与正在执行的特定搜索相关.

在综合考虑整体重要性以及与特定查询的相关性之后,为用户提供更准确的信息,因此Google在搜索结果上显得更客观,尤其在搜索技术性文章的时候,结果更加精准.

(2)XX的搜索侧重点

XX更侧重于中国网民的搜索习惯,网站优化服务搜索结果更加大众化.XX将广告和搜索结果混在一起,XX搜索结果的公正性正在受到质疑,很多时候搜索结果完全不具相关性.XX一向以市场和经济利益为导向,灵活多变,取得了发展的先机.

(3)雅虎的搜索侧重点

雅虎的业务侧重点来看不同于Google和XX,Google注重的是全球搜索服务,而XX已经明确表示,XX将继续侧重于立足于中国的中文信息搜索.马云表示雅虎将专注于搜索,并且雅虎搜索要做的是做一个中国人自己做的面向全世界范围的中文搜索.搜索引擎主要的收入来源是竞价排名广告.雅虎搜索与阿里巴巴的优势电子商务结合,相互渗透,很可能作为电子商务中有效的基石.

2.4三大搜索引擎的更新速度比较

(1)Google的更新时间

Google每7天更新一次(排名影响小);大更新时间:

每月更新一次(排名影响大),PR数值3个月更新一次,因为存在不同服务器更新,总时间为一周.

(2)XX的更新时间

据统计,XX收录内容的大更新时间是每月11号和26号,小更新时间为每周四.更新时刻都在凌晨4时.一般凌晨4时更新,也有在早上9时以后更新的.XX更新时间大致为1个月2次.

(3)雅虎的更新时间

雅虎的每天更新时间是早上6:

00-7:

00.大概一到两个月左右更新一次,动静比较大.雅虎收录:

一般时间是1个月左右,但是如果你的站架构好,代码符合w3c并且内容原创的话10天内肯定就会被收录,同google.

2.5三大搜索引擎搜索用户首选比较

2.6三大搜索引擎首选用户结构比较

2.6.1搜索引擎使用人群文化水平比较

2.6.2搜索引擎使用人群职业比较

Google适用群体:

外贸企业、小型企业、个人

XX适用群体:

国内生产厂商、贸易商

雅虎使用群体:

垂直销售商家、个人

2.7三大搜索引擎中的特色比较

(1)提问功能

点击谷歌的“问答”,会直接进入知名论坛天涯中的“天涯问答”,利用该论坛庞大的用户量以获得更大的信息量.雅虎学堂的咨询性丰富,除了网友的疑问外,其主页当中还有近期热门的世界趣闻、生活知识、万年历,甚至包括淘宝网上的销售信息.

(2)生活资讯

雅虎在这该项功能上做得较为出色,点击进入雅虎“黄页”,便会进入雅虎口碑网,它是一个生活资讯网站,餐饮美食、优惠打折、电器维修、旅游票务信息一应俱全,还有网友的评分以及评价以供参考.谷歌有该项功能,但信息没有雅虎的全面和精准,并且查找起来要费一点工夫.

(3)地图功能

在地图搜索功能方面,谷歌地图精准、信息丰富.在使用定位查找功能的过程中,雅虎地图提供的功能比较单一,地图显示的信息量也不够谷歌的多.不过,雅虎在地点搜索中添加了不少生活资讯,例如搜索“白云山”,在雅虎地图上能同时显示白云山风景区的门票、网友评论等内容.

(4)论坛

谷歌的论坛名为“来吧”,与“问答”一样,属于最近新增的功能.点击“来吧”进入的也是“天涯来吧”论坛,人气绝对有保证,只不过是“借他人之力”.雅虎的论坛功能在其搜索引擎的首页并没有链接显示,要进入雅虎中国主页后才能找到.

(5)移动搜索功能

谷歌利用其地图功能方面的优势,针对手机开发谷歌地图,“谷歌搜索引擎+谷歌地图”为手机带来方便的移动搜索功能.最新版本的手机谷歌地图的功能已不是简单地查询道路、设定车辆行驶路线等等,当中更具备你所在地附近的生活资讯信息,对于经常外出旅行或者工作的用户来说,十分便利.而雅虎目前尚未有手机移动地图项目.

(6)翻译功能

日常工作中我们常常会遇到国外站点,要是英文好咱就啥话甭说,可如果不好呢?

还是依赖搜索引擎为我们提供的翻译服务吧.从测试结果来看,谷歌提供了网页一键翻译功能,只要检测到搜索结果中存在全英文网站,便会在标题右侧弹出一个“翻译”按钮.而且谷歌的这项翻译并不仅限于英文,包括法语、日语、韩语等其他语种网站同样可以实现快速翻译,相比XX,Google更胜一筹!

综上所述:

我们可以看出,这三大中文搜索引擎各具千秋,如Google的检索功能强大、灵活,尤其是支持多种字段检索以及网页推荐功能,并可以按用户的习惯设置检索界面;XX收录的中文信息覆盖面广、数量大,更新快;注重服务的本地化;雅虎作为指南型分类检索工具,在相对查全率方面具有优势.我们可以根据各自的生活、工作、学习的需要,选择一种适合自己的搜索引擎,但是现有的搜索引擎也不是尽善尽美,它们也或多或少的存在些问题,希望它们能互相取长补短、不断丰富、完善,更好地满足用户个性化的多元检索需求.

三、搜索引擎存在的问题及改进

现阶段搜索引擎存在的问题

  虽然现代搜索引擎已经取得了很大的成功,但是我们也应当看到,现代搜索引擎仍然存在很多不足之处,主要表现为以下几个方面:

  首先,它缺乏信息收集和信息检索的同步性。

搜索引擎在检索时依据的是利用爬虫程序事先遍历互联网后得到的网页索引信息,而由于遍历互联网需要大量的处理时间,爬虫程序不可能随时随地地遍历网络,只能在确定的一定时间间隔内定期进行网络信息采集,所以搜索引擎的源信息收集和用户查询是截然分开的。

这导致一方面不能保证信息的及时更新,易产生“错”链接和“死”链接,另一方面也无法利用用户在检索时表现的需求进行动态的信息反馈,使得信息的收集和查寻缺少有机的结合。

  其次,它的信息检索方式具有单一性。

搜索引擎一般只能提供分类浏览的查询检索方式和基于关键词的全文检索方式。

分类查询按照嵌套的类目,让用户逐层深入以检索所需信息,虽然方式很简单,但是查全率较低,容易漏检信息;而基于关键词的全文检索又因为匹配模式过于简单,命中的结果中会含有大量无关的网页,导致查准率降低。

  再次,它的信息检索内容具有单一性。

网络信息内容覆盖面很广,形式各异,不同用户或同一用户在不同时刻对信息需求的侧重点也不一样,而搜索引擎却对所有用户提供相同的界面和检索策略,忽略了web用户的个体差异,不能满足web用户的个性化需求,同时也难以使用户有效表达自己的个性化需求,搜索引擎更缺乏对用户个性化信息的利用,较难实现有针对性的个性化信息服务。

  最后,它的信息服务方式具有被动性。

大多数的搜索引擎还没有摆脱以拉(pulling)为主的信息服务方式,而未来的信息服务方式则主要是基于特定查询要求的推(pushing)方式。

  上述因素产生的后果就是增大用户使用负担,降低查询效果,这在一些学者的研究中也有表述。

例如,2001年Starch通过调查指出,36%的互联网用户在1周内的网络搜索时间超过2h,719/6的用户在使用搜索引擎时,平均搜索12min后会遇到麻烦,这些搜索受挫中因为链接错误产生的占46%。

同时,近86%的互联网用户认为应当出现更有效的信息检索技术。

另一项由Keen所做的调查显示,人们平均每天要有4个问题需要从外界获取答案,而其中31%的人会使用搜索引擎以获取正确的信息,但是半数以上都会不成功。

搜索引擎改进对策

1合理进行关键词广告

  是付费搜索引擎营销的一种形式,也可称为搜索引擎广告、付费搜索引擎关键词广告等,当用户利用某一关键词进行检索,在检索结果页面会出现与该关键词相关的广告内容,自2002年之后是网络广告中市场增长最快的网络广告模式。

 关键词广告具有针对性好、点击付费、费用可控制、成本低等优点,其效果比一般网络广告形式要好,因而获得快速发展,如google的关键词广告称为AdWords和XX的凤巢。

但是这种方式也容易存在竞争对手或者广告商恶意点击的情况,企业在实施中,需要给与一定的关注,发现问题时及时纠正,减少不必要的广告费用消耗。

2选择适合的搜索引擎

  不同的搜索引擎,在市场占有率、费用、客户群体等方面有着较大差异,根据企业需求,进行分析,选择适合自己的、高投资收益比的搜索引擎是必要的。

  针对通用搜索引擎的信息量大、查询不准确、深度不够等问题提出的垂直搜索引擎,可针对某一特定领域、某一特定人群或某一特定需求来提供信息。

相比而言“专、精、深”,具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎具有一定优势。

  因此,除了XX和谷歌这样的综合性搜索引擎,企业还要分析专业搜索引擎对与潜在客户的关联性是否更胜一筹,是否可以获得直接的收益。

  3选择合适的关键词

  在搜索引擎营销的一个关键点在于关键词设定,它是搜索引擎优化的基础。

选择关键词时要考虑诸多因素,关键词必须与网站有关,关键词的组合排列,尽量避免采用热门关键词等等。

热门关键词的优点是可能排名靠前,产生的流量十分可观,但是热点的关键词价格较高,且通过热门关键词检索的通常都是不懂行业的一些人,因此转化率会很低,而通过长尾关键词机进行检索的客户通常都是内行专业人士,他们寻找产品的意愿强烈,所以不会只停留在搜索结果的前一两页里做购买决定,而是对于质量、性能、厂家信誉等进行综合评价,所以会翻阅很多页来进行产品企业对比,因此只要做好长尾关键词的设置和组合,并且使页面能够提供充足信息就可以大大促进交易机会。

  4做好网站规划和栏目结构。

 

首先,网站总体结构会影响到客户的访问体验,高效简洁的页面,可使目标客户直奔主题,发挥出企业网站与客户的良好信息交互,这种愉悦的访问体验可以提高网站的吸引力和客户信任。

其次,不好的网站内容管理系统会导致网站结构散乱,会影响网站的PR值,会影响网站在搜索结果排名的优先权及搜索引擎收录。

相反好的内容会吸引其他站点进行连接,进而增加网页级别和访客流,这对于搜索引擎营销而言是更本质和核心的东西。

因此在网站策划和设计阶段就需要把搜索引擎营销的思想结合进来。

  5借助外部链接进行推广。

  增加网站的外部链接数量是一条提高搜索引擎排名的简单方式,其它网站到你的网站的链接越多,搜索引擎会认为你的网站的重要性越大,从而给你更高的排名,你会得到更多的访问量。

在做外链的时候尽量选择与企业相关的网站来实施,可以采用软文的形式增加流量和曝光度,软文的质量越好,从社会媒体和大众获得的收益率就越大。

  6持续进行效果监测与改善。

  通过网络营销软件、搜索引擎优化与排名自动检测软件和网站流量分析系统监控网站,分析搜索引擎营销效果和费用分配比例是否合理,并通过不断调整找出转换率较高的关键词,删除那些转换率低的关键词。

  7持续学习和实践。

  网络技术处于快速不断的发展过程中,关于搜索引擎营销的技巧是多方面的,在实施过程中,只有坚持不断的学习和深入,才可能更好的利用这种营销手段,取得满意的效果。

  

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 求职职场 > 简历

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2