简析搜索引擎的网络爬虫技术.docx

资源描述

简析搜索引擎的网络爬虫技术.docx

《简析搜索引擎的网络爬虫技术.docx》由会员分享，可在线阅读，更多相关《简析搜索引擎的网络爬虫技术.docx（10页珍藏版）》请在冰点文库上搜索。

简析搜索引擎的网络爬虫技术.docx

简析搜索引擎的网络爬虫技术

内容简介:

简析搜索引擎的网络爬虫技术

1网络爬虫技术网络爬虫也称为文档抽取系统，是构成第三代搜索引擎系统的重要组成部分之一，主要由文档适配器与信息爬行器组成，文档适配器能够处理不同类型的文档，信息爬行器主要进行页面信息的收集工

论文格式论文范文毕业论文

简析搜索引擎的网络爬虫技术

1网络爬虫技术网络爬虫也称为文档抽取系统，是构成第三代搜索引擎系统的重要组成部分之一，主要由文档适配器与信息爬行器组成，文档适配器能够处理不同类型的文档，信息爬行器主要进行页面信息的收集工作，文档抽取子系统首先根据配置文件的约定，定时产生信息爬行器对分布在网络上的信息节点进行遍历，然后调用对应的文档适配器来抽取网络文档信息。

文档适配器能够抽取的页面文件种类繁多，能够对各种类型的文档以及多媒体文本信息等。

信息爬行器为计算机程序的一个进程或线程，通常采用并发工作方式，以便能可能多、周期尽可能短地搜集网络节点的页面信息，同时还要避免死链接或无效链接。

信息爬行器一般采用分布式并行计算技术来提高工作的广度与速度。

2图的遍历算法网络爬虫在网络中执行信息收集的过程实际上就是一种图的遍历。

图的遍历算法通常有两种方式:

即广度优先算法与深度优先算法。

下面就具体介绍一下两种算法。

通常深度优先算法使用的数据结构为栈，通过栈的出入特点进行搜索，其过程首先从该图的某个顶点或者子图出发，将所有属于该子图的顶点信息的链接地址（即URL，UniversalResoureLoator）进行压栈操作，待所有顶点都操作完成后，然后将栈顶的元素取出，根据该元素的URL，访问该元素URL所指向的网络，然后将该页面的信息进行收集与分析，从而得到该页面内部的所有的URL连接信息，再将该页面所有的连接信息进行压栈，从而按照图的广度将图上所有的链接

进行展开操作，重复这些步骤就可以对图进行深度搜索遍历，达到遍历收集所有互联网信息资源的目的。

深度优先搜索算法在展开页面链接时总是从栈顶进行展开，因此随着时间的增加，栈的深度也在不断增加，位于底部的元素可能会长时间不能进行处理，从而造成该算法陷入一个大的页面而不能继续展开遍历。

为了避免这一问题，可以采用广度优先搜索算法，广度优先搜索算法是通过队列这种数据结构进行展开的，根据各个元素节点距离最初节点的层次对所有的网络节点进行遍历，从而对每个节点都能够在访问全网一次的时间内进行公平处理，克服了深度优先算法陷入局部节点的不足，也保证了不会漏掉队列后面的的元素，从而达到了公平对待互联网上所有节点资源的目的。

在广度优先算法中，根据是否已经对节点进行访问，将爬行队列构造为两部分:

即待爬行队列与已爬行队列。

待爬行队列主要存储需要进行访问的元素节点URL，而URL在队列中的先后顺序则体现了算法的爬行策略。

而已爬行队列则主要存储已经访问过的URL，由于该队列的长度随着时间的增加不断增长，因此需要优化该队列的插入与查询操作;在网络爬虫的爬行过程中，不论是带爬行队列还是已爬行队列，都需要频繁进行插入与查询操作。

因此，该队列数据结构的性能会直接影响搜索引擎的搜集性能。

对爬行器来说，网页的采集与解析是核心工作。

而爬行程序是否高效，主要取决于网页采集的效率。

其过程分为5个步骤:

1）将待爬行队列的第一个元素取出;

2）访问DNS服务器，对URL进行域名解析;

3）根据ROBOT网络协议，获取该URL服务器的权限;

4）若得到访问权限，则对服务器发出URL请求;

5）通过HTTP协议进行访问。

网络爬虫在工作时，若频繁访问DNS服务器，可能会造成比较繁重的网络负担，引起服务器响应以及网络延迟，会降低爬行程序的效率。

因此，通常在本地服务器上建立一个DNS缓存来降低对DNS服务器的访问频率。

同时，为了提高爬行程序的效率，通常采用多线程或者多进程来对网页采集程序进行流水

线处理，多线程与多进程程序设计相对比较复杂，需要解决的问题主要是进程的同步和互斥;也就是解决多个

线程或进程共享资源的问题。

造成死锁的情况通常是占有一个资源然后又请求另一资源，因此，若系统只存在一个共享资源就不会造成会死锁。

为了解决饿死问题，通常只采用一个等待对列，若待爬行队列处于使用状态，则将要访问该队列的线程插入等待队列。

而队列的特点能够保证了所有的等待线程都公平对待，从而解决了饿死问题。

具体算法如下:

1）对爬行队列上锁。

若爬行队列已经上锁，则将该线程或进程插入等待对列。

2）取出待爬行队列的URL元素。

3）对爬行队列解锁，然后唤醒下一个进程或线程。

4）访问页面，将页面中的URL进行解析。

5）对爬行队列上锁。

如爬行队列已上锁，则插入等待对列。

6）将步骤

4）得到的URL插入对列。

7）对爬行队列解锁，唤醒下一个进程或线程。

8）重复

1）7）直到结束。

3页面解析在解决了互联网节点页面遍历的问题后，网络爬虫剩下的工作就是页面解析，页面解析主要是分析与理解HTML（超文本标记语言）文档。

HTML作为一种标记语言，能够对互联网节点的页面外观进行标准化处理，从而规范互联网节点页面的外观与功能。

实际上，超文本标记语言就是以普通文本为基础，通过增加各种表现样式以及字体、颜色标签来实现文档的规范化。

通常各种标签都用双箭头进行标识，而文本信息则位于之间。

图2为一个典型的超文本标记语言文档。

在超文本标记语言中，能够表达连接的标签通常是anhor标签，即通过进行标识的标签，长用来表达URL的超链接。

各种页面通过该标签，将个节点相互独立的网页进行链接，从而构成了一种页面连接图的结构。

解析HTML的文档包括两个步骤:

1）对表单进行识别解析，然后填写该表单提交请求，在收到返

回结果后，从结果中提取锚文本以及URL;

2）把超文本标记语言变换为纯文本。

在解析页面的过程中，首先需要获取标签对之间的纯文本信息（锚文本）与该文本标签的URL地址，然后将HTML文档中的标签进行消除。

这些工作都是字符串的处理工作，处理步骤如下:

1）使用HTML分析工具清洗页面文档，使之转变成全部标准化的超文本标记语言页面;

2）通过字符串处理工具解析HTML网页;

3）将结果进行输出。

通过以上解析过程，将URL信息从页面中抽取出来，然后进行评价，再放入爬行队列进行处理。

4结束语主要介绍了搜索引擎的网络爬虫技术，该技术是构成现代搜索引擎系统的重要组成部分之一，文章详细研究图的遍历算法的两种方式:

即广度优先算法与深度优先算法。

在解决了互联网节点页面遍历的问题后，对网络爬虫中的重要工作页面解析进行了具体的分析。

内容简介:

浅谈如何提高中小企业网站的浏览量和搜索排名

在各类信息如汪洋大海的:

他的计费方式是你的广告在其他网站上显示1000次的价格。

（2）p:

这种计算方式是访问者每点击一次你广告的价格。

四、其他方式当然还有一些其他方式，如发送广告

论文格式论文范文毕业论文

浅谈如何提高中小企业网站的浏览量和搜索排名

在各类信息如汪洋大海的:

他的计费方式是你的广告在其他网站上显示1000次的价格。

（2）p:

这种计算方式是访问者每点击一次你广告的价格。

四、其他方式当然还有一些其他方式，如发送广告邮件、在一些大的论坛发帖子等等。

如何加快网站计数器的步伐,每个刚刚做完网站的人，都会有这样的体会，我的网站的点击量怎么长的这么慢,确实，新的网站浏览量普遍不会很大，即使主页十分的漂亮，究其原因，那就是酒好也怕巷子深，没人知道你的网站主页的存在～要想提高自己网站的浏览量，可以采用的办法是:

1、首先要做好站内的网页归类大部分站点都会有自己的网页分类列表，而这项工作并不全部是自动完成的，有时需要你自己的参与，比如要在郾城信息港申请产品主页，如果只是上传产品信息，那么会发现很长一段时间产品网页的浏览量除了自己访问的以外根本不动，因为需要在上传产品信息之后用E-mail通知管理员，由他为你的站点进行归类并建立链接。

2、邀请访客访问网站这一点不用我说谁都会想到，这是最容易办到的，每个人都有一定数量的朋友或网友，可先通知他们访问你的主页，这样可以在你网页建成的初期使计数器的数值有所增长，对于建立自己的信心大有好处～

3、在网上多处建立网站链接一种方法是现在internet上有很多站点提供个人站点登记，并且很多的提供个人站点的网站也允许外地个人主页的友好链接服务，只要登录到这样的站点，按照要求填写一张表格，输入你的主页地址、主页名称及内容介绍等内容，你的主页链接即可出现在此站的列表中，被访问的机会就大了一点。

另外就是可以到知名论坛上发帖，或是邀请别人访问你的网站。

帖子的质量最好要高，署名用自己网站的链接，帖子被顶置或是加精，也就相当于自己的网站被链接了，所以不管帖子本身或是给别人的回复最好还是自己的原创，而且每个月发帖的数量保持稳定，不要太多，突然太多也会被删除。

4、建立网站主页互连这是个人网页经常采用的一种方法，并且链接的人数越多效果越好，尤其与那些已经成名的、访问量大的主页链接，效果尤为显著，这样人们可通过别人的主页了解你的主页介绍及

地址，如果感兴趣就会直接访问你的主页。

另外还可以使用现有的开源代码，编写一些可以直接使用的个人主页的模板，提供给别人下载使用，比如说利用l语言将opright具名为自己的网站，并且加超链接。

最后还有一个重要的就是，我们要有毅力，持之以恒，坚持更新网站内容，网站优化要适度，相信网站的浏览量会越来越多，网站的排名就会慢慢上去。

内容简介:

基于节点兴趣的非结构化P2P网络资源搜索算法

1引言P2P网络中最关键的问题是如何高效地搜索资源。

当节点在自身找不到想要的资源时，就会发出搜索请求，搜索过程涉及消息形式、请求转发方式、转发节点选择、节点局部索引等方面。

不同网络

论文格式论文范文毕业论文

基于节点兴趣的非结构化P2P网络资源搜索算法

1引言P2P网络中最关键的问题是如何高效地搜索资源。

当节点在自身找不到想要的资源时，就会发出搜索请求，搜索过程涉及消息形式、请求转发方式、转发节点选择、节点局部索引等方面。

不同网络结构可能会采用不同的搜索方法。

当前的P2P网络可以分成两大类:

结构化和非结构化。

非结构化网络因其简单和健壮性获得广泛应用，Gnutella是其中的典型模型。

2改进的搜索算法一个节点需要的资源，更可能在跟自己兴趣相似的节点中搜索到。

如果在某个节点成功搜索到需要的资源，说明两节点兴趣相似，下次该节点成功搜索的可能性会也提高。

基于这个思想，在Gnutella的搜索模型上，提出了基于节点兴趣和搜索经验的资源搜索算法。

1相关概念定义1元数据:

对一个资源的描述，通常包括资源的唯一标识（通常为资源的Hash值）、属性（如标题，作者，创建时间，关键字等）以及资源的存储位置。

在搜索算法中，对资源的搜索转化为对元数据相关数据的搜索。

定义3邻居节点:

如果一个peerPi和另一个peerPj直接相连，那么它们互称为

邻居节点。

定义4朋友节点:

如果一个peerPi和另一个peerPj有相似的兴趣，那么它们互称为朋友节点。

定义5兴趣相似系数用来描述节点间的相似性。

系数越高，节点相似性越高。

定义为:

（1）其中

1）

（2）对任意节点Pi和Pj，S（Pi，Pj）=S（Pj，Pi）。

定义6捷径节点:

如果一个peerPi和另一个peerPj既是邻居节点优势朋友节点，那么它们互称为捷径节点

2分组策略改进的搜索算法，根据节点间网络拓扑和兴趣相似度的关系，将节点分组为邻居节点、朋友节点以及捷径节点。

2.1建立邻居节点邻居节点的划分采用了底层搜索机制来发现邻居节点。

这里的邻居节点直接连接并非指应用层的路由，而是实际网络层中的路由距离，可以避免应用层中路由的一跳在实际网络层相距较远的情况出现，也更加接近实际网络拓扑结构，能获得更加有效的路由。

建立邻居节点步骤:

（2）Pi根据网络的规模选择一个合适的TTL值发出Ping命令，主动探测与自己相通的节点;

（3）收到该消息的节点Pj，PkPm将返回应答消息。

应答消息包含返回消息经过的跳数Hop和返回消息的节点IP，以及返回消息节点的本地资源信息表;

（4）节点Pi将根据收到的应答消息中的Hop和收到消息的时间进行排序。

Hop越小则说明应答节点与Pi越接近。

根据网络规模Pi选择一定数量Hop较小（一般取Hop=

1）的节点作为邻居节点。

（5）节点Pi向选择的邻居节点发送消息。

邻居节点根据收到消息的时延等因素决定是否将其作为邻居节点。

2.2建立朋友节点在保证消息的转发是在沿着实际距离位置上

尽可能短的距离上进行的基础上，消息应该尽可能转发给最有可能存储查询资源的节点，因此查询消息要转发给兴趣最相似的节点。

建立朋友节点的步骤:

（1）如果节点Pi是新加入的节点，在建立邻居节点时，根据其他节点返回的本地信息表，可以计算出其他节点与Pi的兴趣相似度。

根据兴趣相似度将节点排序，根据网络规模取一定数量的相似度较高的节点作为朋友节点。

（2）节点Pi将与其他节点的兴趣相似度发给对应的节点。

其他节点根据其相似度决定是否将Pi作为自己的朋友节点。

（3）将所有的朋友节点按照兴趣相似度和查询历史排序。

当有新的节点加入时则将排在最后面的节点删除，再加入新的朋友节点。

2.3建立捷径节点节点的捷径节点就是那些与节点距离最近、兴趣相似的节点，即邻居节点集和朋友节点集的交集。

3搜索机制节点进行资源搜索的过程就是查询消息在网络中进行路由的过程。

进行搜索的依据就是节点维护的路由信息和采用的路由策略。

节点按照分组不同收集和保留一定的路由信息，使得路由尽量选择距离最近且兴趣最相似的节点。

3.1节点路由信息

（1）节点Pi加入系统后，建立邻居节点、朋友节点和捷径节点，然后建立相应的邻居节点、朋友节点和捷径节点的索引表。

（2）在节点进行查询时和节点共享资源更新时动态地维护索引表。

当有节点Pj退出系统时，本地节点Pi如果在Pj的索引表内，会收到Pj退出系统的消息，然后把Pi的索引表内Pj相关信息删除。

如果Pi不在Pj的索引表内，虽然不能收到退出消息，但由于此链接不存在经过几次查询的正反馈，将会从索引表中删除。

当有搜索成功消息从节点Pj返回节点Pi时，Pi就根据公式

（2）对相对Pj的兴趣相似度Sˊ进行更新其中Sˊ的初始值根据公式

（1）为;为信息量的挥发率，通常01避免信息量无限累加;

为信息增量，是该搜索成功消息留在Pj的信息量，即表征了此次成功搜索对下次搜索的影响，计算公式为:

-TTLTTL

（3）其中n为一个常量系数;TTL为搜索成功消息到达Pi节点的存活时间，因此离目标越近，其信息量越大。

Pi修改了与Pj的兴趣相似度Sˊ后，如果Pj不在Pi的朋友节点索引表中，将Sˊ与朋友节点索引表中最小兴趣相似度S比较。

若SˊS，则删除S的相应节点，将Pj节点加入朋友节点索引表。

最后根据兴趣相似度排序朋友节点索引表，重新确定捷径节点索引表。

根据当返回一条搜索成功的消息时，需要沿途修改各节点的路由信息表。

在Pj中找到Pi需要的资源，中间经过Pm，PnPl等节点，成功消息返回Pi时也要修改Pm中相对Pj的兴趣相似度、Pn中相对Pj的兴趣相似度Pl中相对Pj的兴趣相似度。

（3）当节点离开系统时，给自己索引表中的节点发送一个离开系统的消息，索引表中的节点收到该信息，则将发送离开消息的节点从自己的索引表中删除。

3.2搜索策略

（1）当一个节点发起搜索请求后，首先判断该节点是否有索引表。

如果没有，说明节点是新加入节点，采用底层搜索机制进行搜索。

（2）如果节点已经有了索引表，则将查询请求转发给所有的捷径节点。

捷径节点查询本地资源表，如果查询成功则返回查询结果，如果没有获得查询结果则将查询请求转发给自己的捷径节点。

（3）如果通过捷径节点没有获得查询结果，则将查询请求转发给朋友节点。

朋友节点查询本地资源表，如果查询成功则返回查询结果，如果没有获得查询结果则将查询请求转发给自己的朋友节点。

（4）如果通过朋友节点没有获得查询结果，则将查询请求转发给朋友节点。

邻居节点查询本地资源表，如果查询成功则返回查询结果，如果没有获得查询结果则将查询请求转发给自己的邻居节点。

（5）如果依然没有搜索到需要的资源，则采用底层的搜索机制进行搜索。

3实验结果分析为了评价的资源搜索算法是否有效，建立了仿真程序来模拟P2P环境，与泛洪算法和随机漫步算法进行了比较，

试验结果充分证明了算法相对泛洪算法和随机漫步算法的优势。

提出一种基于兴趣和搜索经验的搜索算法，该算法通过将节点分组为邻居节点、朋友节点和捷径节点，用节点间兴趣相似度和之前的搜索结果来指导节点进行资源搜索。

实验结果表明，本算法能有效地减少查询带来的网络流量，提高资源搜索的成功率。

搜索引擎是人们使用Internet信息资源的重要工具。

对目前的中文搜索引擎进行了简要的分析，指出了其存在的缺陷和发展的方向。

信息检索中文搜索引擎存在的问题发展方向

关键词:

搜索引擎

要建设符合中国国情的网络伦理体系就必须重视全球性道德共识和本土的文化资源，加强网络道德建设。

摘要:

网络伦理在很多方面对信息与网络安全有着重大影响。

讨论了网络伦理对信息与网络安全的影响，

关键词:

网络服务,责任,哲学

关键词:

上册,年级

展开阅读全文