网络爬虫Java实现原理Word下载.docx

资源描述

网络爬虫Java实现原理Word下载.docx

《网络爬虫Java实现原理Word下载.docx》由会员分享，可在线阅读，更多相关《网络爬虫Java实现原理Word下载.docx（19页珍藏版）》请在冰点文库上搜索。

网络爬虫Java实现原理Word下载.docx

spider.addURL（base）;

spider.begin（）;

首先，一个新的Spider对象被实例化，在此，需要传递一个“ISpiderReportable”对象给Spider对象的构造函数，因为“CheckLinks”类实现了“ISpiderReportable”接口，只需简单地把它作为当前对象（可由关键字this表示）传递给构造函数即可；

其次，在程序中维护了一个其访问过的URL列表，而“clear”方法的调用则是为了确保程序开始时URL列表为空，程序开始运行之前必须添加一个URL到它的待处理列表中，此时用户输入的URL则是添加到列表中的第一个，程序就由扫描这个网页开始，并找到与这个起始URL相链接的其他页面；

最后，调用“begin”方法开始运行“蜘蛛”，这个方法直到“蜘蛛”工作完毕或用户取消才会返回。

当“蜘蛛”运行时，可以调用由“ISpiderReportable”接口实现的三个方法来报告程序当前状态，程序的大部分工作都是由“spiderFoundURL”方法来完成的，当“蜘蛛”发现一个新的URL时，它首先检查其是否有效，如果这个URL导致一个错误，就会把它当作一个死链接；

如果链接有效，就会继续检查它是否在一个不同的服务器上，如果链接在同一服务器上，“spiderFoundURL”返回true，表示“蜘蛛”应继续跟踪这个URL并找出其他链接，如果链接在另外的服务器上，就不会扫描是否还有其他链接，因为这会导致“蜘蛛”不断地浏览Internet，寻找更多、更多的网站，所以，示例程序只会查找用户指定网站上的链接。

构造Spider类

前面已经讲了如何使用Spider类，请看例3中的代码。

使用Spider类及“ISpiderReportable”接口能方便地为某一程序添加“蜘蛛”功能，下面继续讲解Spider类是怎样工作的。

Spider类必须保持对其访问过的URL的跟踪，这样做的目的是为了确保“蜘蛛”不会访问同一URL一次以上；

进一步来说，“蜘蛛”必须把URL分成三组，第一组存储在“workloadWaiting”属性中，包含了一个未处理的URL列表，“蜘蛛”要访问的第一个URL也存在其中；

第二组存储在“workloadProcessed”中，它是“蜘蛛”已经处理过且无需再次访问的URL；

第三组存储在“workloadError”中，包含了发生错误的URL。

Begin方法包含了Spider类的主循环，其一直重复遍历“workloadWaiting”，并处理其中的每一个页面，当然我们也想到了，在这些页面被处理时，很可能有其他的URL添加到“workloadWaiting”中，所以，begin方法一直继续此过程，直到调用Spider类的cancel方法，或“workloadWaiting”中已不再剩有URL。

这个过程如下：

cancel=false;

while（!

getWorkloadWaiting（）.isEmpty（）&

cancel）{

Objectlist[]=getWorkloadWaiting（）.toArray（）;

for（inti=0;

（i<

LIST.LENGTH）&

CANCEL;

）i++>

processURL（（URL）list[i]）;

}

当上述代码遍历“workloadWaiting”时，它把每个需处理的URL都传递给“processURL”方法，而这个方法才是真正读取并解析URL中HTML信息的。

读取并解析HTML

Java同时支持访问URL内容及解析HTML，而这正是“processURL”方法要做的。

在Java中读取URL内容相对还比较简单，下面就是“processURL”方法实现此功能的代码：

URLConnectionconnection=url.openConnection（）;

if（（connection.getContentType（）!

=null）&

connection.getContentType（）.toLowerCase（）.startsWith（"

text/"

））{

getWorkloadWaiting（）.remove（url）;

getWorkloadProcessed（）.add（url）;

log（"

Notprocessingbecausecontenttypeis:

connection.getContentType（））;

return;

}

首先，为每个传递进来的变量url中存储的URL构造一个“URLConnection”对象，因为网站上会有多种类型的文档，而“蜘蛛”只对那些包含HTML，尤其是基于文本的文档感兴趣。

前述代码是为了确保文档内容以“text/”打头，如果文档类型为非文本，会从等待区移除此URL，并把它添加到已处理区，这也是为了保证不会再次访问此URL。

在对特定URL建立连接之后，接下来就要解析其内容了。

下面的代码打开了URL连接，并读取内容：

InputStreamis=connection.getInputStream（）;

Readerr=newInputStreamReader（is）;

现在，我们有了一个Reader对象，可以用它来读取此URL的内容，对本文中的“蜘蛛”来说，只需简单地把其内容传递给HTML解析器就可以了。

本例中使用的HTML解析器为SwingHTML解析器，其由Java内置，但由于Java对HTML解析的支持力度不够，所以必须重载一个类来实现对HTML解析器的访问，这就是为什么我们要调用“HTMLEditorKit”类中的“getParser”方法。

但不幸的是，Sun公司把这个方法置为protected，唯一的解决办法就是创建自己的类并重载“getParser”方法，并把它置为public，这由“HTMLParse”类来实现，请看例4：

importjavax.swing.text.html.*;

publicclassHTMLParseextendsHTMLEditorKit{

publicHTMLEditorKit.ParsergetParser（）

{

returnsuper.getParser（）;

这个类用在Spider类的“processURL”方法中，我们也会看到，Reader对象会用于读取传递到“HTMLEditorKit.Parser”中网页的内容：

HTMLEditorKit.Parserparse=newHTMLParse（）.getParser（）;

parse.parse（r,newParser（url）,true）;

请留意，这里又构造了一个新的Parser类，这个Parser类是一个Spider类中的内嵌类，而且还是一个回调类，它包含了对应于每种HTMLtag将要调用的特定方法。

在本文中，我们只需关心两类回调函数，它们分别对应一个简单tag（即不带结束tag的tag，如

）和一个开始tag，这两类回调函数名为“handleSimpleTag”和“handleStartTag”。

因为每种的处理过程都是一样的，所以“handleStartTag”方法仅是简单地调用“handleSimpleTag”，而“handleSimpleTag”则会负责从文档中取出超链接，这些超链接将会用于定位“蜘蛛”要访问的其他页面。

在当前tag被解析时，“handleSimpleTag”会检查是否存在一个“href”或超文本引用：

Stringhref=（String）a.getAttribute（HTML.Attribute.HREF）;

if（（href==null）&

（t==HTML.Tag.FRAME））

href=（String）a.getAttribute（HTML.Attribute.SRC）;

if（href==null）

如果不存在“href”属性，会继续检查当前tag是否为一个Frame，Frame会使用一个“src”属性指向其他页面，一个典型的超链接通常为以下形式：

上面链接中的“href”属性指向其链接到的页面，但是“linkedpage.html”不是一个地址，它只是指定了这个Web服务器上一个页面上的某处，这称为相对URL，相对URL必须被解析为绝对URL，而这由以下代码完成：

URLurl=newURL（base,str）;

这又会构造一个URL，str为相对URL，base为这个URL上的页面，这种形式的URL类构造函数可构造一个绝对URL。

在URL变为正确的绝对形式之后，通过检查它是否在等待区，来确认此URL是否已经被处理过。

如果此URL没有被处理过，它会添加到等待区，之后，它会像其他URL一样被处理。