网络信息采集大师使用手册.docx

资源描述

网络信息采集大师使用手册.docx

《网络信息采集大师使用手册.docx》由会员分享，可在线阅读，更多相关《网络信息采集大师使用手册.docx（32页珍藏版）》请在冰点文库上搜索。

网络信息采集大师使用手册.docx

网络信息采集大师使用手册

一、软件界面介绍ﻩ2

二、分类ﻩ２

四、脚本类型任务8

五、地址列表类型任务ﻩ9

七、任务调度１９

九、数据库24

十、系统设置28

十一、其他ﻩ29

十二、注意事项2９

一、软件界面介绍

菜单和工具栏:

在软件的最上面。

工具栏提供了最常用的功能。

分类数据区:

软件的左边部分。

分类的目的是数据清晰，便于管理。

任务区：

软件的中间部分。

任务属于某个分类，任务也是本软件的核心。

采集数据区：

右下部分。

采集任务执行后，会动态的显示该任务的数据区。

该区数据可以导出为文本,Exceｌ和数据库。

二、分类

分类是为方便数据和任务管理而设计的。

默认有三个分类:

自定义类别，正在运行,回收站。

用户自己建的类别只能属于自定义类别。

正在运行类别里只包含正在运行的任务,任务停止后自动退出该类。

回收站是给用户以重新利用的机会。

分类没有层次限制，理论上可以建立无限个，无限层类别。

类别数据有三个最新备份，放在目录\fｉlｅｓ下,为数据安全提供了可靠保障。

备份分类数据库/恢复分类数据库:

在菜单[文件]下面。

用此功能可手动备份或手动恢复分类数据。

新建类别:

在[自定义类别]点右键\新建，或者选菜单任务\新建。

在打开的窗口里输入类别名称,注释后保存。

注意:

在新建一个类别之前,要先选择[自定义类别]或其子类，新建的类属于选择的类的子类。

类别移动:

在［自定义类别]点右键\移动到，或者选菜单任务\移动到。

在打开的窗口里选择一个其他的类，保存后该类移动。

注意：

在移动一个类之前,要先选择[自定义类别]的子类或者回收站里的类。

把一个类移动到回收站就是删除该类。

类别修改:

在［自定义类别]点右键\属性,或者选菜单任务\属性。

在打开的窗口修改后保存。

类别删除:

删除分两种:

临时删除和彻底删除。

把[自定义类别]的类删除属于临时删除,把回收站里的类删除属于彻底删除。

三、UＲL导航类型任务

UＲＬ导航类型任务是使用最为广泛的任务类型，特点是低耗高效，功能极其强大。

任务的建立有很多技巧,可在实践中去体会。

可在官方网站找到经常会更新的帮助信息:

在线帮助|常见问题解答

下面介绍关于任务设置的基本概念,核心内容和设置技巧:

综述：

URL导航任务最为常用。

在浏览器里浏览不同的网页数据，地址都会随之做相应的变化,这种情况最适合URL型。

URL型的特点是低耗高效,可在系统工具栏‘选项’里面通过设置不同的运行线程数,自由控制速度。

需要登录才能看到的信息,要先在'登录设置＇里进行登录．

1.1任务概述

点工具栏里的‘新建’或者菜单‘任务\新建’。

打开新建任务窗口。

如图：

任务名称:

必填项。

给该任务起一个具有标示性的名字。

可以是汉字,字母,数字或其组合。

任务注释:

可选项。

给该任务作一个备注。

所属类别：

必填项。

可选择"自定义类别"或其子类的任一分类。

任务类型：

用URL导航类型。

登录设置:

有些网站需要登录后才能看到需要的数据,可在此处登录，登录后关闭登录窗口，　即可保存登录设置。

点[下一步]后，进入采集规则的设置。

1.2采集规则

此页数据的填写较为关键,直接关系到数据能否采集。

起始地址:

必填项。

要采集页面的开始地址。

也可以是一个本地文件，如c:

\lisｔ.txt,该文本文件里是采集页面的地址集合。

导航关键字:

可连接到下一页的关键字符串。

一般来说采集的信息是多页的,如,等等,页码数字前面的字符串pａge就是导航关键字。

若不添该项，则只采集起始地址的数据。

采集页数范围：

采集哪一页到哪一页之间的数据，可以是１到1００0，也可以是100１到１5０0等。

若不添该项,则只采集起始地址的数据。

增量:

默认为1。

一般来说页码变化是连续的。

采集网址标识：

需要抓取数据的页面的ＵＲL地址关键字。

若采集本级页面数据,为空即可。

过滤网址标识：

不打算采集的页面地址里的关键字,一般情况下不用。

关联网址标识：

一次采集多个页面的信息组合成一条数据。

在此填写关联网址的关键字。

注意该标识符在整个网页源码中具有唯一性,可以组合url前后的字符串来标识。

采集数据页包含分页:

一般用来采集新闻,文章等一篇文章用多个页面来显示的情况,关键字就是分页地址里的关键字符串。

采集关键字替换:

一般不用,为了提高采集效率设置。

目的是把某些urｌ地址，直接替换成自己想要采集数据的ｕｒｌ地址；而这个地址可能隐藏在比较深的页面之下,若直接采集的话，会在查找ｕｒl地址上浪费大量时间。

点［下一步］　后,进入数据提取规则的设置。

1.3数据提取规则

如图：

本页提取多行同类数据:

比如只采集文章的标题列表等。

中文名称：

自己随便命名.比如‘姓名’‘联系地址’等。

前标识符:

确定一个数据值的前符号。

在源文件里查找。

（先在软件的浏览器里打开要分析的网页，然后点‘源文件’按钮,可显示要分析的源文件数据。

注意不要直接用ｉe浏览器得到网页源代码，一定要用软件的‘源文件’按钮）

后标识符:

确定一个数据值的后符号。

参考前标识符的解释。

信息类型:

其中有几种最为常用，分别予以解释:

URL类型:

当一个数据项被设置成URL类型时，假如采集到地址不完整，会自动格式化成一个完整的地址。

比如采集到的是/100１.htm，而任务的'网站首页'设置为,那么地址会自动格式化为

附加类型:

采集的信息里,有循环的，有不循环的，这时不参与循环的要设置为附加类型。

附加类型的数据项可在信息的头部或底部，不可在中间穿插。

常量：

有时采集的数据项里，　其中有一个或多个数据项不需要采集，　但要和采集结果在一起，可把这些数据项设置为常量,常量的值就是前标识符的值。

多媒体类型：

用于自动下载二进制文件。

比如采集到类似，会自动下载到本地。

文章类型：

用于采集新闻等。

关联地址类型：

该类型数据用于作为关联UＲL使用,可实现把分散在多个页面数据整合成一条。

与＂采集规则－关联网址标识"作用类似。

提取数据页的全部数据作为一个数据列：

把采集的数据整个输出。

一般适用于数据很难拆分的情况。

若使用该项，下面的不用再设置。

保存对应的URL:

有时候URL能标识一行具体的数据，这样数据导入数据库后，用户能很方便的分辨。

区分大小写:

采集英文的数据，可选中此项，因为中文没有大小写之分。

（采集新闻最好选中该项，有些图片地址对大小写敏感）

自动截取字串：

使用默认即可。

保留ｈtmｌ代码：

默认情况下,采集到的hｔml代码中,<＞之间的部分会自动清除，选中该项后可保留代码；比如采集文章等,保留原代码相当于保留了原格式。

该选项是针对每个数据项的,这样做的好处是有些数据项是不需要保留ｈtml代码的，有更大的灵活性。

附：

填写前后标识符要领

1.一个数据项,一定要在前后标识符之间。

比如类似这样的源文件:

<ｔｒ>地址:

<／td>　北京...。

要采集‘地址:

北京’，那么前标识符是‘<ｔｒ>’,后标识符是‘<／tr>’,而不是‘’。

因为‘北京’前面已经有个‘’。

至于<＞之间的数据,软件会当作无效字符,自动忽略。

当然，如果选中'保留hｔmｌ代码',　<＞之间的字符会保留下来

2.采集数据项的顺序一般要和网页上的数据项的顺序一致。

这个很好理解，提取信息是按照从上而下的顺序。

当然，如果去掉‘自动截取字符串’选项，则可以不按照从上而下的顺序，但要确保每个采集项的前后标识符具有唯一性,否则采集到的数据可能不是想要的数据。

3.若打开‘区分大小写’选项,则前后标识符的大小写一定要正确。

采集英文信息注意打开此项。

四、脚本类型任务

脚本类型任务适用于ｊaｖascrｉpt等脚本来操控网站的情况,如点下一页时地址栏没有变化，用类似ｊａvaｓcｒｉp:

poｓt（'nexｔ',１）

等来控制。

可在官方网站找到经常会更新的帮助信息：

在线帮助　|　常见问题解答

综述:

脚本类型任务的‘任务概述’和‘数据提取规则’与URＬ导航类型任务基本一样,不同之处在于采集规则，这里只讲述

采集规则设置。

操作界面如下：

脚本类型任务分脚本式和点击式。

脚本式：

在把鼠标放在一个页面地址链接上面的时候，在浏览器状态栏的左下角,会显示鼠标所在处的url地址，有些地址是完整的，有的是类似jaｖascript:

subｍit（'pagｅ',2）等样式,这种情况下,可用脚本式。

比如,前脚本是　ｊavascript：

sｕbmit（'pａgｅ',,后脚本是）,页码变化范围可以是1　,　10等等，即前脚本+当前页码＋后脚本＝一个完整的脚本链接

点击式：

一般来说,点击式可包容脚本式,一个页面里的＂下一页＂,　"下页＂等等都可以作为脚本式的"导航对象的标签"；　导航对象的索引值即指该导航对象标签在整个页面中所处的位置,填写导航对象的标签会忽略其索引值的填写。

可以指定点击次数,也可以是直到最后一页才结束。

五、地址列表类型任务

地址列表类型的任务,适用于已经有大量的数据源地址（UＲL），可以直接用这些URＬ直接获取数据的情况。

可以用这种类型任务采集

本地磁盘上的信息,也可以采集网络上的信息。

其本质和URL类型任务相似。

官方网站经常会更新的帮助信息：

在线帮助　｜　常见问题解答

综述：

地址列表类型任务的‘任务概述’和‘数据提取规则’与URL导航类型基本一样，不同之处在于采集规则,这里只讲述采集规则设置。

操作界面如下:

指定本地文件：

必须是一个文本文件,里面是要采集的URＬ地址集合。

如下图:

也可以让软件自动分析网上的某一个页面得到地址列表。

后台执行:

默认是从后台获取数据，和ＵRL导航类型类似;不选该项,则和脚本类型任务相似,运行前弹出类似ｉe窗口。

六、数据采集的更多高级设置技巧（任务-数据提取规则-‘更多设置’按钮）

可以设置数据自动保存，编码方式，获取网页框架等;

可以设置完整采集或增量采集（断点续采）；

可以边采集边过滤，把不符合条件的数据过滤掉;

可以自动分类。

把采集的数据按照自己的要求自动归类。

可以边采集边自动加工，包括多个采集项和字符串自由合并,数据替换，数据删除等；

可以设置功能强大的新闻采集参数,设置新闻模板等。

把设置好的任务,加入到任务调度里面，就可以实现自动采集,自动加工，自动发布（入库）的一条龙自动化采集流程！

一.常规。

包含自动保存,编码方式,获取网页框架数据等。

如下图:

二.采集类型。

包含完整采集和增量采集（断点续采）,增量采集可有效的减少网络负荷，只对新增的数据进行采集；增量采集只需设置URL采集项和表的存放UＲL地址的字段对应即可。

如下图:

三.采集过滤。

可根据自己设定的过滤条件,对不符合条件的数据自动过滤掉。

如下图:

四.自动分类。

自动分类用于对采集的数据,可按照自己事先设置好的关键词,自动归类。

如下图是一个自动分类的公式：

其中：

分类，公司名称是采集项名称，包含在[］　之间表示作为变量。

上面公式的含义是：

如果公司名称这个采集项里包含北京，上海，深圳这三个关键词中的任意一个,则给分类这个采集项赋相应的值。

可以创建任意多个公式，比如再添加一个公式：

[分类１]=[公司名称］机械,化工,电子,餐饮,网络　,那么就是对公司名称这个采集项作为按行业分类　。

两个公式实现了对采集的数据既按地区又按行业进行自动分类。

分类之外的默认为‘其他’,表示采集项里不包含罗列出的关键词,则以‘其他’作为分类名称。

五.采集加工。

　对采集到的数据,可自动加工。

包括数据合并组合与数据替换。

可一次添加多个公式，每个公式之间用回车隔开。

1．数据合并。

如下图,可自由设置数据合并公式,[]之间是变量，即某个采集项；下图数据合并的结果就是把名称和联系人两个采集

　项的值,一同赋给名称这个采集项。

在其中也可以添加常数,如：

［名称]=１２3+［名称]+456+[联系人］等等。

　特殊字符处理：

空格用#32表示，Tab用#9表示，回车用＃１3#1０表示。

如:

[名称］＝123+#9+[名称］

2.　数据替换。

书写格式如下图，采集项作为变量，用[]括起来，[替换为］是关键字符，表示把某个采集数据项里的某某替换为某某;假如

打算把某某字符删除，则直接写　'[采集项名称]=某某[替换为]'即可。

六.文章化处理。

适用于采集新闻，产品介绍等文章类数据,特别是需要把这些数据里面的图片等文件下载到本地。

如下图，首先要选中’此任务规则用来采集新闻,通告，产品介绍等文章类数据‘,下面的设置才会生效。

（采集项的采集类型要设置成”文章类型“,在数据提取规则里设置）

文章（正文）或图片等文件自动下载到目录：

文章和图片会下载到此目录下（图片下载到\image）。

下载图片同时下载文章：

把与之对应的文章也下到本地。

图片下载后,更新正文信息时使用相对路径：

图片会下载后,会同时更改正文的该图片路径。

相对路径格式为imａgｅ\*．ｊpg；不选该项使用绝对路径,，如c:

\ｎews\ｉmagｅ＼１.ｊpg。

文件下载时，遇同名文件自动重命名:

图片或文件保存到本地磁盘时，遇到同名文件自动命名；默认为覆盖掉同名文件。

采集项的第几个作为文章名称:

若该值为0，则用原文件名，否则使用第几个采集项的内容作为下载后的文件名。

应用模板文件:

可针对采集项作模板，文章下载后按照设定的模板格式填充内容。

例:

假如有这样一个采集任务，包含‘标题，新闻来源，时间,正文’4个采集项，可做一个这样的模板文件（<ｈtml>和<／hｔｍl＞之间的文字是模板文件内容，txt,hｔm等类型文件均可）:

[标题]

＜p>

来源:

[新闻来源]　＆nbsｐ；&ｎbｓp；&ｎbsp；时间：

[时间]<ｐ>

[正文]

采集的数据就会正确填充到相应的地方，然后把文件保存到本地,这样一篇篇新闻就按照自己设定的格式完成了。

采集新闻注意事项：

若不打算把采集到的新闻自动保存为本地文件,则不用特殊设置,只按照采集普通信息设置即可，否则需要注意以下地方：

把采集正文的采集项，信息类型设置成文章类型,同时允许保留ｈtml代码,最好选中区分大小写（有的图片文件名大小写敏感）。

在该任务-更多设置－文章里,设置相应的选项。

假如新闻正文里包含有广告等不打算要的内容,可使用更多设置-数据加工－数据替换，把非法字符替换为空即可（相当于删除）。

七、任务调度

任务调度即调度任务的运行。

可设置为自动随软件运行,或在某个时刻运行；可运行指定的次数,或者循环运行。

从而达到使采集的数据同步,实现从采集到加工到数据发布的一条龙服务自动化。

1.设置任务调度：

菜单-任务-任务调度，会打开如下窗口

双击左边的‘所有任务’里的一个任务，就会添加到‘自动运行任务’区，在此区域选择一个任务，即可对此任务做调度设置。

2.采集的数据会自动添加到数据库里面,因此需要对连接数据库做正确的设置。

刷新（若此时未做数据库连接参数配置,需要先配置连接）,选择一个表后,点数据列对应关系后的小按钮，会打开如下窗口：

在此窗口,可把采集的数据与选择的表做一一对应连接。

并且可设置不可重复数据列,这样当采集的数据有重复的时候，会自动过滤。

设置完后，保存该任务的设置,然后再进行下一个任务的设置。

当软件启动后,会自动弹出自动运行筛选窗口，决定对哪些任务进行调度。

注意：

每个任务的调度参数设置完后,都要‘保存设置’,然后再设置下一个需要调度的任务。

数据库表需要注意三个问题:

字段类型，字段长度和唯一索引或主键。

设置数据库注意的问题请看‘数据库’一节的说明。

八、数据导出（发布）

操作界面如下:

可把采集的数据导出为３种类型:

文本,Exｃel和数据库。

一。

导出为文本:

只有窗口的上半部分的功能有效，下半部分为数据库功能,不用设置。

若打算把采集数据项的标题一起导出,可勾选“导出列标题”,默认只导出采集的数据;可选择导出的数据范围，比如1-100０行，5０00-20０00行等。

二。

导出为Ｅｘcel:

只有窗口的上半部分的功能有效,　下半部分为数据库功能,不用设置。

若打算把采集数据项的标题一起导出，可勾选“导出列标题”,默认只导出采集的数据；可选择导出的数据范围,比如１－1000行,5０0０-2０000行等。

注意：

导出excel时不要对excel文件有任何操作（点击，调整宽度等），否则可能导致异常;若没任何操作情况下仍有异常，一般重装Ｏffice软件可得到彻底解决。

三。

导出到数据库:

导出到数据库时,窗口的上半部分只有“导出行范围”有效，列标题不会导入到数据库。

窗口的下半部分,即标志“数据库”的部分才需要重点设置。

一般需要进行以下步骤：

1．配置数据库连接。

目前完整测试的数据库有Acｃｅss，Sqｌｓerveｒ,Orａclｅ，MｙSqｌ。

２．选择导入哪个表。

假如已经配置好了数据库连接，点“刷新”,可得到连接数据库的表,选择一个表导入。

或者使用新表,勾选“使用新表”，添入表名称，可自动创建表。

3.假如是导入数据库里已经存在的表,并且表里的字段个数（或叫列个数）与采集数据项的个数完全一致,并且字段长度可容纳采集的数据，可直接点“确定”,数据会自动导入数据库。

假如不能满足这两个条件（即字段和采集项个数一一对应,字段长度足够长）,导入数据库会发生异常；字段长度不够可到数据库里更改字段长度（字段应该是字串类型或兼容类型,如ＳqlＳｅｒvｅr的tｅxt类型也可以，至于多长合适可用“表字段长度参考”,长些无妨）；不是一一对应的,可用“定义数据接口”,打开如下界面：

在此窗口中可设置哪个数据项对应哪个字段,还可设置不可重复数据列（发现重复的数据自动过滤掉）,非常方便。

常见问题解答:

为什么导入数据库有时发生异常?

导入到数据库，需要注意以下三点：

导入到数据库的数据,默认的都是字符串类型,因为从网上采集的数据，难免有不规范的，而字串是通用的数据类型。

因此,当导入异常时,可检查数据库表是否有其他类型，确保所有的字段都是字符串类型或兼容类型（如ｎtｅｘt类型,备注类型等）。

表的字段长度要足够。

把长度为１00的数据导入到只有５０长度的字段中,肯定会出错。

所以要给表的字段长度足够才可以。

采集数据项和表的字段要一一对应。

假如采集的数据项是5个，而表里的字段个数为大于或少于5个，那要设置“自定义接口”，设置一一对应关系（需要导入哪几个采集项就设置哪几个,　最少要设置一个）。

不导入数据的字段一定要允许为空,　或者不允许为空但要有默认值，　否则出错。

总结为一句话:

字段类型,字段长度和一一对应。

这三点都作正确了,就可正确的导入到数据库。

总之，导入数据库时要符合数据库的基本要求。

九、数据库

连接数据库:

连接Acｃess和sqlservcer（数据库接口是OLEＤB）

若是连接sｑlseｒｖer,数据库有密码时,要注意选中＂允许保存密码"，如下图:

连接到Ｏｒacｌe和ＭyＳｑl有专用数据库接口,在"配置数据库连接"窗口选择相应的类型，就会打开配置窗口,填写参数,保存即可。

如下图：

导出数据到数据库。

操作界面如下:

可把采集的数据导出为3种类型:

文本，　Eｘceｌ和数据库。

Ａ.导出为文本:

只有窗口的上半部分的功能有效,下半部分为数据库功能,不用设置。

若打算把采集数据项的标题一起导出，可勾选“导出列标题”，默认只导出采集的数据；可选择导出的数据范围，比如1-1000行，5０0０-20000行等。

B．导出到Exｃel:

只有窗口的上半部分的功能有效,　下半部分为数据库功能，不用设置。

若打算把采集数据项的标题一起导出，可勾选“导出列标题”，默认只导出采集的数据;可选择导出的数据范围，比如1-１0０0行，5000－20000行等。

注意：

导出ｅxｃel时不要对eｘcｅｌ文件有任何操作（点击,调整宽度等）,否则可能导致异常；若没任何操作情况下仍有异常，一般重装Ｏffice软件可得到彻底解决。

C.导出到数据库:

导出到数据库时,窗口的上半部分只有“导出行范围”有效，列标题不会导入到数据库。

窗口的下半部分,即标志“数据库”的部分才需要重点设置。

一般需要进行以下步骤:

1.配置数据库连接。

目前完整测试的数据库有Acceｓs,　Sqｌｓeｒver，Oｒａcｌe，MｙSql。

２．选择导入哪个表。

假如已经配置好了数据库连接，点“刷新”,可得到连接数据库的表,选择一个表导入。

或者使用新表,勾选“使用新表”，添入表名称，可自动创建表。

3.假如是导入数据库里已经存在的表，并且表里的字段个数（或叫列个数）与采集数据项的个数完全一致,并且字段长度可容纳采集的数据,可直接点“确定”，数据会自动导入数据库。

假如不能满足这两个条件（即字段和采集项个数一一对应，字段长度足够长），导入数据库会发生异常;字段长度不够可到数据库里更改字段长度（字段应该是字串类型或兼容类型，如ＳqlServer的text类型也可以，至于多长合适可用“表字段长度参考”，长些无妨）；不是一一对应的,可用“定义数据接口”，打开如下界面:

在此窗口中可设置哪个数据项对应哪个字段,还可设置不可重复数据列（发现重复的数据自动过滤掉）,非常方便。

常见问题解答：

为什么导入数据库有时发生异常?

导入到数据库，需要注意以下三点：

导入到数据库的数据，默认的都是字符串类型,因为从网上采集的数据，难免有不规范的，而字串是通用的数据类型。

因此,当导入异常时，可检查数据库表是否有其他类型,确保所有的字段都是字符串类型或兼容类型。

表的字段长度要足够。

把长度为100的数据导入到只有50长度的字段中，肯定会出错。

所以要给表的字段长度足够才可以。

采集数据项和表的字段要一一对应。

假如采集的数据项是5个,而表里的字段个数为大于或少于5个,那要设置“自定义接口”,设置一一对应关系（需要导入哪几个采集项就设置哪几个，最少要设置一个）。

不导入数据的字段一定要允许为空，或者不允许为空但要有默认值,否则出错。

总结为一句话：

字段类型,字段长度和一一对应。

这三点都作正确了,就可正确的导入到数据库。

总之，导入数据库时要符合数据库的基本要求。

十、系统设置

该设置在菜单的工具\选项里面,或者工具栏的选项。

最多同时运行的任务数:

默认为五个。

每个采集任务都会占用一定带宽。

为了保障每个任务都能顺利运行，同时运行的不要过多。

提示助手显示时间：

在每个窗口的每一个重要参数的填写上,鼠标在上面停留一下，就会显示相应的帮助信息。

可设置显示多长时间后自动消失。

密码保护:

在软件启动时提示输入登录密码。

代理设置：

可通过代理服务器采集数据。

搜索深度：

默认为1。

一般不用改动就能很好采集数据,深度大于1后会在查找数据上花费更多时间。

线程数:

默认5个。

可理解为同时有几个机器人去抓取数据。

一般设置为3-10个,就可大幅度提高采集效率。

退出时保存日志:

启用软件后可记录日志。

十一、其他

备忘录：

一天的采集任务很多,怕有遗忘的时候，可通过备忘录,代为记忆。

扩展菜单：

一般是为了扩展数据分析功能。

比如您自己开发了一个数据库软件,这个软件用来分析采集的数据,

可把软件挂接在本软件上,方便使用。

日志：

记录每个重要的操作。

比如对类别的维护，对任务的维护等等。

可对日志进行清理和备份。

密码保护：

如果您不想他人随意进

展开阅读全文