网络信息采集大师使用手册.docx

上传人:b****1 文档编号:2039008 上传时间:2023-05-02 格式:DOCX 页数:32 大小:2.41MB
下载 相关 举报
网络信息采集大师使用手册.docx_第1页
第1页 / 共32页
网络信息采集大师使用手册.docx_第2页
第2页 / 共32页
网络信息采集大师使用手册.docx_第3页
第3页 / 共32页
网络信息采集大师使用手册.docx_第4页
第4页 / 共32页
网络信息采集大师使用手册.docx_第5页
第5页 / 共32页
网络信息采集大师使用手册.docx_第6页
第6页 / 共32页
网络信息采集大师使用手册.docx_第7页
第7页 / 共32页
网络信息采集大师使用手册.docx_第8页
第8页 / 共32页
网络信息采集大师使用手册.docx_第9页
第9页 / 共32页
网络信息采集大师使用手册.docx_第10页
第10页 / 共32页
网络信息采集大师使用手册.docx_第11页
第11页 / 共32页
网络信息采集大师使用手册.docx_第12页
第12页 / 共32页
网络信息采集大师使用手册.docx_第13页
第13页 / 共32页
网络信息采集大师使用手册.docx_第14页
第14页 / 共32页
网络信息采集大师使用手册.docx_第15页
第15页 / 共32页
网络信息采集大师使用手册.docx_第16页
第16页 / 共32页
网络信息采集大师使用手册.docx_第17页
第17页 / 共32页
网络信息采集大师使用手册.docx_第18页
第18页 / 共32页
网络信息采集大师使用手册.docx_第19页
第19页 / 共32页
网络信息采集大师使用手册.docx_第20页
第20页 / 共32页
亲,该文档总共32页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

网络信息采集大师使用手册.docx

《网络信息采集大师使用手册.docx》由会员分享,可在线阅读,更多相关《网络信息采集大师使用手册.docx(32页珍藏版)》请在冰点文库上搜索。

网络信息采集大师使用手册.docx

网络信息采集大师使用手册

网络信息采集大师使用手册

一、软件界面介绍ﻩ2

二、分类ﻩ2

四、脚本类型任务8

五、地址列表类型任务ﻩ9

七、任务调度19

九、数据库24

十、系统设置28

十一、其他ﻩ29

十二、注意事项29

一、软件界面介绍

菜单和工具栏:

在软件的最上面。

工具栏提供了最常用的功能。

分类数据区:

软件的左边部分。

分类的目的是数据清晰,便于管理。

任务区:

软件的中间部分。

任务属于某个分类,任务也是本软件的核心。

采集数据区:

右下部分。

采集任务执行后,会动态的显示该任务的数据区。

该区数据可以导出为文本,Excel和数据库。

二、分类

分类是为方便数据和任务管理而设计的。

默认有三个分类:

自定义类别,正在运行,回收站。

用户自己建的类别只能属于自定义类别。

正在运行类别里只包含正在运行的任务,任务停止后自动退出该类。

回收站是给用户以重新利用的机会。

分类没有层次限制,理论上可以建立无限个,无限层类别。

类别数据有三个最新备份,放在目录\files下,为数据安全提供了可靠保障。

 

备份分类数据库/恢复分类数据库:

在菜单[文件]下面。

用此功能可手动备份或手动恢复分类数据。

新建类别:

在[自定义类别]点右键\新建,或者选菜单任务\新建。

在打开的窗口里输入类别名称,注释后保存。

注意:

在新建一个类别之前,要先选择[自定义类别]或其子类,新建的类属于选择的类的子类。

类别移动:

在[自定义类别]点右键\移动到,或者选菜单任务\移动到。

在打开的窗口里选择一个其他的类,保存后该类移动。

注意:

在移动一个类之前,要先选择[自定义类别]的子类或者回收站里的类。

把一个类移动到回收站就是删除该类。

类别修改:

在[自定义类别]点右键\属性,或者选菜单任务\属性。

在打开的窗口修改后保存。

类别删除:

删除分两种:

临时删除和彻底删除。

把[自定义类别]的类删除属于临时删除,把回收站里的类删除属于彻底删除。

三、URL导航类型任务

URL导航类型任务是使用最为广泛的任务类型,特点是低耗高效,功能极其强大。

任务的建立有很多技巧,可在实践中去体会。

可在官方网站找到经常会更新的帮助信息:

在线帮助|常见问题解答

下面介绍关于任务设置的基本概念,核心内容和设置技巧:

综述:

URL导航任务最为常用。

在浏览器里浏览不同的网页数据,地址都会随之做相应的变化,这种情况最适合URL型。

URL型的特点是低耗高效,可在系统工具栏‘选项’里面通过设置不同的运行线程数,自由控制速度。

需要登录才能看到的信息,要先在'登录设置'里进行登录.

1.1任务概述

点工具栏里的‘新建’或者菜单‘任务\新建’。

打开新建任务窗口。

如图:

任务名称:

必填项。

给该任务起一个具有标示性的名字。

可以是汉字,字母,数字或其组合。

任务注释:

可选项。

给该任务作一个备注。

所属类别:

必填项。

可选择"自定义类别"或其子类的任一分类。

任务类型:

用URL导航类型。

登录设置:

有些网站需要登录后才能看到需要的数据,可在此处登录,登录后关闭登录窗口, 即可保存登录设置。

点[下一步]后,进入采集规则的设置。

1.2采集规则

此页数据的填写较为关键,直接关系到数据能否采集。

起始地址:

必填项。

要采集页面的开始地址。

也可以是一个本地文件,如c:

\list.txt,该文本文件里是采集页面的地址集合。

导航关键字:

可连接到下一页的关键字符串。

一般来说采集的信息是多页的,如,等等,页码数字前面的字符串page就是导航关键字。

若不添该项,则只采集起始地址的数据。

采集页数范围:

采集哪一页到哪一页之间的数据,可以是1到1000,也可以是1001到1500等。

若不添该项,则只采集起始地址的数据。

 

增量:

默认为1。

一般来说页码变化是连续的。

采集网址标识:

需要抓取数据的页面的URL地址关键字。

若采集本级页面数据,为空即可。

过滤网址标识:

不打算采集的页面地址里的关键字,一般情况下不用。

关联网址标识:

一次采集多个页面的信息组合成一条数据。

在此填写关联网址的关键字。

注意该标识符在整个网页源码中具有唯一性,可以组合url前后的字符串来标识。

采集数据页包含分页:

一般用来采集新闻,文章等一篇文章用多个页面来显示的情况,关键字就是分页地址里的关键字符串。

采集关键字替换:

一般不用,为了提高采集效率设置。

目的是把某些url地址,直接替换成自己想要采集数据的url地址;而这个地址可能隐藏在比较深的页面之下,若直接采集的话,会在查找url地址上浪费大量时间。

点[下一步] 后,进入数据提取规则的设置。

1.3数据提取规则

如图:

本页提取多行同类数据:

比如只采集文章的标题列表等。

中文名称:

自己随便命名.比如‘姓名’‘联系地址’等。

 

前标识符:

确定一个数据值的前符号。

在源文件里查找。

(先在软件的浏览器里打开要分析的网页,然后点‘源文件’按钮,可显示要分析的源文件数据。

注意不要直接用ie浏览器得到网页源代码,一定要用软件的‘源文件’按钮)

后标识符:

确定一个数据值的后符号。

参考前标识符的解释。

 

信息类型:

其中有几种最为常用,分别予以解释:

 

URL类型:

当一个数据项被设置成URL类型时,假如采集到地址不完整,会自动格式化成一个完整的地址。

比如采集到的是/1001.htm,而任务的'网站首页'设置为,那么地址会自动格式化为

附加类型:

采集的信息里,有循环的,有不循环的,这时不参与循环的要设置为附加类型。

附加类型的数据项可在信息的头部或底部,不可在中间穿插。

常量:

有时采集的数据项里, 其中有一个或多个数据项不需要采集, 但要和采集结果在一起,可把这些数据项设置为常量,常量的值就是前标识符的值。

多媒体类型:

用于自动下载二进制文件。

比如采集到类似,会自动下载到本地。

文章类型:

用于采集新闻等。

关联地址类型:

该类型数据用于作为关联URL使用,可实现把分散在多个页面数据整合成一条。

与"采集规则-关联网址标识"作用类似。

提取数据页的全部数据作为一个数据列:

把采集的数据整个输出。

一般适用于数据很难拆分的情况。

若使用该项,下面的不用再设置。

 

保存对应的URL:

有时候URL能标识一行具体的数据,这样数据导入数据库后,用户能很方便的分辨。

区分大小写:

采集英文的数据,可选中此项,因为中文没有大小写之分。

(采集新闻最好选中该项,有些图片地址对大小写敏感)

自动截取字串:

使用默认即可。

保留html代码:

默认情况下,采集到的html代码中,<>之间的部分会自动清除,选中该项后可保留代码;比如采集文章等,保留原代码相当于保留了原格式。

该选项是针对每个数据项的,这样做的好处是有些数据项是不需要保留html代码的,有更大的灵活性。

 

附:

填写前后标识符要领

1.一个数据项,一定要在前后标识符之间。

比如类似这样的源文件:

<tr>地址:

</td> 北京...

要采集‘地址:

北京’,那么前标识符是‘<tr>’,后标识符是‘</tr>’,而不是‘’。

因为‘北京’前面已经有个‘’。

至于<>之间的数据,软件会当作无效字符,自动忽略。

当然,如果选中'保留html代码', <>之间的字符会保留下来

2.采集数据项的顺序一般要和网页上的数据项的顺序一致。

这个很好理解,提取信息是按照从上而下的顺序。

当然,如果去掉‘自动截取字符串’选项,则可以不按照从上而下的顺序,但要确保每个采集项的前后标识符具有唯一性,否则采集到的数据可能不是想要的数据。

3.若打开‘区分大小写’选项,则前后标识符的大小写一定要正确。

采集英文信息注意打开此项。

四、脚本类型任务

脚本类型任务适用于javascript等脚本来操控网站的情况,如点下一页时地址栏没有变化,用类似javascrip:

post('next',1)

等来控制。

可在官方网站找到经常会更新的帮助信息:

在线帮助 | 常见问题解答

综述:

脚本类型任务的‘任务概述’和‘数据提取规则’与URL导航类型任务基本一样,不同之处在于采集规则,这里只讲述

采集规则设置。

操作界面如下:

脚本类型任务分脚本式和点击式。

脚本式:

在把鼠标放在一个页面地址链接上面的时候,在浏览器状态栏的左下角,会显示鼠标所在处的url地址,有些地址是完整的,有的是类似javascript:

submit('page',2)等样式,这种情况下,可用脚本式。

比如,前脚本是 javascript:

submit('page',,后脚本是),页码变化范围可以是1 , 10等等,即前脚本+当前页码+后脚本=一个完整的脚本链接

点击式:

一般来说,点击式可包容脚本式,一个页面里的"下一页", "下页"等等都可以作为脚本式的"导航对象的标签"; 导航对象的索引值即指该导航对象标签在整个页面中所处的位置,填写导航对象的标签会忽略其索引值的填写。

可以指定点击次数,也可以是直到最后一页才结束。

五、地址列表类型任务

地址列表类型的任务,适用于已经有大量的数据源地址(URL),可以直接用这些URL直接获取数据的情况。

可以用这种类型任务采集

本地磁盘上的信息,也可以采集网络上的信息。

其本质和URL类型任务相似。

官方网站经常会更新的帮助信息:

在线帮助 | 常见问题解答

 综述:

地址列表类型任务的‘任务概述’和‘数据提取规则’与URL导航类型基本一样,不同之处在于采集规则,这里只讲述采集规则设置。

操作界面如下:

指定本地文件:

必须是一个文本文件,里面是要采集的URL地址集合。

如下图:

也可以让软件自动分析网上的某一个页面得到地址列表。

 后台执行:

默认是从后台获取数据,和URL导航类型类似;不选该项,则和脚本类型任务相似,运行前弹出类似ie窗口。

六、数据采集的更多高级设置技巧(任务-数据提取规则-‘更多设置’按钮)

可以设置数据自动保存,编码方式,获取网页框架等;

可以设置完整采集或增量采集(断点续采);

可以边采集边过滤,把不符合条件的数据过滤掉;

可以自动分类。

把采集的数据按照自己的要求自动归类。

可以边采集边自动加工,包括多个采集项和字符串自由合并,数据替换,数据删除等;

可以设置功能强大的新闻采集参数,设置新闻模板等。

把设置好的任务,加入到任务调度里面,就可以实现自动采集,自动加工,自动发布(入库)的一条龙自动化采集流程!

 一.常规。

包含自动保存,编码方式,获取网页框架数据等。

如下图:

二.采集类型。

包含完整采集和增量采集(断点续采),增量采集可有效的减少网络负荷,只对新增的数据进行采集;增量采集只需设置URL采集项和表的存放URL地址的字段对应即可。

如下图:

三.采集过滤。

可根据自己设定的过滤条件,对不符合条件的数据自动过滤掉。

如下图:

四.自动分类。

自动分类用于对采集的数据,可按照自己事先设置好的关键词,自动归类。

如下图是一个自动分类的公式:

其中:

分类,公司名称是采集项名称,包含在[] 之间表示作为变量。

上面公式的含义是:

如果公司名称这个采集项里包含北京,上海,深圳这三个关键词中的任意一个,则给分类这个采集项赋相应的值。

可以创建任意多个公式,比如再添加一个公式:

[分类1]=[公司名称]机械,化工,电子,餐饮,网络 ,那么就是对公司名称这个采集项作为按行业分类 。

两个公式实现了对采集的数据既按地区又按行业进行自动分类。

分类之外的默认为‘其他’,表示采集项里不包含罗列出的关键词,则以‘其他’作为分类名称。

 

五.采集加工。

 对采集到的数据,可自动加工。

包括数据合并组合与数据替换。

可一次添加多个公式,每个公式之间用回车隔开。

1.数据合并。

如下图,可自由设置数据合并公式,[]之间是变量,即某个采集项;下图数据合并的结果就是把名称和联系人两个采集

 项的值,一同赋给名称这个采集项。

在其中也可以添加常数,如:

[名称]=123+[名称]+456+[联系人]等等。

     特殊字符处理:

空格用#32表示,Tab用#9表示,回车用#13#10表示。

如:

[名称]=123+#9+[名称]

2. 数据替换。

书写格式如下图,采集项作为变量,用[]括起来,[替换为]是关键字符,表示把某个采集数据项里的某某替换为某某;假如

打算把某某字符删除,则直接写 '[采集项名称]=某某[替换为]'即可。

六.文章化处理。

适用于采集新闻,产品介绍等文章类数据,特别是需要把这些数据里面的图片等文件下载到本地。

如下图,首先要选中’此任务规则用来采集新闻,通告,产品介绍等文章类数据‘,下面的设置才会生效。

(采集项的采集类型要设置成”文章类型“,在数据提取规则里设置)

文章(正文)或图片等文件自动下载到目录:

文章和图片会下载到此目录下(图片下载到\image)。

 

下载图片同时下载文章:

把与之对应的文章也下到本地。

图片下载后,更新正文信息时使用相对路径:

图片会下载后,会同时更改正文的该图片路径。

相对路径格式为image\*.jpg;不选该项使用绝对路径,,如c:

\news\image\1.jpg。

 

文件下载时,遇同名文件自动重命名:

图片或文件保存到本地磁盘时,遇到同名文件自动命名;默认为覆盖掉同名文件。

采集项的第几个作为文章名称:

若该值为0,则用原文件名,否则使用第几个采集项的内容作为下载后的文件名。

应用模板文件:

可针对采集项作模板,文章下载后按照设定的模板格式填充内容。

例:

假如有这样一个采集任务,包含‘标题,新闻来源,时间,正文’4个采集项,可做一个这样的模板文件(<html>和</html>之间的文字是模板文件内容,txt,htm等类型文件均可):

[标题]

<p>

来源:

[新闻来源]  &nbsp;&nbsp;&nbsp;时间:

[时间]<p>

[正文]

采集的数据就会正确填充到相应的地方,然后把文件保存到本地,这样一篇篇新闻就按照自己设定的格式完成了。

 

采集新闻注意事项:

若不打算把采集到的新闻自动保存为本地文件,则不用特殊设置,只按照采集普通信息设置即可,否则需要注意以下地方:

把采集正文的采集项,信息类型设置成文章类型,同时允许保留html代码,最好选中区分大小写(有的图片文件名大小写敏感)。

在该任务-更多设置-文章里,设置相应的选项。

假如新闻正文里包含有广告等不打算要的内容,可使用更多设置-数据加工-数据替换,把非法字符替换为空即可(相当于删除)。

七、任务调度

任务调度即调度任务的运行。

可设置为自动随软件运行,或在某个时刻运行;可运行指定的次数,或者循环运行。

从而达到使采集的数据同步,实现从采集到加工到数据发布的一条龙服务自动化。

1.设置任务调度:

菜单-任务-任务调度,会打开如下窗口

双击左边的‘所有任务’里的一个任务,就会添加到‘自动运行任务’区,在此区域选择一个任务,即可对此任务做调度设置。

2.采集的数据会自动添加到数据库里面,因此需要对连接数据库做正确的设置。

刷新(若此时未做数据库连接参数配置,需要先配置连接),选择一个表后,点数据列对应关系后的小按钮,会打开如下窗口:

在此窗口,可把采集的数据与选择的表做一一对应连接。

并且可设置不可重复数据列,这样当采集的数据有重复的时候,会自动过滤。

设置完后,保存该任务的设置,然后再进行下一个任务的设置。

当软件启动后,会自动弹出自动运行筛选窗口,决定对哪些任务进行调度。

注意:

每个任务的调度参数设置完后,都要‘保存设置’,然后再设置下一个需要调度的任务。

 

数据库表需要注意三个问题:

字段类型,字段长度和唯一索引或主键。

设置数据库注意的问题请看‘数据库’一节的说明。

八、数据导出(发布)

操作界面如下:

可把采集的数据导出为3种类型:

文本,Excel和数据库。

一。

导出为文本:

只有窗口的上半部分的功能有效,下半部分为数据库功能,不用设置。

若打算把采集数据项的标题一起导出,可勾选“导出列标题”,默认只导出采集的数据;可选择导出的数据范围,比如1-1000行,5000-20000行等。

 

二。

导出为Excel:

只有窗口的上半部分的功能有效, 下半部分为数据库功能,不用设置。

若打算把采集数据项的标题一起导出,可勾选“导出列标题”,默认只导出采集的数据;可选择导出的数据范围,比如1-1000行,5000-20000行等。

注意:

导出excel时不要对excel文件有任何操作(点击,调整宽度等),否则可能导致异常;若没任何操作情况下仍有异常,一般重装Office软件可得到彻底解决。

 

三。

导出到数据库:

导出到数据库时,窗口的上半部分只有“导出行范围”有效,列标题不会导入到数据库。

窗口的下半部分,即标志“数据库”的部分才需要重点设置。

一般需要进行以下步骤:

1.配置数据库连接。

目前完整测试的数据库有Access,Sqlserver,Oracle,MySql。

2.选择导入哪个表。

假如已经配置好了数据库连接,点“刷新”,可得到连接数据库的表,选择一个表导入。

或者使用新表,勾选“使用新表”,添入表名称,可自动创建表。

3.假如是导入数据库里已经存在的表,并且表里的字段个数(或叫列个数)与采集数据项的个数完全一致,并且字段长度可容纳采集的数据,可直接点“确定”,数据会自动导入数据库。

假如不能满足这两个条件(即字段和采集项个数一一对应,字段长度足够长),导入数据库会发生异常;字段长度不够可到数据库里更改字段长度(字段应该是字串类型或兼容类型,如SqlServer的text类型也可以,至于多长合适可用“表字段长度参考”,长些无妨);不是一一对应的,可用“定义数据接口”,打开如下界面:

在此窗口中可设置哪个数据项对应哪个字段,还可设置不可重复数据列(发现重复的数据自动过滤掉),非常方便。

常见问题解答:

为什么导入数据库有时发生异常?

导入到数据库,需要注意以下三点:

导入到数据库的数据,默认的都是字符串类型,因为从网上采集的数据,难免有不规范的,而字串是通用的数据类型。

因此,当导入异常时,可检查数据库表是否有其他类型,确保所有的字段都是字符串类型或兼容类型(如ntext类型,备注类型等)。

表的字段长度要足够。

把长度为100的数据导入到只有50长度的字段中,肯定会出错。

所以要给表的字段长度足够才可以。

采集数据项和表的字段要一一对应。

假如采集的数据项是5个,而表里的字段个数为大于或少于5个,那要设置“自定义接口”,设置一一对应关系(需要导入哪几个采集项就设置哪几个, 最少要设置一个)。

不导入数据的字段一定要允许为空, 或者不允许为空但要有默认值, 否则出错。

总结为一句话:

字段类型,字段长度和一一对应。

这三点都作正确了,就可正确的导入到数据库。

总之,导入数据库时要符合数据库的基本要求。

九、数据库

连接数据库:

连接Access和sqlservcer(数据库接口是OLEDB)

若是连接sqlserver,数据库有密码时,要注意选中"允许保存密码",如下图:

连接到Oracle和MySql有专用数据库接口,在"配置数据库连接"窗口选择相应的类型,就会打开配置窗口,填写参数,保存即可。

如下图:

导出数据到数据库。

操作界面如下:

可把采集的数据导出为3种类型:

文本, Excel和数据库。

A.导出为文本:

只有窗口的上半部分的功能有效,下半部分为数据库功能,不用设置。

若打算把采集数据项的标题一起导出,可勾选“导出列标题”,默认只导出采集的数据;可选择导出的数据范围,比如1-1000行,5000-20000行等。

 

B.导出到Excel:

只有窗口的上半部分的功能有效, 下半部分为数据库功能,不用设置。

若打算把采集数据项的标题一起导出,可勾选“导出列标题”,默认只导出采集的数据;可选择导出的数据范围,比如1-1000行,5000-20000行等。

注意:

导出excel时不要对excel文件有任何操作(点击,调整宽度等),否则可能导致异常;若没任何操作情况下仍有异常,一般重装Office软件可得到彻底解决。

 

C.导出到数据库:

导出到数据库时,窗口的上半部分只有“导出行范围”有效,列标题不会导入到数据库。

窗口的下半部分,即标志“数据库”的部分才需要重点设置。

一般需要进行以下步骤:

1.配置数据库连接。

目前完整测试的数据库有Access, Sqlserver,Oracle,MySql。

 

2.选择导入哪个表。

假如已经配置好了数据库连接,点“刷新”,可得到连接数据库的表,选择一个表导入。

或者使用新表,勾选“使用新表”,添入表名称,可自动创建表。

3.假如是导入数据库里已经存在的表,并且表里的字段个数(或叫列个数)与采集数据项的个数完全一致,并且字段长度可容纳采集的数据,可直接点“确定”,数据会自动导入数据库。

假如不能满足这两个条件(即字段和采集项个数一一对应,字段长度足够长),导入数据库会发生异常;字段长度不够可到数据库里更改字段长度(字段应该是字串类型或兼容类型,如SqlServer的text类型也可以,至于多长合适可用“表字段长度参考”,长些无妨);不是一一对应的,可用“定义数据接口”,打开如下界面:

在此窗口中可设置哪个数据项对应哪个字段,还可设置不可重复数据列(发现重复的数据自动过滤掉),非常方便。

常见问题解答:

为什么导入数据库有时发生异常?

导入到数据库,需要注意以下三点:

导入到数据库的数据,默认的都是字符串类型,因为从网上采集的数据,难免有不规范的,而字串是通用的数据类型。

因此,当导入异常时,可检查数据库表是否有其他类型,确保所有的字段都是字符串类型或兼容类型。

表的字段长度要足够。

把长度为100的数据导入到只有50长度的字段中,肯定会出错。

所以要给表的字段长度足够才可以。

采集数据项和表的字段要一一对应。

假如采集的数据项是5个,而表里的字段个数为大于或少于5个,那要设置“自定义接口”,设置一一对应关系(需要导入哪几个采集项就设置哪几个,最少要设置一个)。

不导入数据的字段一定要允许为空,或者不允许为空但要有默认值,否则出错。

总结为一句话:

字段类型,字段长度和一一对应。

这三点都作正确了,就可正确的导入到数据库。

总之,导入数据库时要符合数据库的基本要求。

十、系统设置

该设置在菜单的工具\选项里面,或者工具栏的选项。

最多同时运行的任务数:

默认为五个。

每个采集任务都会占用一定带宽。

为了保障每个任务都能顺利运行,同时运行的不要过多。

提示助手显示时间:

在每个窗口的每一个重要参数的填写上,鼠标在上面停留一下,就会显示相应的帮助信息。

可设置显示多长时间后自动消失。

密码保护:

在软件启动时提示输入登录密码。

代理设置:

可通过代理服务器采集数据。

 

搜索深度:

默认为1。

一般不用改动就能很好采集数据,深度大于1后会在查找数据上花费更多时间。

线程数:

默认5个。

可理解为同时有几个机器人去抓取数据。

一般设置为3-10个,就可大幅度提高采集效率。

退出时保存日志:

启用软件后可记录日志。

十一、其他

备忘录:

一天的采集任务很多,怕有遗忘的时候,可通过备忘录,代为记忆。

扩展菜单:

一般是为了扩展数据分析功能。

比如您自己开发了一个数据库软件,这个软件用来分析采集的数据,

可把软件挂接在本软件上,方便使用。

日志:

记录每个重要的操作。

比如对类别的维护,对任务的维护等等。

可对日志进行清理和备份。

密码保护:

如果您不想他人随意进

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 经管营销 > 经济市场

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2