物联网互联网信息采集系统用户手册.docx

上传人:b****5 文档编号:14997092 上传时间:2023-06-29 格式:DOCX 页数:28 大小:51.68KB
下载 相关 举报
物联网互联网信息采集系统用户手册.docx_第1页
第1页 / 共28页
物联网互联网信息采集系统用户手册.docx_第2页
第2页 / 共28页
物联网互联网信息采集系统用户手册.docx_第3页
第3页 / 共28页
物联网互联网信息采集系统用户手册.docx_第4页
第4页 / 共28页
物联网互联网信息采集系统用户手册.docx_第5页
第5页 / 共28页
物联网互联网信息采集系统用户手册.docx_第6页
第6页 / 共28页
物联网互联网信息采集系统用户手册.docx_第7页
第7页 / 共28页
物联网互联网信息采集系统用户手册.docx_第8页
第8页 / 共28页
物联网互联网信息采集系统用户手册.docx_第9页
第9页 / 共28页
物联网互联网信息采集系统用户手册.docx_第10页
第10页 / 共28页
物联网互联网信息采集系统用户手册.docx_第11页
第11页 / 共28页
物联网互联网信息采集系统用户手册.docx_第12页
第12页 / 共28页
物联网互联网信息采集系统用户手册.docx_第13页
第13页 / 共28页
物联网互联网信息采集系统用户手册.docx_第14页
第14页 / 共28页
物联网互联网信息采集系统用户手册.docx_第15页
第15页 / 共28页
物联网互联网信息采集系统用户手册.docx_第16页
第16页 / 共28页
物联网互联网信息采集系统用户手册.docx_第17页
第17页 / 共28页
物联网互联网信息采集系统用户手册.docx_第18页
第18页 / 共28页
物联网互联网信息采集系统用户手册.docx_第19页
第19页 / 共28页
物联网互联网信息采集系统用户手册.docx_第20页
第20页 / 共28页
亲,该文档总共28页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

物联网互联网信息采集系统用户手册.docx

《物联网互联网信息采集系统用户手册.docx》由会员分享,可在线阅读,更多相关《物联网互联网信息采集系统用户手册.docx(28页珍藏版)》请在冰点文库上搜索。

物联网互联网信息采集系统用户手册.docx

物联网互联网信息采集系统用户手册

(物联网)互联网信息采集系统用户手册

军犬互联网信息采集系统

用户手册[V5.0]

第壹章:

系统介绍3

1.1软件简介3

1.2互联网信息采集和挖掘3

1.3互联网采集系统流程图3

1.4系统应用领域:

4

1.5软件特点4

1.6系统配置要求13

1.7系统性能13

第二章:

使用手册14

2.1综合设置14

2.1.1数据库管理14

2.1.2表单管理14

2.1.3频道管理18

2.1.4模板管理19

2.2信息采集19

2.2.1站点基本属性19

2.2.2提交访问数据20

2.2.3站点链接预览21

2.2.4采集过滤22

2.2.5分页模板22

2.2.6附件采集设置23

2.2.7新闻自动识别23

2.2.8字段提取设置24

2.2.9字段采后处理25

2.3站点管理25

2.3.1采集站点管理25

2.3.2扫描采集源25

2.3.3采集日志26

2.4信息管理26

2.4.1信息管理26

2.4.2附件管理27

2.4.3记录导入27

2.4.4信息导出28

2.5信息发布28

2.5.1登录发布服务器28

2.5.2获取发布权限的信息29

2.5.3新建发布表单发布映射29

2.5.4发布表单映射管理29

2.5.5发布频道映射管理30

第壹章:

系统介绍

1.1软件简介

信息采集是指利用计算机软件技术,针对定制的目标数据源,实时进行信息采集、抽取、挖掘、处理,从而为各种信息服务系统提供数据输入的整个过程。

《军犬信息采集专家》是壹款基于人工智能的自动学习技术,功能强大、简单实用的互联网信息采集和监控软件。

1.2互联网信息采集和挖掘

要求从互联网上对特定目标数据源或不特定目标数据源进行采集和监控,且对信息进行结构化抽取保存为本地结构化数据库,然后按业务流程需求和其它模块结合,导入和应用且服务于到电子行业平台。

互联网数据采集和挖掘技术是指利用计算机软件技术,针对定制的目标数据源,实时进行信息采集、抽取、挖掘、处理,从而为各种信息服务系统提供数据输入,且按业务所需,进行数据发布、分析的整个过程。

1.3互联网采集系统流程图

第壹步:

确定采集任务。

第二步:

每个采集任务,我们有多个目标数据源可供采集。

第三步:

针对不同的目标数据源,进行不同的采集配置,以确保能采集到数据。

第四步:

调度采集任务,和目标站点同步更新,增量采集。

第五步:

采集到数据结果,完成数据异构到同构的过程。

第六步:

通过发布服务器,将数据发布到应用平台。

1.4系统应用领域:

1、搜索引擎和垂直搜索

2、综合门户和行业门户

3、电子政务和电子商务

4、知识管理和知识共享

5、企业竞争情报系统

6、BI商业智能系统

7、信息咨询和信息增值

8、信息安全和信息监控

1.5软件特点

(1)、过滤干净,智能化抽取正文,且图文关联

图:

采集的目标源

图:

采集后“干净”的正文结果

(2)、数据导出接口丰富,能够将数据导出成各种主流关系型数据结构。

(3)、配置简单

对于新闻资讯采集,只需输入待采集目标网站的地址或某个主题页面地址,软件即会自动学习网站的风格,且自动提取网站的资讯,无需配置模板,目标网站风格发生变化,软件自动学习。

对于数据采集软件提供了通俗易懂的站点配置向导,维护人员稍加培训即可配置出任何的信息采集。

对于复杂的采集过程,通过壹张采集卡脚本即可实现信息的自动采集和监控。

图:

输入“网址”,完成配置工作

图:

支持关键字采集,直接输入关键字,壹步设置输入“关键字”,完成配置工作

(4)、所采即所得,所采即可见

图:

所采即所得,所采即可见

(5)、增量采集和自动更新

增加采集:

对于初次采集目标网站,软件支持完全采集;而对于已采集过的站点支持增量采集。

支持自动更新:

自动检测站点是否发生更新,且不会遗漏任何壹个重要的信息。

(6)、采集结果自动排重

不是利用简单的规则判断,而是利用内容的相似性进行排重判断,准确性高,不会因为标题或内容的少许变化而产生漏判,即使把标题进行了改头换面,系统也会正确判定。

(7)、内置强大的信息监控

能够通过壹个关键字广域监控互联网上任何壹个站点上的关联信息。

也能够通过设置监控频道监控任何站点所采集到含有关键字的信息。

对于数值字段能够设置监控误差监控数值出当下壹定范围内的信息。

信息监控达到字段级。

您能够对任何壹个采集目标网站设置监控属性,监控周期达到了秒级。

对于发生变化的信息能够于短时间内采集到本地。

图:

独有的监控功能,可能对采集后的结果进行进壹步监控和过滤

强大的站点管理工具能够对所有采集对象进行集中管理和各种操作

图:

对所有采集对象进行集中管理和各种操作

图:

随心所欲自定义导航和分类

图:

综全的选项配置,提升采集的性能

图:

对采集后的结果能够马上进行修改和编辑

(8)、支持多种编码

支持多种网站的信息的编码,GBK、BIG5、UNICODE、UTF8,软件会自动转换成GBK码进行统壹的处理。

软件即会自动识别网站的组织结构,自动识别网站的编码。

表单管理,随心所欲自定义表单,方便采集不同的内容,如采集软件用单独的表单,采集图片用图片表单。

(9)、信息导入导出随心所欲

提供信息导入导出和其它软件可作无缝连接,如CRMOA

软件提供有强大的信息记录导入导出功能,您能够对任何壹个频道、壹条记录进行导入和导出。

能够导成Excel/Access等,也能够直接导到指定的数据库。

和《信息发布服务器》结合使用能够将信息发布到任何壹个地方。

(10)、支持阅读模板

任何壹种信息类型,软件均会自动创建壹个阅读模板方便了您快速阅读;

任何信息您能够对任何壹种信息表单定制壹款漂亮的阅读模板,也能够对任何壹个频道设置不同的阅读模板。

(11)、支持多页面内容重组

对于目标数据源的壹篇文章于目标网站上分页显示,系统能自动对其重组.

软件运行稳定、采集速度快、占用系统资源少

历经多次改造的软件采集底层模块运行稳定、采集速度快,点用系统资源少。

可多线程且发运行,而不占有过多的系统资源。

采集速度快到瞬间到位。

软件完全能够实现7*24小时不间断无人值守的信息采集。

更多细节功能有待于您于使用中去体验。

(12)、其它特点列表:

1、支持多种语言:

支持简体中文、繁体中文、英文、日文、韩文等多国语言

2、支持多种站点类型:

包括html和rss

3、支持登录、验证后采集

4、软件支持需要登录和需要验证码的网站信息采集,采集过程完全仿人工。

5、支持附件采集

包括图片附件采集、多媒体附件采集、音视频附件采集、附件和正文自动映射和关联

6、完全结构化抽取

将网页的非结构化数据抽取成特定的结构化信息数据。

网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,垂直搜索是以结构化数据为最小单位。

然后将这些数据存储到数据库,进行进壹步的加工处理,如:

去重、分类等,最后分词、索引再以搜索的方式满足用户的需求。

整个过程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。

7、数据保存到本地,您能够随时查阅信息。

采集到信息自动保存到本地数据库,您能够随时查阅信息。

8、多线层、多任务

9、支持海量数据采集

10、软件实用、易用、功能强大

11、可移植、可扩展、可定制

1.6系统配置要求

✧需要WindowsNT4/Windows2000Server或更新的操作系统。

✧需要MicrosoftSQLServer7/2000或其它ODBC接口

✧硬件平台:

intelxeon1G之上CPU,1000M之上RAM,硬盘空间40GM之上

1.7系统性能

●支持多线程采集。

●单机于数据采集于G级之上。

●数据和数据源同步更新小于10秒级。

●数据同步发布小于10秒级。

第二章:

使用手册

2.1综合设置

2.1.1数据库管理

新建数据库

通过“系统(S)”主菜单下的“新建数据库”功能菜单,您能够创建壹个全新的信息采集和管理数据库。

新建的数据库,默认会创建壹个『新闻表单』,该表单主要用于文章、新闻等资讯信息管理,该表单不允被删除。

我们建议:

您于新建数据库时希望能将数据库文件存储于和操作系统不同的驱动盘下,这样数据库中的信息内容会更安全壹些。

备份数据库

通过备份数据库的功能,您能够将当前正于使用的数据库压缩且备份到另壹个目录下。

以备以后的使用。

压缩数据库

由于桌面版的软件版本使用了微软的ACCESS数据库,该数据库于您删除记录时不会自动释放已删除记录所占用的空间。

所以需要您不定期地对当前正于使用的数据库进行压缩,以减少数据库占用硬盘资源的空间。

对于SQLServer版本的软件,则无需使用压缩数据库的功能。

软件也将该功能屏蔽。

2.1.2表单管理

表单的概念

《互联网信息采编发系统》中的表单等同于数据库中的表。

通俗地说需要为每种信息类型创建壹个存储空间。

不同的是为了能够对数据库中的所有表单记录进行统壹的管理,需要于各个表单中预置壹些字段,通常这些字段含以下几个部分:

显示控制信息字段:

密码字段、文字颜色字段、文字背景颜色字段、显示图标字段

后续跟踪信息字段:

信息来源地址字段

频道信息字段:

频道信息,监控频道信息

创建表单

下面以创建壹个图书管理表单为例,逐步向您说明如何创建壹个属于自己的管理表单。

找到主菜单栏中的“工具”=>"系统表单管理"菜单,于弹出的于表单管理器中点击“新建表单”按钮。

于“表单标题”编辑框中输入“图书表单”,于“表单名称”编辑框中输入“tblBookSheet”。

注意:

如果“表单名称”或“表单标题”为空将不能成功地创建表单。

点击“保存”按钮,这时系统会提示您已成功地创建了壹个名称“图书表单”的表单,且于图书表单下下挂三个字段“记录编号”、“频道名称”、“源文地址”。

这个三个字段是软件中对壹个表单中任何壹条记录进行管理的必要的字段。

您不可删除或更改名称或属性。

记录编号用于标识表单中任何壹条记录的唯壹的标识。

频道名称用于标识该记录从属于哪个频道;而源文地址则用于标识信息来源于何处。

表单标题

该字段用于通俗易懂地标示表单。

[必须输入],我们建议您表单标题做到整个数据库是唯壹的。

表单名称

该字段用于于数据库中创建对应表单的名称,该字段的值不能和数据库中其它的表单名称重复[需要于数据库中唯壹]。

字段值长度不能超过20个汉字(40个英文字母),命名规则同Windows中的文件命名规则相同。

能够取和表单标题相同的名称,但建议采用tblXXXSheet作为命名规范。

阅读模板

该字段用于标识该表单的信息内容阅读模板的路径,能够是文件路径名称如:

e:

\Quickreader\readmodel\tblbooksheet.html,也能够是网络上的某个路径名如:

http:

///tblbooksheet.html。

也能够是相对路径,如:

readmodel\tblbooksheet.html(如果您将程序安装于:

c\ProgrameFiles\采集软件\QuickReader,那么该相对路径相当于c\ProgrameFiles\采集软件\QuickReader\readmodel\tblbooksheet.html)

如果没有该表单对应的阅读模板,“阅读模板”字段能够不输入任何值。

等最后创建完该表单所有字段后利用软件提供的“创建模板”进行创建。

添加字段

以创建图书信息管理表单为例,假设管理图图需要以下字段:

字段标题字段名称说明属性

图书名称fldBookName用于保存图书的名称字符型,长度40,查重键,主题键

作者fldBookAuthor图书作者字符型,长度30

购买日期fldPurchaseDate可用于控制或统计日期型

图书价格fldBookPrice价格浮点型

借阅人fldUserName当前借阅用户名称字符型,长度40

借阅日期fldBrowDate借阅日期日期型

图书简介fldBookMemo有关该图书的说明备注型

选中刚才新建的“图书表单”后,点击“新建字段”按钮,将于“图书表单”下增加壹个结点,编辑框中预输入了“新字段”,你能够于这里输入字段标题,也能够于列表中的“字段标题”中输入。

当下,于结点编辑中输入“图书名称”后,点击列表中的“字段名称”于编辑框中输入“fldBookName”。

选择“字段类型”为“字符”,“长度”输入40,“设为查重键”选择“是”,“允许为空”选择“否”。

点击“保存”按钮。

如果没有报错表明系统已成功地图书表单上增加了“图书名称”字段。

可按照上述图书管理的需求表格,完成于图书表单的创建工作。

下面将对表单各个属性进行详细地说明。

字段标题

该字段用于通俗显式地标示字段的名称,于同壹个表单中字段名称不能重复。

最大长度不能超过50个字节。

字段名称

该字段用于于表单中隐式地标示字段名称,于同壹个表单中字段名称不能重复。

最大长度不能超过50个字节,命名规则同Windows中的文件命名。

建议采用fldXXX作为该值的输入规范。

字段类型

目前字段类型有:

字符型、日期型、整型、浮点型和备注型5种字段类型,能够根据实际需要从这5种类型中选择。

不同类型的字段于输入字段值时将有不同的控件和限制。

能够于以后对其进行修改。

字段长度

字段长度只能“字符型”的字段有效,其它类型输入长度是无效的,对于字符型长度值默认为50个字节。

设为查重键

该字段能够选择为“是”或“否”。

可根据实际需要设置壹些字段为查重键。

如我们于“图书表单”中设置“图书名称”为查重键,这样,以后于输入每壹本书的属性时,系统将查找是否存于有相同图书名称的记录。

主题字段

该字段能够选择为“是”或“否”。

用于标识壹条信息中的最主要的信息的字段。

如新闻表单中的新闻标题。

我们于“图书表单”中能够设置“图书名称”为主题字段。

识别标签

该字段将用于文档识别、网络信息采集时对该字段值的自动识别。

如以后需要自动从文本中识别“图书名称”的值,则能够输入“图书名称;名称;图书;BOOKNAME;”等作为图书名称字段的识别标签,各个标签之间以“;”或“;”分隔。

默认值

该值将用于于识别、录入或采集时没有得到该字段的值是将用默认值填入。

如有字段“性别”,于没有识别到“性别”字段的值时,将用默认值“女”或“男”作为“性别”的值。

于列表中显示

用于控制属性字段于概览表单内容时是否于列表中显示。

列表宽度

用于控制属性字段于概览表单时显示于列表中的长度。

对齐格式

用于控制属性字段于概览时于列表中的对齐格式,有三种选择:

左对齐、居中对齐和右对齐。

可选择以前的值

用于控制于录入该表单的资讯时,该属性字段可否从以前录入的值中选择壹个。

如有属性字段“民族”,则于录入记录信息时遇到该属性字段既能够手工输入也能够从以前的值中选取壹个。

允许为空

用于控制属性字段是否允许为空,如果设置不空时,于录入或采集该表单的资讯记录时,发现该字段没有值的记录将被丢弃或要求录入该字段。

如“图书表单”中要求“图书名称”不为空,那么如果“图书名称”为空的话,该记录就变得没必要了。

修改属性

于使用表单的过程中,仍能够表单的属性进行修改和编辑,但不能修改表单名称和字段名称。

修改后的属性能够立即于使用中生效。

特别提示:

于信息采集的过程中软件不允许您对表单进行修改。

删除表单

通过“删除表单”按钮能够删除掉壹些不再使用的表单。

注意:

删除表单时,表单中的所有记录将被同时删除,另外建立于该表单基础上的所有栏目也将被删除。

删除字段

通过“删除字段”按钮能够删除掉壹些不再使用的属性字段。

注意:

删除字段时将同时删除表单中该字段的所有数据。

上移下移字段

您能够通过“上移”按钮将表单中的壹个字段上移或下移到到壹个指定的位置。

以改变字段于列表和阅读模板中显示顺序。

创建阅读模板

您能够随时使用“表单管理器”中的“创建模板”功能为某个表单创建壹个由系统生成的阅读模板。

阅读模板主要是便于您快速阅读信息。

您也能够自己壹个漂亮的阅读模板。

如何创建阅读模板,请参照『阅读模板』壹节。

远程表单管理

远程表单管理对于使用了《互联网信息采编发系统》的用户才会显示。

对于普通的用户不会显示有该节点。

主要用于管理远程发布服务器上的分配给指定用户允许使用的发布表单。

只有于发布服务器上分配给用户允许发布的表单后才会于该节点下显示有关联的表单信息。

用户能够通过表单管理器来浏览远程表单的信息。

但不能修改表单属性。

2.1.3频道管理

创建频道

选中壹个结点作为新建频道的父目录,点击右键,于弹出的右键菜单上选择“新建频道”,于弹出的“频道属性”对话框中输入频道的名称,且选择壹个表单,默认为“新闻表单”,我们选择前面表单管理中创建的“图书表单”。

如果存于有该频道的阅读模板,能够浏览输入模板的路径。

最后,仍能够为该频道选择壹个适合的图标。

如果图标列表中没有合适的图标,也能够找到壹个合适的图标文件,且将图标文件放置于安装目录的Icon目录下。

重启软件,就能够更新该栏目的图标为您刚才放置的图标。

修改频道属性

能够通过右键菜单或双击某个频道,均能够弹出频道属性对话框,能够于属性对话框中修改频道的各个属性(不能修改栏目所对应的表单)后保存即可。

删除频道

通过右键菜单能够删除选中的频道,注意删除频道时将同时删除其子频道的所有信息。

如果该频道及其子频道下的记录比较多,删除可能需要壹段时间,请耐心等待。

隐藏频道

于频道较多的时候,能够通过隐藏频道功能隐藏壹些栏目于导航树上的显示。

刷新频道

通过刷新频道,能够重新于导航树上显示那些被隐藏的子频道。

清空频道

清空频道,将会将频道中的所有记录均清空,但不会影响到其子频道的信息。

设置频道密码

设置了频道密码后,能够控制频道的访问权限,再次访问需要输入密码才能够访问。

设置标记

仍能够将频道标记为重要(或壹般)的状态,标记为重要状态的频道文字将以加粗的方式显示,相反标记为壹般的频道则以非加粗的方式显示。

仍能够设置或取消频道结点的文字颜色。

而也能够通过"取消所有文字颜色"来取消所有已设置文字显示颜色的频道的颜色。

拖动频道

通过将选中的频道拖动到其它频道下,能够改变频道的父结点。

下次生成导航树时将会把被拖动的频道显示于新的父频道下,以改变信息分类结构。

2.1.4模板管理

阅读模板的作用

通过阅读模板能够将表单中的信息内以网页的形式快速展现,以便让您快速阅读。

《互联网信息采编发系统》能够支持对每个频道定义壹个不同的模板也能够是同壹表单共用壹个阅读模板。

如何设计模板

下面以壹个新闻阅读模板作为示例,说明如何设计模板。

模板中必须包含您要为哪个信息表单中要快速阅读的字段设置的阅读模板。

如上述模板中要显示新闻作者,新闻来源,所属频道,收录日期和新闻内容以及新闻关联附件等。

设计好的模板中主要于各位单元格中放置“表单管理”中各个要显示的字段的字段名称。

主要放置id="字段名称"name="字段名称"。

这里要特别说明是放置字段名称,而非字段标题

2.2信息采集

2.2.1站点基本属性

于增加或编辑站点属性时,需要设置站点的的第壹步就是设置采集站点的基本属性。

站点基本信息包括:

站点地址

站点地址设定了从该站点哪个页面开始采集。

能够壹些网站的首页,能够是网站中某个主题的页面地址,也能够是某个论坛的地址。

仍能够是某个RSS站点的链接地址。

站点名称

站点名称主要用于显示地标识该站点,以便于以后站点维护和管理。

特别说明:

当您于输入了站点的地址后,能够点击旁边的小球。

该功能既能够帮您取得站点的名称,也能够取得下面要说到的站点类型和站点编码。

站点类型

您能够手工设置站点的类型,也能够由软件自动识别。

目前有俩种类型的站点类型:

普通HTML站点和聚类RSS站点。

目前大部的站点仍是普通的HTML站点,软件会自动识别出该站点上所有的信息链接;聚类RSS站点是近几年兴起的壹种信息聚合方式,这里面可能包含了多个不同网站相同或关联主题的信息链接。

只要您输入壹个地址,软件自动识别站点类型。

站点编码

站点编码用于显示地告诉软件该站点的网页采用了哪种编码模式,如繁体网页壹般采用BIG5编码;壹些网站的网页则采用UTF8编码。

对于不同的编码网页软件需要进行统壹的编码转换处理后再进行提取。

壹般软件会自动识别网站的编码模式。

而对于不能识别出站点的编码模式,则需要用户手工设定采集站点的编码模式。

这样,能够最大地保证网站的信息采全。

需要使用代理

有些站点可能需要设置代理信息才能访问和采集,而且其它的站点且不需要代理。

而如果所有需采集的网站均需要通过代理,你只需设置"默认采集属性"中的代理信息后,以后增加每个站点均会自动采用该代理。

不需使用代理的采集壹般比使用代理采集速度要快。

该网站需要登录

于采集壹些如论坛或其它需要您输入登录账号的站点时,需要设置登录用户名和密码。

登录时需要输入验证码

有些网站于采集时除了需要登录外,仍要求登录时输入壹个图片或文字形式的验证码才能采集。

这里就需要您设置如何提取和识别验证码。

需要使用代理、网站需要登录详见『登录目标网站』;登录时需要输入验证码,详见『验证码识别』

允许自动周期检测该站的更新且采集

对于壹些需要长期采集其发布的最新信息,适当地设置每个站点的更新周期,能够加快每次的更新速度。

因为有些站点是1个星期更新壹次,而有些站点几分钟就更新壹次。

通过设置的周期猎手能够快速检测且更新达到更新周期的站点。

2.2.2提交访问数据

为什么要提交数据

有些时候,我们为了准确地控制采集页面,或是为了登录等的要求,需要于访问网页时提交壹些数据给目标网站。

目标网站于解析了这些数据后就会按照数据中的要求返回相应的页面。

您只需把要提交的访问数据拷贝到该页面的顶端最大的编辑框中,软件就会自动解析这些数据。

您能够修改解析后的参数列表中的某些参数值。

比如

username=abcd&userpswd=134&classid=23&pageno=2

能够解释成这样的:

用户名:

abcd密码134要访问类别ID为23的第二页上的信息。

只要这些信息符合目标网站的要求,就会返回相应的页面。

如何获得访问数据

我们知道了访问数据的重要性,我们就要知道如何才能获得访问数据。

获得访问数据的方法有很多,我们于此推荐壹种最可靠最有效的获取访问数据的方法。

您能够于互联网上下载壹些捕包工具,然后先手工访问目标网站。

然后于捕包工具中找到需要提交的数据,且拷贝出来。

2.2.3站点链接预览

站点链接预览和设置

进入该页面后,软件会解析采集目标页面上所有的链接信息,且以树状的形式显示。

用户选择任何壹点条记录后,点击右键,能够弹出控制菜单。

复制链接地址拷贝当前选中的链接信息中的链接地址。

复制链接标题拷贝当前选中的链接信各的链接标题。

浏览原文件于网页浏览器中打开原文查见。

打开该链接将会于软件的链接预览窗口选中的链接下展开该链接记录的子链接信息。

设为典型页面设置为您要采集的感兴趣的链接信息。

您能够多设置几个,以作后面的字段信息提取测试的测试页面。

采集深度

采集深度是指您要对该目标链接采集到第几层。

设置提取特殊的链接地址

于采集过程中经常会遇到壹些信息内容是于弹出式的窗口上显示的,其脚本类似于:

javascript:

privateWin('200708766')的链接地址,而该链接地址的实际地址可能是这样的:

http:

///testsmth.asp?

id=200708766

那么这个时候您就要告诉软件说,您要提取出这类特殊的链接地址,且把这些链接地址转换成真实

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 医药卫生 > 基础医学

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2