数据采集与管理Word文档下载推荐.docx

资源描述

数据采集与管理Word文档下载推荐.docx

《数据采集与管理Word文档下载推荐.docx》由会员分享，可在线阅读，更多相关《数据采集与管理Word文档下载推荐.docx（126页珍藏版）》请在冰点文库上搜索。

数据采集与管理Word文档下载推荐.docx

分割URL和传输数据，参数之间以&

相连。

a.GET

b.POST

c.PUT

GET

HTTP请求中的（）头域允许客户端指定请求uri的源资源地址，这可以允许服务器生成回退链表，可用来登陆、优化cache等。

a.Referer

b.Cookie

c.User-Agent

d.Referer

Referer

一次HTTP由（）组成。

a.一次响应

b.2次请求

c.一次请求和一次响应

d.一次请求

一次请求和一次响应

关于HTTP请求方法中GET和POST的区别，以下说法不正确的是（）。

a.POST方式提交数据，会带来安全问题

b.POST方法是把提交的数据放在HTTP包的Body中

c.GET提交的数据大小有限制

d.GET提交的数据会放在URL之后，以?

相连

POST方式提交数据，会带来安全问题

以下关于网络爬虫的说法，不正确的是（）。

a.网络爬虫被广泛用于互联网搜索引擎或其他类似网站

b.网络爬虫实际上是一种"

自动化浏览网络”的程序，或者说是一种网络机器人

c.目前互联网上的信息分类大多数都是人工完成的

d.传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列直到满足系统的一定停止条件

目前互联网上的信息分类大多数都是人工完成的

HTTP请求中的（）头域代表发送端（客户端）希望接受的数据类型。

a.Cookie

b.Referer

d.Accept

HTTP请求中的（）头域指定请求资源的Intenet主机和端口号，必须表示请求url的原始服务器或网关的位置。

a.User-Agent

c.Referer

d.Host

Host

聚焦爬虫爬行策略实现的关键是评价（）的重要性，不同的方法计算出的重要性不同，由此导致链接的访问顺序也不同。

a.页面内容

b.表单信息

c.页面内容和链接

d.链接

页面内容和链接

（）是指对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫，它能够在一定程度上保证所爬行的页面是尽可能新的页面。

a.聚焦网络爬虫

b.深层网络爬虫

以下不属于HTTP协议的主要特点的是（）。

a.简单快速

b.支持基本认证和安全认证

c.支持客户/服务器模式

d.有状态

有状态

GET和POST的区别，以下说法不正确的有（）。

a.POST提交的数据会放在URL之后完

b.GET方式需要使用Request.QueryString来取得变量的值

c.POST方式通过Request.Form来获取变量的值

d.GET提交的数据会放在URL之后

POST提交的数据会放在URL之后完

（）只会在需要的时候爬行新产生或发生更新的页面，并不重新下载没有发生变化的页面，可有效减少数据下载量，及时更新已爬行的网页，减小时间和空间上的耗费，但是增加了爬行算法的复杂度和实现难度。

a.通用网络爬虫

b.增量式网络爬虫

c.聚焦网络爬虫

d.深层网络爬虫

HTTP响应中的（）指明实体正文的长度，以字节方式存储的十进制数字来表示。

a.Content-Length

b.Content-Encoding

c.Content-Range

d.Content-Language

Content-Length

HTTP请求的（）方法是在Request-URI所标识的资源后附加新的数据。

a.POST

b.PUT

c.TRACE

d.GET

POST

（）爬行过程中最重要部分就是表单填写及处理。

b.深层网络爬虫

c.通用网络爬虫

d.增量式网络爬虫

深层网络爬虫

以下哪个HTTP响应状态表示服务器端错误（）

a.500

b.200

c.300

d.403

500

（）的基本方法是按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止。

a.深度优先策略

b.PageRank优先策略

c.广度优先策略

d.随机爬行策略

深度优先策略

a.其基本方法是按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止

b.处于较浅目录层次的页面都可以首先被爬行

d.比较适合垂直搜索或站内搜索

HTTP响应中的（）表示浏览器应该在多少秒之后刷新文档。

a.Connection

b.Refresh

c.WWW-Authenticate

d.Location

Refresh

HTTP请求中的（）头域的内容包含发出请求的用户信息。

b.User-Agent

d.Authorization

Authorization

a.TRACE

d.GET

GET提交表单时，以（）符号分割URL和传输数据。

a.*

b.&

c.?

d.||

追求高数据质量是对大数据的一项重要要求，要消除某些数据的不可预测性，去掉一些"

杂乱”的"

脏”数据，就涉及到（）技术。

a.数据预测

b.数据采集

c.数据清洗

d.数据统计

数据清洗

增量式爬虫中的（）指的是：

爬虫以相同的频率访问所有网页，不考虑网页的改变频率。

a.随机更新法

b.个体更新法

c.基于分类的更新法

d.统一更新法

统一更新法

DeepWeb爬虫体系结构中的LVS用于（）。

a.待爬行URL集

b.本地页面URL集

c.表示填充表单的数据源

d.初始URL集合

表示填充表单的数据源

HTTP请求头中（）域的内容包含发出请求的用户信息，例如使用的客户端名称和版本号等。

b.User-Agent

d.Host

User-Agent

a.文本

c.图像

d.BOM树

关于表层网页及深层网页，以下说法不正确的是（）。

a.表层网页是指传统搜索引擎可以索引的页面，以超链接可以到达的静态网页为主构成的Web页面。

b.深层网页中包含的信息远远少于表层网页。

c.深层网页是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的，只有用户提交一些关键词才能获得的Web页面。

d.深层网页爬虫主要用于爬去因此在搜索表单后的深层网页。

深层网页中包含的信息远远少于表层网页。

HTTP请求的（）能使客户端到服务器端的连接持续有效，当出现对服务器的后继请求时，避免了建立或者重新建立连接。

a.Host

b.Keep-Alive

c.Cookie

d.Referer

Keep-Alive

以下关于HTTP请求方法GET的说法，正确的是（）。

a.请求服务器删除Request-URI所标识的资源

b.请求查询服务器的性能

c.请求获取Request-URI所标识的资源

d.请求服务器回送收到的请求信息

请求获取Request-URI所标识的资源

以下属于HTTP协议的主要特点的是（）。

a.HTTP1.1使用非持续连接

b.HTTP不支持安全认证

c.HTTP只允许传输指定类型的数据对象

d.HTTP协议是无状态协议

HTTP协议是无状态协议

a.传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列直到满足系统的一定停止条件

b.目前互联网上的信息分类大多数都是人工完成的

c.网络爬虫被广泛用于互联网搜索引擎或其他类似网站

d.网络爬虫实际上是一种"

HTTP响应中的（）等分别用于指定消息发送和文档过期的时间。

a.Date，Allow

b.Last-Modified，Allow

c.Date，Expires

d.Last-Modified，Expires

Date，Expires

a.Content-Range

c.Content-Length

如果HTTP请求的响应信息是404，则应采取下列哪项措施（）。

a.检查浏览器权限

b.再次核对请求的页面地址是否正确

c.向网管报障

d.向管理员请求用户名和密码

再次核对请求的页面地址是否正确

a.POST

b.TRACE

c.GET

d.PUT

c.Host

d.Cookie

、HTTP中（）方法可用于请求查询服务器的性能，或者查询与资源相关的选项和需求。

a.OPTIONS

OPTIONS

a.GET提交的数据会放在URL之后，以?

b.GET提交的数据大小有限制

c.POST方法是把提交的数据放在HTTP包的Body中

d.POST方式提交数据，会带来安全问题

由HTTP客户端发起一个请求，建立一个到服务器指定端口的TCP连接，这个端口默认是（）端口。

a.80

b.81

c.10

d.88

a.消息报头、请求正文

b.应答行、消息报头、请求正文

d.请求行、消息报头、请求正文

a.?

c.||

d.*

a.Refresh

b.WWW-Authenticate

c.Connection

a.Content-Encoding

b.Content-Language

d.Content-Length

（）是指发现并纠正数据文件中可识别的一些错误。

a.数据清洗

c.数据分析

d.数据集成

b.POST

通过使用Web浏览器、网络爬虫或者其它的工具，客户端发起一个到服务器上指定端口的HTTP请求。

我们称这个客户端叫（）。

a.数据库

b.源服务器

c.用户代理

d.播放器

用户代理

爬虫根据个体网页的改变频率来重新访问各页面。

a.基于分类的更新法

b.统一更新法

c.随机更新法

d.个体更新法

个体更新法

a.目前互联网上的信息分类大多数都是人工完成的

b.传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列直到满足系统的一定停止条件

c.网络爬虫实际上是一种"

d.网络爬虫被广泛用于互联网搜索引擎或其他类似网站

（）实现的两个主要目标为保持本地页面集中存储的页面为最新页面和提高本地页面集中页面的质量。

d.增量式网络爬虫

a.Last-Modified，Allow

b.Date，Expires

c.Last-Modified，Expires

d.Date，Allow

在HTTP响应信息中，若状态信息码是404则表示（）。

a.登录失败

b.所请求的页面已经转移至新的url

c.访问被禁止

d.没有找到请求的页面

没有找到请求的页面

HTTP响应中的（）表示WEB服务器告诉浏览器自己响应的对象的类型和字符集。

a.Content-Length

c.Content-Type

d.Content-Range

Content-Type

a.&

b.*

d.?

（）的搜索策略是指按照深度由低到高的顺序，依次访问下一级网页链接，直到不能再深入为止，比较适合垂直搜索或站内搜索。

a.基于目标特征

b.广度优先

c.深度优先

d.基于领域

深度优先

a.深层网络爬虫

b.通用网络爬虫

以下对于爬行策略的说法，不正确的是（）。

a.深度优先策略比较适合垂直搜索或站内搜索，但爬行页面内容层次较深的站点时会造成资源的巨大浪费。

b.深度优先策略不足之处在于需较长时间才能爬行到目录层次较深的页面。

c.通用网络爬虫常用的爬行策略有：

深度优先策略、广度优先策略

d.广度优先策略能够有效控制页面的爬行深度，避免遇到一个无穷深层分支时无法结束爬行的问题

深度优先策略不足之处在于需较长时间才能爬行到目录层次较深的页面。

b.聚焦网络爬虫

c.增量式网络爬虫

d.深层网络爬虫

HTTP请求中的（）字段可能为类似"

Mozilla/5.0（iPhone;

CPUiPhoneOS4_3_3likeMacOSX;

en-us）AppleWebKit……”这样的信息。

a.User-Agent

c.Host

d.Connection

HTTP请求中的（）方法要求被请求服务器接受附在请求后面的数据，常用于提交表单。

a.GET

d.POST

a.一次请求

b.一次请求和一次响应

c.2次请求

d.一次响应

a.请求服务器回送收到的请求信息

d.请求服务器删除Request-URI所标识的资源

（）的爬虫针对的是网页上的数据，所抓取的数据一般要符合一定的模式，或者可以转化或映射为目标数据模式。

a.基于领域概念

b.基于目标网页特征

c.基于目标数据模式

基于目标数据模式

a.HTTP协议是无状态协议

b.HTTP1.1使用非持续连接

d.HTTP不支持安全认证

网络数据采集是指通过（）或网站公开API等方式从网站上获取数据信息。

。

a.网络爬虫

b.播放器

c.浏览器

d.服务器

网络爬虫

a.增量式网络爬虫

d.聚焦网络爬虫

如果要采集指定的数据，则需要使用到（），因为它只需要爬行与主题相关的页面，极大地节省了硬件和网络资源，保存的页面也由于数量少而更新快。

d.聚焦网络爬虫

聚焦网络爬虫

c.Content-Encoding

以下不属于HTTP协议请求方法的是（）

c.SUBMIT

SUBMIT

HTTP请求中

展开阅读全文