答案南开大学春《网络爬虫与信息提取》在线作业2文档格式.docx

资源描述

答案南开大学春《网络爬虫与信息提取》在线作业2文档格式.docx

《答案南开大学春《网络爬虫与信息提取》在线作业2文档格式.docx》由会员分享，可在线阅读，更多相关《答案南开大学春《网络爬虫与信息提取》在线作业2文档格式.docx（10页珍藏版）》请在冰点文库上搜索。

答案南开大学春《网络爬虫与信息提取》在线作业2文档格式.docx

B.键值数据库

C.列存数据库

D.图数据库

4.Python中跳过本次循环应用关键字（）

A.break

B.continue

C.exit

D.return

5.打码平台一般通过（）识别验证码。

A.人工识别

B.机器学习识别

C.光学字符识别

D.深度学习识别

6.PyMongo中逻辑查询表示等于的符号是（）

A.$gt

B.$lt

C.$eq$ne

7.带上通过Chrome浏览器从评论页面复制而来的（）再发起请求，可以减少爬虫被网站封锁的概率

A.Cookie

B.Html

C.Headers

D.CSS

8.Python中以下哪个容器里的元素不能重复（）

A.列表

B.元组

C.字典

D.集合

9.Redis中往集合中读数据，使用关键字（）

A.pop

B.spop

C.lpop

D.range

10.Redis是一个开源的使用（）语言编写

A.ANSIC

B.C++

C.JAVA

D.Python

11.可以通过（）绕过网站登录。

A.session

B.cookies

C.moonpies

D.localstorage

12.使用了RedisSpider作为爬虫的父类以后，爬虫会直接监控（）中的数据，并不读取start_urls中的数据。

A.Redis

B.RedisSpider

C.Spider

D.MongoDB

13.HTTP常用状态码表明服务器上没有请求的资源的是（）

A.500

B.503

C.403

D.404

14.Redis中从集合中查看有多少个值，用关键字（）

A.scard

B.card

C.count

D.distinct

15.采用以下（）技术可以实现异步加载

A.HTML

B.AJAX

C.CSS

D.HTTP

16.当爬虫创建好了之后，可以使用"

scrapy（）"

命令运行爬虫。

A.startup

B.starwar

C.drawl

D.crawl

17.使用UIAutomatorr输入文字的操作是得到相应控件后使用命令（）

A.settext

B.set

C.set_text

D.text

18.要使用Python来操作UIAutomator从而控制手机，需要安装一个第三方库（）

A.uiautomator

B.automator

C.ui_automator

D.pyautomator

19.使用xpath方法的返回类型是（）

20.Python中列表可以用（）方法在末尾添加元素

A.add

B.append

C.plus

D.+

21.Redis中的值可以支持（）

B.哈希

C.集合

D.有序集合

ABCD

22.以下哪些方法属于Python写CSV文件的方法（）

A.writeheaders

B.writeheader

C.writerrows

D.writerow

ACD

23.下列关于mitmproxy的使用说法正确的是（）

A.mitmproxy的端口为8080端口

B.设置好代理以后，在手机上打开一个App或者打开一个网页，可以看到mitmproxy上面有数据滚动

C.用鼠标在终端窗口上单击其中的任意一个请求，可以显示这个数据包的详情信息

D.如果要访问HTTPS网站，还需要安装mitmproxy的证书

24.如果爬虫爬取的是商业网站，并且目标网站使用了反爬虫机制，那么强行突破反爬虫机制可能构成（）

A.非法侵入计算机系统罪

B.非法获取计算机信息系统数据罪

C.非法获取计算机数据罪

D.非法获取系统罪

25.Python中一个函数可以有（）个return语句

A.0

B.1

C.多个

D.2

26.HTTP常用状态码表明表明服务器本身发生错误的有（）

A.403

B.404

C.500

D.503

27.如果目标网站有反爬虫声明，那么对方在被爬虫爬取以后，可以根据（）来起诉使用爬虫的公司

A.服务器日志

B.数据库日志记录

C.程序日志记录

D.服务器监控

28.常用的会话跟踪技术是（）

29.Python中（）与元组由类似的数据读取方式

A.字符串

B.列表

30.cookies的缺点是（）

A.实现自动登录

B.跟踪用户状态

C.http中明文传输

D.增加http请求的流量

31.Python中列表生成以后还可以往里面继续添加数据，也可以从里面删除数据。

（）

T.对

F.错

32.Redis的列表是一个单向队列。

33.requests中get请求方法的使用为requests.get（'

网址'

data=data）。

34.scrapy与selenium结合可以实现直接处理需要异步加载的页面。

35.为了在安卓手机上安装证书，需要先发送证书到手机里面。

在Charles中选择“Help”-“SSLProxying”-“SaveCharlesRootCertificate”命令，可以将Charles的证书保存到计算机桌面。

36.XPath提取出来的内容是一个SelectorList对象，它的第0个元素就是网页的源代码。

37.当Charles抓包以后，在MacOS系统下可以按Command+F组合键，在Windows系统下按Ctrl+F组合键打开Charles进行搜索。

38.Python中直接对浮点数进行计算有print（0.1+0.2），则结果为0.3。

39.在对XPath返回的对象再次执行XPath的时候，子XPath开头需要添加斜线。

40.Python中写CSV文件的writerows方法参数为字典类型。

41.网站返回的Headers中经常有Cookies，可以用mitmdump脚本使用print函数把Cookies打印出来。

42.在安装Scarpy的依赖库时，由于VisualC++BuildTools的安装速度很慢，为了节省时间，可以和安装Twisted同时进行。

43.Charles和Chrome开发者工具相比，只是多了一个搜索功能。

44.Scrapy的工程名字不能使用scrapy，否则爬虫会无法运行。

除此以外工程名不受限制。

45.在发送请求时需要注意requests提交的请求头不能与浏览器的请求头一致，因为这样才能隐藏好自己达到获取数据的目的。

46.Cookies一般包含在请求头Headers中。

47.Python中相比于findall方法，search方法对于从超级大的文本里面只找第1个数据特别有用，可以大大提高程序的运行效率。

48.当使用Scarpy创建爬虫时，当爬取网易云音乐首页信息时，scrapygenspider的第二个参数直接输入就可以了。

49.chrome开发者工具没法对数据进行搜索。

如果想知道一个特定的异步加载内容来自哪个请求，必须在“Network”选项卡里面一个请求一个请求地进行查看。

50.插入数据时，MongoDB会自动添加一列“_id”，也就是自增ID，每次自动加1。

展开阅读全文