22春“计算机科学与技术”专业《网络爬虫与信息提取》离线作业-满分答案
1. ( )是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。
( )是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。
A.meta
B.head
C.header
D.body
参考答案:A
( )是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。
A.meta
B.head
C.header
D.body
参考答案:A
2. Python中定义函数关键字为( )。
A.def
A.def
B.define
C.func
D.function
参考答案:A
C.func
D.function
参考答案:A
3. 通用网络爬虫通常采用串行工作方式。( )
A.正确
B.错误
参考答案:B
A.正确
B.错误
参考答案:B
4. Python正则表达式模块的findall方法如果没有匹配到结果,则返回结果为( )
A.空
A.空
B.空列表
C.空元组
D.不返回
参考答案:B
C.空元组
D.不返回
参考答案:B
5. 以下哪个HTML标签表示定义 HTML 表格中的行( )
以下哪个HTML标签表示定义 HTML 表格中的行( )
A.
B.
C.
D.
参考答案:C
以下哪个HTML标签表示定义 HTML 表格中的行( )
A.
B.
C.
D.
参考答案:C
6. Scrapy_redis是Scrapy的“( )”,它已经封装了使用Scrapy操作Redis的各个方法。
Scrapy_redis是Scrapy的“( )”,它已经封装了使用Scrapy操作Redis的各个方法。
A.组件
B.模块
C.控件
D.单元
参考答案:A
Scrapy_redis是Scrapy的“( )”,它已经封装了使用Scrapy操作Redis的各个方法。
A.组件
B.模块
C.控件
D.单元
参考答案:A
7. MongoDB是一个关系数据库产品。( )
A.正确
B.错误
参考答案:B
A.正确
B.错误
参考答案:B
8. Python中退出循环应用关键字( )。
A.break
B.continue
C.exit
D.return
参考答案:A
A.break
B.continue
C.exit
D.return
参考答案:A
9. 浏览器用来记录用户状态信息的数据叫( )
浏览器用来记录用户状态信息的数据叫( )
A.session
B.cookies
C.moonpies
D.selenium
浏览器用来记录用户状态信息的数据叫( )
A.session
B.cookies
C.moonpies
D.selenium
参考答案:B
10. ( )是一个传递信息的通道。它负责将爬取博文列表页获取到的信息传递给负责爬取正文页的方法中。
A.meta
B.head
C.header
D.body
参考答案:A
A.meta
B.head
C.header
D.body
参考答案:A
11. 一个可行的自动更换代理的爬虫系统,应该下列哪些功能?( )
A.有一个小爬虫ProxySpider去各大代理网站爬取免费代理并验证,将可以使用的代理IP保存到数据库中
A.有一个小爬虫ProxySpider去各大代理网站爬取免费代理并验证,将可以使用的代理IP保存到数据库中
B.在发现某个请求已经被设置过代理后,什么也不做,直接返回
C.在ProxyMiddlerware的process_request中,每次从数据库里面随机选择一条代理IP地址使用
D.周期性验证数据库中的无效代理,及时将其删除
参考答案:ACD
C.在ProxyMiddlerware的process_request中,每次从数据库里面随机选择一条代理IP地址使用
D.周期性验证数据库中的无效代理,及时将其删除
参考答案:ACD
12. Redis中使用lrange读取数据后数据也会删除。( )
A.正确
B.错误
参考答案:B
A.正确
B.错误
参考答案:B
13. 常用的会话跟踪技术是( )
A.session
B.cookies
C.moonpies
D.localstorage
参考答案:AB
B.cookies
C.moonpies
D.localstorage
参考答案:AB
14. PyMongo中逻辑查询表示小于等于的符号是( )
A.$gt
B.$lt
C.$gte$$lte
参考答案:C
A.$gt
B.$lt
C.$gte$$lte
参考答案:C
15. 使用UI Automatorr输入文字的操作是得到相应控件后使用命令( )
使用UI Automatorr输入文字的操作是得到相应控件后使用命令( )
A.settext
B.set
C.set_text
D.text
参考答案:C
python正则表达式爬虫
使用UI Automatorr输入文字的操作是得到相应控件后使用命令( )
A.settext
B.set
C.set_text
D.text
参考答案:C
python正则表达式爬虫
16. 以下表示请求正常处理的HTTP状态码为( )
以下表示请求正常处理的HTTP状态码为( )
A.200
B.301
C.404
D.500
以下表示请求正常处理的HTTP状态码为( )
A.200
B.301
C.404
D.500
参考答案:A
17. Python中Object={&39;obj_1&39;:&39;1&39;,&39;obj_2&39;:&39;2&39;},则(&39;boj_3&39;,&39;3&39;)是( )
A.1
B.2
C.3
D.无输出
参考答案:C
A.1
B.2
C.3
D.无输出
参考答案:C
18. 引用中间件时后面的数字代表的是中间件的执行顺序,例如 &39;AdvanceSpider.middlewares.ProxyMiddleware&39;: 543中的543。( )
T.对
F.错
参考答案:T
F.错
参考答案:T
19. 要使用Python来操作UI Automator从而控制手机,需要安装一个第三方库( )
A.uiautomator
B.automator
C.ui_automator
D.pyautomator
参考答案:A
A.uiautomator
B.automator
C.ui_automator
D.pyautomator
参考答案:A
20. 数据抓包就是中间人爬虫的一个简单应用。所以使用Charles也是一种中间人攻击。( )
数据抓包就是中间人爬虫的一个简单应用。所以使用Charles也是一种中间人攻击。( )
A.正确
B.错误
参考答案:A
A.正确
B.错误
参考答案:A
21. 如果把网络上发送与接收的数据包理解为快递包裹,那么在快递运输的过程中取出查看更改里面的内容,就是类似抓包的过程。( )
T.对
F.错
参考答案:F
T.对
F.错
参考答案:F
22. 对Charles设置代理时,Ip可以设置为127.0.0.1,端口为8888。( )
T.对
F.错
参考答案:T
F.错
参考答案:T
23. 使用Selennium获取网页中元素的方法有( )。
A.find_element_by_name
B.find_element_by_id
C.find_elements_by_name
D.find_elements_by_id
参考答案:ABCD
A.find_element_by_name
B.find_element_by_id
C.find_elements_by_name
D.find_elements_by_id
参考答案:ABCD
24. Charles能截获HTTP和HTTPS的数据包,如果网站使用websocket就可以截获。( )
A.正确
A.正确
B.错误
参考答案:B
参考答案:B
25. Python中( )与元组由类似的数据读取方式。
Python中( )与元组由类似的数据读取方式。
A.字符串
B.列表
C.字典
D.集合
参考答案:AB
Python中( )与元组由类似的数据读取方式。
A.字符串
B.列表
C.字典
D.集合
参考答案:AB
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论