数据采集与处理选择题题库
1.下列不属于常见爬虫类型的是(C)
A. 通用网络爬虫
B. 增量式网络爬虫
C. 浅层网络爬虫
D. 聚焦网络爬虫
2.下列不属于聚焦网络爬虫的常用策略的是(A)
A. 基于深度优先的爬取策略
B. 基于内容评价的爬取策略
C. 基于链接结构评价的爬取策略
D. 基于语境图的爬取策略
3.下列不属于常用反爬虫手段的是(D )
lenovo联想打印机驱动下载A. 访问频度
B. 验证码校验
C. 账号权限
D. 人工筛选
windows安装oracle11g步骤4.下列属于反爬虫目的的是(B)
A. 限制访问人数
B. 防止网站信息被竞争对手随意获取
C. 限制用户访问权限
D. 变换网页结构
5.下列关于Python爬虫库的功能,描述不正确的是(D)
A. 通用爬虫库-urllib 3
B. 通用爬虫库-Requests
C. 爬虫框架-Scrapy
D. HTML/XML解析器pycurl
6.下列不属于 Socket 库中的方法是(C)
A. 服务器端方法织梦岛通关后二周目
B. 公共方法
C.通信方法
D. 客户端方法
7.下列属于HTTP必须实现的请求方法的是( A)
A. GET 与 HEAD
B.POST 与 DELETE
C.TRACE 和 OPTIONS
D.OPTIONS 和 CONNECT
8.下列关于 HTTP状态码类型描述错误的是(C )
A. 4XX表示客户端可能发生错误
B. 5XX表示服务器可能发生错误
C. 1XX表示请求已被服务器接受,无须后续处理
D. 3XX 表示客户端的请求需采取进一步操作
9.下列不属于HTTP头部类型的是(B)
A. 通用头
B. 回复头
C. 请求头
D.响应头
10.python请求并解析json数据下列有关 Cookie 机制描述错误的是(D)
A. 服务器能通过Cookie识别用户
B.通过Cookie验证后不需重新提交表单
C. Cookie按内存式或硬盘式进行存储
D. Cookie 不存在时效性
11.下列不属于HTTP 请求过程的是(D)
A. 生成请求
B. 超时设置
C.请求重定向
D. 搜索文档
12.下列关于Chrome 开发者工具描述错误的是(C)
A. 元素面板可查看元素在页面的对应位置
B. 源代码面板可查看 HTML 源码
C. 网络面板无法查看 HTML 源码
D.网络面板可查看HTTP头部信息
13.下列关于Xpath 中功能函数描述错误的是(A)
A. contains方法可用于选取以指定值开头的节点
B. and方法可用于选取同时包含两种指定值的节点
C. text 函数可用于选取包含指定文本内容的节点
D. text 函数可提取节点文本内容
javabean的组成14.下列关于BeautifulSoup 中对象类型描述错误的是(B)
A. name方法可以获取及修改Tag对象名称
B. attrs方法可获取 Tag 对象的 HTML属性,返回值为列表形式
C. string方法可获取Tag对象中的文本字符串内容
D.NavigableString 对象无法被编辑,但可以进行替换
15.下列关于 JSON模块描述错误的是(D )
A.JSON模块可实现在 Python 中对 JSN 编码及解码的两种操作
B. 将数据存储为 JSON文件是一个编码过程
C. dump方法可将 JSON对象写入文件内
D. dump方法可生成一个字符串
16.下列不属于动态网页的是(D)
A. 京东首页
B. CSDN首页
C. 微博首页
D. Selenium
17.(多选)下列 Selenium库的方法中,通过元素名称进行多元素定位的是(BCD)
A.find element by name
B. find elements by name
C.find_elements_by_id
D. find_elements_by_class_name
18.下列连接MongoDB 数据库的代码中,错误的是(B)
java堆和栈分别存放什么A.pymongo.MongoClient()
B.pymongo.MongoClient(27017)
C.pymongo.MongoClient('localhost')
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论