大数据挖掘技术练习(习题卷3)
说明:答案和解析在试卷最后
第1部分:单项选择题,共51题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]缺失值处理方法中错误的是( )。
A)对于分类属性,使用同类对象属性值的均值
B)转换为分类问题或数值预测问题
C)对于离散属性或定性属性,使用众数
D)对于所有属性都可以使用均值
2.[单选题]以下哪项关于决策树的说法是错误的
A)决策树算法对于噪声的干扰非常敏感
B)冗余属性不会对决策树的准确率造成不利的影响
C)子树可能在决策树中重复多次
D)寻最佳决策树是NP完全问题
3.[单选题]考虑值集{12 24 33 2 4 55 68 26},其四分位数极差是:
A)31
B)24
C)55
D)3
4.[单选题]下面选项中t不是s的子序列的是 ( )
A)S=<{2,4},{3,5,6},{8}> t=<{2},{3,6},{8}>
B)S=<{2,4},{3,5,6},{8}> t=<{2},{8}>
C)S=<{1,2},{3,4}> t=<{1},{2}>
D)S=<{2,4},{2,4}> t=<{2},{4}>
5.[单选题]资金的时间价值是()
A)同一资金在同一时点上价值量的差额
B)同一资金在不同时点上价值量的差额
C)不同资金在同一时点上价值量的差额
D)不同资金在不同时点上价值量的差额
6.[单选题]Logistic 回归是在商业领域上使用最广泛的预测模型, 常用于( )分类变量预测和概率预测。
A)四值
B)三值
C)二值
D)一值
7.[单选题]MapReduce 是一种( )计算模型
A)集中式;
C)离散式
D)放射式
8.[单选题]已知:
A)kl
B)d
C)1
sql 字符串转数组D)6
9.[单选题]以下哪个聚类算法不属于基于网格的聚类算法()
A)STING
B)MAFIA
C)BIRCH
D)WaveCluster
10.[单选题]给定df是一个DataFrame对象,对df所有字段进行描述性统计,可以利用的方法为( )。
A)df.describe()
B)df.statistics()
an()
D)df.summary()
11.[单选题]受样本个数限制,若某个属性值在训练集中没有与某个同类同时出现过,如P清脆|是=P (敲声=清脆|好瓜=是)=0/8=0,则连乘公式 h (好瓜=是)则必为零,其他属性取任意值都不能改变这一结论。()方法可以修正这一缺陷
A)拉普拉斯变换
B)拉普拉斯定理
C)拉普拉斯平滑处理
D)拉普拉斯方程
12.[单选题]在DPI规范中,视频对应的业务大类ID为()
A)3
B)4
C)5
D)6
13.[单选题]下面哪些功能网络爬虫做不到?
A)分析教务系统网络接口,用程序在网上抢最热门的课。
B)爬取某个人电脑中的数据和文件。
C)爬取网络公开的用户信息,并汇总出售。
D)持续关注某个人的微博或朋友圈,自动为新发布的内容点赞。
14.[单选题]weka系统汇集了最前沿的机器学习算法和数据预处理工具,提供的主要应用程序不包括
A)Explorer
B)KnowledgeFlow
C)Experimenter
D)Conclusion
15.[单选题]在Requests库的get()方法中,timeout参数用来约定请求的超时时间,请问该参数的单位是什
么?
A)分钟
B)毫秒
C)秒
D)微秒
16.[单选题]在基于规则分类器的中,依据规则质量的某种度量对规则排序,保证每一个测试记录都是由覆盖它的“最好的”规格来分类,这种方案称为
A)基于类的排序方案
B)基于规则的排序方案
C)基于度量的排序方案
D)基于规格的排序方案。
17.[单选题]TAU请求次数为统计一定的时间粒度及网元粒度下,Procedure Type为()的S1-MME接口XDR的个数
A)2
B)3
C)4
D)5
18.[单选题]以下关于字符串.strip()方法功能说明正确的是:
A)连接两个字符串序列
B)替换字符串中特定字符
C)按照指定字符分割字符串为数组
D)去掉字符串两侧指定字符
19.[单选题]假设属性 income 的最大最小值分别是 12000 元和 98000 元。利用最大最小规范化的方法将属性的值映射到 0 至 1 的范围内。对属性 income 的 73600 元将被转化为:( )
A)0.821
B)1.224
C)1.458
D)0.716
20.[单选题]通过代码”from sklearn.cluster import KMeans”引入Kmenas模块,生成模型对象“kmeans =
KMeans(n_clusters=2)”后,对于数据X训练时要调用的方法是()。
A)kmaens.fit()
B)kmeans.fit()
ain()
ain()
21.[单选题]当新业务、行为出现或目标跟踪业务出现新版本时,DPI设备应能在( )周之内具备新业务或新版本的识别能力。
A)1
D)4
22.[单选题]正则表达式字符集中,( )表示数字
A)\d
B)\D
C)\s
D)\w
23.[单选题]若{a,b}、{a,c}、{b,c}和(a,b,c}都是频繁项集,它们的计数分别是6、5、4、3,则关联规则a and c→b的置信度是()
A)1/2
B)3/5
C)3/4
D)以上都不对
24.[单选题]Requests库中,下面哪个属性代表了从服务器返回HTTP协议头所推荐的编码方式?
A)headers
B)apparent_encoding
C)text
D)encoding
25.[单选题]下列哪种()算法不能从现有数据中挖掘类似体
A)指数平滑法
B)K-means算法
C)K-medoids算法
D)CLARANS算法
26.[单选题]GY口通过什么消息进行能力协商
A)CER/CEA
B)CER/CCA
C)DWR/DWA
D)RAR/RAA
27.[单选题]有关数据仓库粒度设计的叙述中正确的是()。
A)粒度越细越好
B)粒度越粗越好
C)粒度应该与数据仓库的主题相对应
D)以上都不对
28.[单选题]下列选项中哪个不属于网络规划()
A)PCI规划
B)选址
C)容量估算
D)链路预算
29.[单选题]Python在调用efficient-apriori包中的apriori函数进行挖掘关联规则时,第二个返回值是()。
A)最小支持度
B)关联规则
C)频繁项集
D)最小置信度
30.[单选题]社交网络产生了海量用户以及实时和完整的数据 , 同时社交网络也记录了用户体的 ( ), 通过深入挖掘这些数据来了解用户 , 然后将这些分析后的数据信息推给需要的品牌商家或是微博营销公司。
A)地址
B)行为
C)情绪
D)来源
31.[单选题]如下表所示,
交易号( D) 商品( tems)
1 beer, diaper, nuts
2 beer, biscuit, diaper
3 bread, butter, cheese
4 beer, cheese, diaper, nuts
5 beer, butter, cheese, nuts
1)X={butter, cheese},则支持度support( )=( )。
A)2/5
B)4/5
C)1/5
D)3/5
32.[单选题]在Python中有
S=['a','b']
S.append([1,2])
S.insert(1,7);
执行以上代码后,s值为( )
A)‘a', 7, ‘b', 1, 2]
B)[[1, 2], 7, ‘a',‘b’]
C)[1, 2,‘a’,7’,‘b’]
D)[‘a', 7, ‘b’,[1, 2]]
33.[单选题]神经元模型输出节点有( )个
A)1
B)2
C)3
D)可自己设定
34.[单选题]神经网络就是模拟人的大脑的神经单元的工作方式,但进行了很大的简化,神经网络由很多
神经网络层构成,而每一层又由许多单元组成,第一层叫输入层,最后一层叫输出层,中间的各层叫()
A)中间层
B)简略层
C)过渡层
D)隐藏层
35.[单选题]对于数据挖掘中的原始数据,不存在的问题是: ( )
A)不一致数据
B)重复数据
C)不完整
D)数量大
36.[单选题]在数据挖掘过程中,( )可以看作是承载数据和挖掘算法的基础设施。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。