第一章测试
1.下列哪个数据库不属于NoSQL数据库?
A:Redis
B:Oracle
C:Bigtable   
D:Neo4J
答案:B
2. MongoDB属于哪类NoSQL数据库?
A:文档数据库
B:图数据库
C:键值数据库
D:列数据库
答案:A
3.关系数据库中的参照完整性主要通过()实现。
A:主键
B:关键字
C:审计
D:外键
答案:AD
4.在关系数据库中,为了保证数据的一致性,事务处理必须保证具有哪些特性?()
A:一致性
B:原子性
C:持久性
D:隔离性
答案:ABCD
5.下面哪些是NoSQL数据库的特点?
A:模式灵活
B:可用性强
C:高可扩展
D:严格的模式定义
答案:ABC
6.大数据价值挖掘是一个从数据到信息,再由信息到知识的凝练过程。
A:错
B:对
答案:B
7.NoSQL数据库是对SQL数据库的否定,可以完全代替SQL数据库。
A:对
B:错
答案:B
8.在并行和分布式数据库中,共享内存架构的每个处理器都有自己的磁盘,所有处理器共享一个内存空间。
A:对
B:错
答案:A
9.关系数据库采取了强一致性约束,符合CAP理论中的C和P。
A:错
B:对
答案:A
10.关系数据库的实体完整性主要通过()实现。
A:关系表
B:访问控制
C:审计
D:主键
答案:D
第二章测试
11. OLAP一般运行于业务数据库上,OLTP则一般运行于数据仓库上。
A:错
B:对
答案:A
12.数据清洗是剔除数据里的异常,使数据集成为现实世界的准确、没有重复表示的过程。
A:错
B:对
答案:B
13.联邦数据库模式不适宜进行需要在很多的数据源之间进行通讯和数据交换的数据集成。
A:对
B:错
答案:A
14.列存储数据对排序操作和数据压缩有较好的支持。
A:错
B:对
答案:B
15.在数据仓库中,ETL操作包括()。
A:抽取
B:转换
C:传输
D:加载
答案:ABD
16.数据源之间的异构性主要包括()。
A:数据管理系统的异构性
B:通讯协议异构性
C:数据类型的异构性
D:数据模式的异构性
答案:ABCD
17.下列哪些技术可以用于在大数据使用过程中保护用户隐私?
A:内存数据库
B:差分隐私
C:联邦数据库
D:同态加密
答案:BCD
18.下列那一项不属于数据清理中的数据异常?
A:语法类异常
B:插入类异常
C:覆盖类异常
D:语义类异常
答案:B
redis是nosql数据库吗19.在数据库中,规定了员工表的工资字段必须大于0。如果某个员工的工资<0,则属于()。
A:语法类异常
B:不规则取值
C:词法错误
D:语义类异常
答案:D
20.下列哪一项不是大数据管理的新挑战()。
A:私保护
B:多源、异构、跨领域
C:数据规模大
D:高性能数据服务要求
答案:C
第三章测试
21.下列关于不同的簇类型的说法中,不正确的是( )。
A:在基于中心的簇中,簇的中心通常叫质心,即簇中所有点的平均值
B:在明显分离的簇中,同簇中的对象之间的距离要大于异簇的对象
C:在基于邻近度的簇中,度量方式通常是最近邻或连通度
D:在基于密度的簇中,簇通常是高密度的区域
答案:B
22.以下哪些选项是K-均值聚类面临的问题?
A:关于数据的球形假设(到聚类中心的距离)
B:难以处理噪声、异常值
C:K的选择具有挑战性
D:贪心算法存在的问题
答案:ABCD
23.凝聚层次聚类中,定义簇间的相似度的方法有( )。   
A:组平均
B:Ward方法
C:MIN(单链)
D:MAX(全链)
答案:ABCD
24.DBSCAN算法的缺点包括?
A:易受到噪声和异常值的影响
B:当簇的密度变化太大时,不能很好的处理
C:对输入参数敏感
D:对于高维问题,密度定义是个比较麻烦的问题
答案:BCD
25.CHAMELEON算法的优点包括:()。
A:能识别具有不同形状、大小和密度的簇
B:复杂度低,适合在大规模数据集应用
C:对噪声和异常数据不敏感   
D:能够有效地聚类空间数据
答案:ACD
26.同一组数据通过不同聚类算法得到的簇的个数是相同的。
A:错
B:对
答案:A
27.相似度的度量方式随着数据对象的属性类型改变而改变。
A:对
B:错
答案:A
28.全链在处理大小不同的簇时,可能使大的簇破裂。
A:错
B:对
答案:B
29.DBSCAN聚类结果受参数影响较小。
A:对
B:错
答案:B
30.使用KMEANS、DBSCAN等多种聚类算法对同一数据集进行聚类时,可能会得到不同的分组数(类数),分组数较多的聚类算法一般是比较好的。
A:错
B:对
答案:A
第四章测试
31.在贝叶斯定理的公式当中,哪一个是先验概率?
A:P(B|A)
B:P(A|B)
C:P(A)
D:P(B)
答案:C
32.在电视游戏节目中,参赛者选择三个门之一; 一扇门的后面有奖,而另两扇的后面没有奖。 参赛者选择一扇门后,游戏节目主持人将打开其余的一扇门,并显示门后没有任何奖金。 然后,主持人询问参赛者是将自己的选择切换到另一扇未打开的门,还是将STICK切换到其原始选择。这对参赛者来说切换们是有利的。
A:对
B:错
答案:A
33.贝叶斯决策是由先验概率和类条件概率,推导后验概率,然后利用这个概率进行决策。
A:错
B:对
答案:B
34.关于决策树算法的描述正确的是()。
A:在决策树的各个结点上以信息增益为准则,选择划分后信息增益最大的属性作为划分属性,递归地构建决策树。
B:在决策树算法中,每个内部结点表示在一个特征或属性;每个分支代表这个特征或属性在某个值域上的输出;每个叶结点代表一种类别。
C:决策树剪枝的目的是为了降低决策树算法的过拟合
D:决策树可以看成一个If-then规则的集合。
答案:D
35.决策树中属性选择的方法有()。   
A:信息增益
B:GINI系数
C:信息值
D:信息增益率
答案:ABD
36.对于信息增益, 决策树分裂节点, 下面说法正确的是()1.纯度高的节点需要更多的信息去区分2.信息增益可以用”1比特-熵”获得3.如果选择一个属性具有许多归类值, 那么这个信息增益是有偏差的
A:1
B:2和3
C:3
D:2
答案:B
37.SVM中的泛化误差代表什么?
A:SVM中的误差阈值
B:分类超平面与支持向量的距离
C:SVM对新数据的预测准确度
答案:C
38.若参数C(cost parameter)被设为无穷,下面哪种说法是正确的?
A:在如此高的误分类惩罚下,存在软间隔分类超平面
B:只要最佳分类超平面存在,它就能将所有数据全部正确分类
C:软间隔SVM分类器将正确分类数据
答案:B
39.怎样理解“硬间隔”?
A:SVM只允许极小误差
B:SVM允许分类时出现一定范围的误差
C:SVM不允许有误差
答案:A

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。