华为大数据HCIE-v2.0笔试题库及答案
1.( 判断 ) 数据挖掘是通过对大量的数据进行分析,以发现和提取隐含在其中的具有价值的信息和知识的过程
A.TRUE ( 正确答案 )
B.FALSE
大数据etl工具有哪些
2. 数据挖掘的开发工具除了 Python 以外,还包含以下哪些工具 ?
A. Spark MLlib ( 正确答案 )
B.MLS( 机器学习服务 ) ( 正确答案 )
C.IBM SPSS Modeler ( 正确答案 )
D.Oracle Data Mining ( 正确答案 )
3. 以下哪些属于 Python 运算符 ?
A. 算数运算符 ( 正确答案 )
B. 推理运算符
C. 逻辑运算符 ( 正确答案 )
D. 比较运算符 ( 正确答案 )
4.( 单选 ) 假设 A , B.C 是三个矩阵, A 是 2X2 , B 是 2X2 阶, C 是 3x 2 阶,以下哪一个矩阵的运算是有意义的 ?
A.A+B ( 正确答案 )
B.AC
C.AB+AC
D.B+C
5. 以下关于 Python 列表的描述正确的是 ?
A.Python 中的列表可以随时进行元素的添加和删除。 ( 正确答案 )
B.Python 中的列表是可变的,定的元素可以是任何的数据类型。( 正确答案 )
C.Python 中的列表由个括号包裹住元素,元素用逗号隔开。( 正确答案 )
D.Python 中的列表企形式上类似于数组,是一个有序的序列。
6.( 单选 ) 以下哪个选项不是矩阵乘法对向量的变换 ?
A. 投影
B. 伸缩
C. 曲线化 ( 正确答案 )
D. 旋转
7.( 单选 ) 若随机变量 X 服从正态分布 N(u,o^2) ,则随机变量 Y=aX+b 服从以下哪个正态分布 ?
A.N(a^2 u+b,a^2 o^2)
B.N(a u+b,a^2 o^2) ( 正确答案 )
C.N(a u+b,a^2 o^2+b)
D.N(a u,a^2 o^2)
8. 与面向过程相比,以下哪些是面向对象的特点 ?
A. 程序可拓展性没有明显的变化
B. 提高代码复用性 ( 正确答案 )
C. 增加了开发效率 ( 正确答案 )
D. 使程序的编码更加灵活,提高了代码的可维护性 ( 正确答
案 )
9.( 单选 ) 以下哪个措施属于反爬措施 ?
A. 字体
B. 滑块验证码
C. 数据收费
D. 以上全部正确 ( 正确答案 )
10.( 判断 ) 数据的 ETL ,其中 E 为 Extract , T 为Transform , L 为 Load 。
A.TRUE ( 正确答案 )
B. FALSE
11.( 单选 ) 以下哪些选项不属于数值特征离散化的必要性 ?
A. 数值高散化实际是一个数据简化机制,通过数值离散化过程,一个完整的数
据集变成一个个按照某种规则分类的子集,增强了模型的稳定性。
B. 离散化数值在提高建模速度和提高模型精度上有显著作用。
C. 离散化过程并没有带来信息丢失 ( 正确答案 )
D. 离散化后的特征对异常数据有很强的鲁棒性,能减少噪音节
点对数据的影响。
12.( 判断 ) 不要在整个数据集上做归一化处理,要区分训练集和测试集。
A.TRUE
B.FALSE ( 正确答案 )
13. 数据挖掘中用于解决预测问题的模型主要包括哪几大类 ?
A. 分类 ( 正确答案 )
B. 流行
C. 回归 ( 正确答案 )
D. 复变
14.( 判断 ) 可以利用 Python  中的 KNN  算法进行数据缺失值的处理。
A.TRUE ( 正确答案 )
B.FALSE
15.( 单选 )" 点击率问题 " 是这样一个预测问题, 99% 的人不会点击,而 1% 的人会点击,所以这是一个非常不平衡的数据集。假设,现在我们已经建了一个模型来分类,而且有了 99% 的预测准确率,我们可以下的结论是 ?
A. 模型预测准确率已经很高了,我们不需要做什么了。
B. 模型预测准确率不高,我们需要做点什么改进模型。 ( 正确答案 )
C. 无法下结论
D. 以上都不对
16. 机器学习中做特征选择时,以下哪种技术属于 Filter( 过滤法 )
A. 方差选择法
B.B. 互信息法
C.C. 卡方检验
D. 相关系数法
E. 以上全都正确 ( 正确答案 )
17.( 单选 ) 我们可以使用 Python 中 scikit-learn 库的 ( ) 函数,来对样本集进 feature_selection( 特征选择 ) 和dimensionality reduction( 降维 )?
A.sklearn. neighbors
B.sklearn. feature_selection ( 正确答案 )
C.sklearn.linear model
D.sklearn. cluster
18. 当数据预处理完成后,我们需要选择有意义的特征输入算
法和模型进行训练。通常来说,可以从哪些方面考虑来如何进行特
征选择 ?
A. 特征是否发散 ( 正确答案 )
B. 特征与目标的相关性 ( 正确答案 )
C. 特征的名称
D. 以上全都正对
19. 对于特征选择中的互信息法,以下理解正确的是 ?
A. 互信息法是从信息嫡的角度分析特征和输出值之间的关系评分 . ( 正确答案 )
B. 在 Python 工具的 sklearn 模块中,可使用
mutual_info_classif( 分类 ) ( 正确答案 )
和 mutual_info_regression( 回归 ) 来计算各个输入行征和输出值之间的互信息。
C. 互信息的结果对离散化的方式不敏感
D. 互信息值越大,说明该特征和输出值之间的相关性越大,越需要保留。 ( 正确答案 )
20.( 单选 ) 以下关于 Trapper( 包装法 ) 和 FiLter( 过滤法 ) 的描述不正确的是 ?
A.Wrapper 方法由于每次对子集的评价都要进行分类器的训练和测试,所以算法计算复杂度很高。
B.Trapper 方法选出的特征通用性较强,当改变学习算法时,也不需要针对该学习算法重新进行特征选择。 ( 正确答案 )
C. 相对于 Filter( 过滤法 ) , Wrapper 方法到的特征子集分类性能通常更
好。
D. 对于大规模数据集来说, Wrapper 算法的执行时间很长。
21. 机器学习的分类主要有哪些 ?
A. 无监督学习 ( 正确答案 )
B. 强化学习 ( 正确答案 )

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。