华为大数据HCIE-v2.0笔试题库及答案--688IT编程网

华为大数据HCIE-v2.0笔试题库及答案

1.( 判断 ) 数据挖掘是通过对大量的数据进行分析，以发现和提取隐含在其中的具有价值的信息和知识的过程

A.TRUE ( 正确答案 )

B.FALSE

大数据etl工具有哪些

2. 数据挖掘的开发工具除了 Python 以外，还包含以下哪些工具 ?

A. Spark MLlib ( 正确答案 )

B.MLS( 机器学习服务 ) ( 正确答案 )

C.IBM SPSS Modeler ( 正确答案 )

D.Oracle Data Mining ( 正确答案 )

3. 以下哪些属于 Python 运算符 ?

A. 算数运算符 ( 正确答案 )

B. 推理运算符

C. 逻辑运算符 ( 正确答案 )

D. 比较运算符 ( 正确答案 )

4.( 单选 ) 假设 A ， B.C 是三个矩阵， A 是 2X2 ， B 是 2X2 阶， C 是 3x 2 阶，以下哪一个矩阵的运算是有意义的 ?

A.A+B ( 正确答案 )

B.AC

C.AB+AC

D.B+C

5. 以下关于 Python 列表的描述正确的是 ?

A.Python 中的列表可以随时进行元素的添加和删除。 ( 正确答案 )

B.Python 中的列表是可变的，定的元素可以是任何的数据类型。( 正确答案 )

C.Python 中的列表由个括号包裹住元素，元素用逗号隔开。( 正确答案 )

D.Python 中的列表企形式上类似于数组，是一个有序的序列。

6.( 单选 ) 以下哪个选项不是矩阵乘法对向量的变换 ?

A. 投影

B. 伸缩

C. 曲线化 ( 正确答案 )

D. 旋转

7.( 单选 ) 若随机变量 X 服从正态分布 N(u,o^2) ，则随机变量 Y=aX+b 服从以下哪个正态分布 ?

A.N(a^2 u+b,a^2 o^2)

B.N(a u+b,a^2 o^2) ( 正确答案 )

C.N(a u+b,a^2 o^2+b)

D.N(a u,a^2 o^2)

8. 与面向过程相比，以下哪些是面向对象的特点 ?

A. 程序可拓展性没有明显的变化

B. 提高代码复用性 ( 正确答案 )

C. 增加了开发效率 ( 正确答案 )

D. 使程序的编码更加灵活，提高了代码的可维护性 ( 正确答

案 )

9.( 单选 ) 以下哪个措施属于反爬措施 ?

A. 字体

B. 滑块验证码

C. 数据收费

D. 以上全部正确 ( 正确答案 )

10.( 判断 ) 数据的 ETL ，其中 E 为 Extract ， T 为Transform ， L 为 Load 。

A.TRUE ( 正确答案 )

B. FALSE

11.( 单选 ) 以下哪些选项不属于数值特征离散化的必要性 ?

A. 数值高散化实际是一个数据简化机制，通过数值离散化过程，一个完整的数

据集变成一个个按照某种规则分类的子集，增强了模型的稳定性。

B. 离散化数值在提高建模速度和提高模型精度上有显著作用。

C. 离散化过程并没有带来信息丢失 ( 正确答案 )

D. 离散化后的特征对异常数据有很强的鲁棒性，能减少噪音节

点对数据的影响。

12.( 判断 ) 不要在整个数据集上做归一化处理，要区分训练集和测试集。

A.TRUE

B.FALSE ( 正确答案 )

13. 数据挖掘中用于解决预测问题的模型主要包括哪几大类 ?

A. 分类 ( 正确答案 )

B. 流行

C. 回归 ( 正确答案 )

D. 复变

14.( 判断 ) 可以利用 Python 中的 KNN 算法进行数据缺失值的处理。

A.TRUE ( 正确答案 )

B.FALSE

15.( 单选 )" 点击率问题 " 是这样一个预测问题， 99% 的人不会点击，而 1% 的人会点击，所以这是一个非常不平衡的数据集。假设，现在我们已经建了一个模型来分类，而且有了 99% 的预测准确率，我们可以下的结论是 ?

A. 模型预测准确率已经很高了，我们不需要做什么了。

B. 模型预测准确率不高，我们需要做点什么改进模型。 ( 正确答案 )

C. 无法下结论

D. 以上都不对

16. 机器学习中做特征选择时，以下哪种技术属于 Filter( 过滤法 )

A. 方差选择法

B.B. 互信息法

C.C. 卡方检验

D. 相关系数法

E. 以上全都正确 ( 正确答案 )

17.( 单选 ) 我们可以使用 Python 中 scikit-learn 库的 ( ) 函数，来对样本集进 feature_selection( 特征选择 ) 和dimensionality reduction( 降维 )?

A.sklearn. neighbors

B.sklearn. feature_selection ( 正确答案 )

C.sklearn.linear model

D.sklearn. cluster

18. 当数据预处理完成后，我们需要选择有意义的特征输入算

法和模型进行训练。通常来说，可以从哪些方面考虑来如何进行特

征选择 ?

A. 特征是否发散 ( 正确答案 )

B. 特征与目标的相关性 ( 正确答案 )

C. 特征的名称

D. 以上全都正对

19. 对于特征选择中的互信息法，以下理解正确的是 ?

A. 互信息法是从信息嫡的角度分析特征和输出值之间的关系评分 . ( 正确答案 )

B. 在 Python 工具的 sklearn 模块中，可使用

mutual_info_classif( 分类 ) ( 正确答案 )

和 mutual_info_regression( 回归 ) 来计算各个输入行征和输出值之间的互信息。

C. 互信息的结果对离散化的方式不敏感

D. 互信息值越大，说明该特征和输出值之间的相关性越大，越需要保留。 ( 正确答案 )

20.( 单选 ) 以下关于 Trapper( 包装法 ) 和 FiLter( 过滤法 ) 的描述不正确的是 ?

A.Wrapper 方法由于每次对子集的评价都要进行分类器的训练和测试，所以算法计算复杂度很高。

B.Trapper 方法选出的特征通用性较强，当改变学习算法时，也不需要针对该学习算法重新进行特征选择。 ( 正确答案 )

C. 相对于 Filter( 过滤法 ) ， Wrapper 方法到的特征子集分类性能通常更

好。

D. 对于大规模数据集来说， Wrapper 算法的执行时间很长。

21. 机器学习的分类主要有哪些 ?

A. 无监督学习 ( 正确答案 )

B. 强化学习 ( 正确答案 )

688IT编程网

华为大数据HCIE-v2.0笔试题库及答案

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

华为大数据HCIE-v2.0笔试题库及答案

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式