《大数据导论》考试试卷一
试卷编号: ( A )卷 课程编号: 课程名称: 大数据导论 考试形式: 闭卷 适用班级: 姓名: 学号: 班级: 学科部: 专业: 考试日期:
考生注意事项:1、本试卷共6页,请查看试卷中是否有缺页或破损。如有立即举手报告以便更换。 2、考试结束后,考生不得将试卷、答题纸和草稿纸带出考场。 一、单项选择题(每小题2分,共20分) 1、( )提出在今后的十几年里,半导体处理器的性能,比如容量、计算速度和复杂程度,每18个月左右可以翻一番。 A.比尔•盖茨 B.戈登•摩尔 C.乔布斯 D.爱因斯坦 2、 当前大数据技术的基础是由( )首先提出的。 A.微软 B.百度 C.谷歌 D.阿里巴巴 3、数据清洗的方法不包括( )。 A.缺失值处理 B.噪声数据清除 C.一致性检查 D.重复数据记录处理 4、 美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的( )。 A.在数据基础上倾向于全体数据而不是抽样数据 B.在分析方法上更注重相关分析而不是因果分析 C.在分析效果上更追究效率而不是绝对精确 D.在数据规模上强调相对数据而不是绝对数据 5、 支撑大数据业务的基础是( )。 A.数据科学 B.数据应用 C.数据硬件 D.数据人才 6、假设一种基因突变导致两件事情,一是使人喜欢抽烟,二是使这个人得肺癌,得肺癌就是 关系,而吸烟和肺癌则是 关系( )。 A.因果 相关 B.相关 因果 C.并列 相关 D.因果 并列 7、大数据环境下的隐私担忧,主要表现为( ) A.个人信息的被识别与暴露 B.用户画像的生成 C.恶意广告的推送 D.病毒入侵 8、一切皆可连,任何数据之间逻辑上都有可能存在联系,这体现了大数据思维维度中的( ) A.定量思维 B.相关思维 C.因果思维 D.实验思维 9、大数据的跨界年度是指( )。 A.2010年 B.2011年 C.2012年 D.2013年 10、国务院办公厅是在哪一年印发的《关于促进和规范健康医疗大数据应用发展的指导意见》?( )。 A.2013年 B.2014年 C.2015年 D.2016年 二、判断题(对的打√,错的打×,每小题1分,共8分) 1、对于大数据而言,最基本、最重要的要求就是减少错误、保证质量。因此,大数据收集的信息要尽量精确。( ) 2、一般而言,分布式数据库是指物理上分散在不同地点,但在逻辑上是统一的数据库。因此分布式数据库具有物理上的独立性、逻辑上的一体性、性能上的可扩展性等特点。( ) 3、谷歌预测流感充分体现了数据重组和扩展对数据价值的重要意义。( ) 4、啤酒与尿布的经典案例,充分体现了实验思维在大数据分析理念中的重要性。( ) 5、对于企业来说,给用户进行各种促销或者实施运营策略的时机也比较重要,而且对不同兴趣偏好的用户最好集中处理。( ) 6、当前,企业提供的大数据解决方案大多基于Hadoop开源项目。( ) 7、云计算相当于储有海量信息的信息库,大数据相当于计算机和操作系统。( ) 8、大数据能够发现学习软肋,能够通过对与学生相关的海量数据分析,辨别出每个学生的学习行为和学习模式。( ) 三、名词解释题(每小题3分,共12分) 1、大数据 2、云计算 3、可视化 4、网络信息安全 四、简答题(第1、2题各7分,第3、4题各8分,共30分) 1、简述大数据存储系统的基本特点有哪些? 2、简述数据可视化的7个数据类型是什么? 3、什么是Hadoop?Hadoop的优点有哪些? 4、简述云计算与大数据的关系? 五、论述题(每小题15分,共30分) 1、论述在大数据时代,为什么“我们不再探求难以捉摸的因果关系,转而关注事物的相关关系”。 2、论述NoSQL与RDBMS的主要区别? | |||||||||||||||||||||||||||||||||||||||||||||||||||
《大数据导论》试卷一答案及评分标准
一、单项选择题(每题2分,共20分)
1、B 2、C 3、D 4、B 5、B 6、A 7、A 8、B 9、C 10、D
二、判断题(每题1分,共8分)
1、× 2、√ 3、× 4、× 5、× 6、√ 7、× 8、√
三、名词解释(每题3分,共12分)
1、大数据——是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
2、云计算——是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备。
3、可视化——是一种使复杂信息能够容易和快速被人理解的手段,是一种聚焦在信息重要特征的信息压缩,是可以放大人类感知的图形化表示方法。
4、网络信息安全——主要是指网络系统的硬件、软件及其系统中的数据受到保护,不受偶然的或者恶意的原因而遭到破坏、更改、泄露,系统连续可靠正常地运行,网络服务不中断。
四、简答题(第1、2题各7分,第3、4题各8分,共30分)
1、答案:
(1)大容量及高可扩展性;(1分)数据可视化名词解释
(2)高可用性;(1分)
(3)高性能;(1分)
(4)安全性;(1分)
(5)自管理和自修复;(1分)
(6)注重成本;(1分)
(7)访问接口的多样化。(1分)
2、答案:
(1)1D线性数据;(1分)
(2)2D地图数据;(1分)
(3)3D世界数据;(1分)
(4)多维数据;(1分)
(5)时态数据;(1分)
(6)树型数据;(1分)
(7)网络数据。(1分)
3、答案:
Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。(2分)它主要有以下几个优点:
(1)高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。(1分)
(2)高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。(2分)
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论