《大数据导论》
一、单选
三、名词解释
1.数据变换
在对数据进行统计分析时,要求数据必须满足一定的条件,如在方差分析时,
要求试验误差具有独立性、无偏性、方差齐性和正态性二但在实际分析中,独
立性、无偏性比较容易满足,方差齐性在大多数情况下能满足。正态性有时不
能满足。有时若将数据经过适当的转换,如平方根转换、对数转换、平方根反
正弦转换,则可以使数据满足方差分析的要求。所进行的此种数据转换,称为
数据变换。
2.数据仓库
William H. Inmon在1992年出版Building the Data Warehouse一书,第一
次给出了数据仓库的清晰定义和操作性极强的指导意见,真正拉开了数据仓库
得到大规模应用的序幕。在该书中,将数据仓库定义为:“一个面向主题的(subject oriented)、集成的(integrate),相对稳定的(non-volatile)、反映历史变化(time variant)的数据集合,用于支持管理决策。
3.大数据分析
大数据分析是大数据理念与方法的核心,是指对海量增长快速、内容真实、类
型多样的数据进行分析,从中出可以帮助决策的隐藏模式、未知的相关关系
以及其他有用信息的过程。
4.RDD弹性分布式数据集
RDD弹性分布式数据集,简单来说,是一种自定义的可并行数据容器,可以存
放任意类型的数据。弹性是指有容错的机制,若一个RDD分片去失,Spark可
以根据粗粒度的日志数据更新记录的信息(Spark中称为“血统”)重构它:
分布式指的是能对其进行并行的操作。除了这两点,它还能通过persist或者cache函数被缓存在内存里或磁盘中,共享给其他计算机,可以避免Hadoop那
样存取带来的开销。
四、简答题
1. 大数据处理的关键技术都有哪些?并做简要描述。
大数据处理的关键技术主要包括:数据采集和预处理、数据存储、数据计算处理、数据分析和挖掘、数据可视化展示等。
1).数据采集,又称数据获取,是大数据生命周期的第一个环节,通过RFID射
频识别技术、传感器、交互型社交网络以及移动互联网等方式获得的各种类型
的结构化、半结构化及非结构化的海量数据。
2).数据预处理是数据分析和挖掘的基础,是将接收数据进行抽取、清洗、转换、归约等并最终加载到数据存储的过程。
3).数据存储,需要将采集到的数据进行存储管理,建立相应的数据库。
4).数据计算处理。单台计算机必然无法完成海量的数据处理工作,需要分布式架构的计算平台。
5).数据分析与挖掘,是基于商业目的,有目的的进行收集、整理、加工和分析数据,提炼有价值信息的一个过程。
6).大数据可视化技术,可以提供更为清晰直观的数据表现形式,将错综复杂的数据和数据之间的关系,通过图片、映射关系或表格,以简单、友好、易用的
图形化、智能化的形式呈现给用户,供其分析使用。
2. 解释为什么要进行数据预处理。
高质量的数据是能够满足应用需求的数据。数据质量涉及很多因素,包括准确性、完整性、一致性、时效性、可信性和可解释性。
1)不完整数据的出现可能有多种原因:重要的信息并非总是可以得到、用户输
入时的遗漏、用户理解错误导致相关数据没有记录、设备故障导致的输入缺失、记录中不一致数据的删除、记录历史或被修改的数据被忽略、缺失的数据,特
别是某些属性缺失值的元组。
2)不正确数据的出现原因有:收集数据的设备出现故障、人为或计算机内部错
误在数据输入时出现、数据传输中的错误也可能出现、出于个人隐私考虑,用
户故意向强制输入字段输入不正确的信息。
3)不一致数据,如命名约定或所用的数据代码不一致、输入字段(如日期)的
格式不一致等。数据可视化名词解释
4)时效性:数据更新不及时对数据质量产生负面影响。
5)可信性反映了有多少数据是用户信赖的。
6)可解释性反映了数据是否容易被理解。
以上因素影响数据质量,低质量的数据将导致低质量的挖掘效果,因此需要对
数据进行预处理。
3. 存储虚拟化技术有哪几个实施层次,分别叙述这几个层次的特点。
根据不同的虚拟化实现位置,虚拟化还可以分为基于主机虚拟化、基于存
储设备虚拟化和基于存储网络虚拟化。
1)基于主机虚拟化。基于主机的虚拟化存储的核心技术是,通过增加一个运行在操作系统下的逻辑卷管理软件将磁盘上的物理块号映射成逻辑卷号,从
而把多个物理磁盘阵列映射成一个统一的虚拟逻辑块,来进行存储虚拟化的控
制和管理。
2)基于存储设备虚拟化。基于存储设备虚拟化技术依赖于提供相关功能的存储设备的阵列控制器模块,常见于高端存储设备,其主要应用针对异构的
SAN存储构架。
3)基于存储网络虚拟化。基于存储网络虚拟化技术的核心是在存储区域网中增加虚拟化引擎实现存储资源的集中管理,其具体实施一般是通过具有虚拟化支持能力的路由器或交换机实现的。
4.请分析大数据未来的发展趋势。
1. 大数据从概念化走向价值化
2. 大数据安全与隐私越来越重要
3. 大数据分析与可视化成为热点
4. 数据的商品化和数据共享的联盟化
5. 深度学习与大数据性能成为支撑性的技术
6. 数据科学的兴起
7. 大数据产业成为一种战略性产业
8. 大数据生态环境逐步完善
9. 大数据处理架构的多样化模式并存
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论