第1章
1.简述什么是大数据?
答:
大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
2.大数据的数据有什么特点?
答:
数据量大(Volume)、数据类型复杂(Variety)、数据产生速度快(Velocity)、价值密度低(Value)。
3.大数据对科学研究有什么影响?
答:
促进了科学研究的第四范式产生和交叉学科的发展。
4.大数据有哪些数据类型?
答:
有结构化数据、非结构化数据和半结构化数据。
5.大数据有哪些应用?
答:
大数据可以在众多领域创造巨大的衍生价值:实现数据的资源化,帮助企业抢占市场,提供个性化服务,指定有效方针等;与云计算深度结合;可能会改变数据世界里的很多算法和基础理论,实现科学技术上的突破
第2章
1.简述什么是云计算?
答:
①云计算是一种动态扩展的计算模式,通过网络将虚拟化的资源作为服务提供给用户。
②云计算是一种无处不在的、便捷的通过互联网访问的一个可定制的IT资源(IT资源包括网络、服务器、存储、应用软件和服务)共享池,是一种按使用量付费的模式。它能够通过最少量的管理或与服务供应商的互动实现计算资源的迅速供给和释放
2.云计算有什么特点?
答:
①具有大规模并行计算能力
②资源虚拟化和弹性调度
③数据量巨大并且增速迅猛产生了典型的大数据处理技术
3.请简述云计算的三种主要部署模式。
答:
①公有云:提供面向社会大众、公共体的云计算服务
②私有云:提供面向应用行业/组织内的云计算服务
③混合云:是把公有云和私有云进行整合,吸纳二者的优点,给企业带来真正意义上的云计算服务
4.请简述云计算的三种主要服务模式。
答:
1.基础设施即服务(IaaS)
①主要用户是系统管理员
②直接利用云提供的资源进行业务的部署或简单的开发
③服务提供商提供给用户的服务是计算和存储基础设施
④用户不管理或控制任何云计算基础设施,但能控制操作系统的选择
⑤关键技术及解决方案是虚拟化技术
2.平台即服务(PaaS)
①主要用户是开发人员
②把应用服务的运行和开发环境作为一种服务提供的商业模式即PaaS是把二次开发的平台以服务形式提供给开发软件的用户使用
③开发人员不需要管理或控制底层的云计算基础设施,但可以方便地使用很
多在构建应用时的必要服务
④两个关键技术:分布式的并行计算和大文件分布式存储
3.软件即服务(SaaS)
①主要用户是普通用户
②服务提供商提供给用户的服务是运行在云计算基础设施上的应用程序,用户只需要通过终端设备接入使用即可,简单方便,不需要用户进行软件开发,也无需管理底层资源
③关键技术是多租户技术,使资源能够更好的共享
5.请画出云计算基础设施Google平台的基础架构图。
答:
6.请画出云计算基础设施Hadoop平台的基础架构图。
答:
7.用自己的语言分别解释物联网,边缘计算,雾计算。
答:
物联网:物联网就是物物相连的互联网
边缘计算:边缘计算是指在靠近物或数据源头的一侧,采用网络、计算、存储、应用核心能力为一体的开放平台,就近提供最近端服务
雾计算:数据、(数据)处理和应用程序集中在网络边缘的设备中,而不是几乎全部保存在云中,是云计算(Cloud Computing)的延伸概念
第3章
1.请简述大数据的处理流程?
答:
大数据的处理流程分为以下几步①获取源数据;②进行数据清洗;③数据分析;④数据解释;⑤将数据分析与解释的结果呈现给用户。
2.简述Flume的数据处理流程。
答:
分为以下几步
①web server(或其他)输入数据
②数据进入Source(输入接口)
③信息以队列的形式进入Channal管道(存储渠道或者存储通道)
④Sink会将Channel中的数据发送到指定的地方——外部存储
⑤只有在Sink将Channel中的数据成功发送出去之后,Channel才会将临时数据进行删除。
3.大数据预处理过程是什么?
答:
主要过程包括:①数据的分类和预处理。②数据清洗。③数据的集成。④数据归约。⑤数据变换。⑥数据的离散化处理。
4.数据归约有哪几种方法?并选择一个方法解释。
答:
常见的数据归约的方法有①数据立方体聚集、②维归约、③数据压缩、④数值归约、⑤数据离散化与概念分层。
随意选择一种解释即可,例如:数据立方体聚集主要是用于构造数据立方体,数据立方体存储多维聚集信息。每个单元存放一个聚集值,对应于多维空间的一个数据点,每个属性可能存在概念分层,允许在多个抽象层进行数据分析。
5.假设12个销售价格记录已经排序,如下所示:5,10,11,13,15,35, 50,55,72,92,204,215。使用如下方法将他们划分为三个箱。(1)等深划分。(2)等宽划分。
答:
等深划分:①5,10,11,13  ②15,35,50,55  ③72,92,204,215 (深度为4)
等宽划分:①5,10,11,13,15,35,50,55,72  ②92  ③204,215(宽度为70)
6.折线图对比散点图的优点有哪些?
答:
散点图在处理数量小的数据时数据比较混乱。而折线图可以使用较少的数据显示随单位(如:单位时间)而变化的连续数据。
7.分析下列情况我们使用什么图形分析
大数据etl工具有哪些(1)学历与收入的分布情况
(2)某地气温与地理区域的关系
(3)分析一个商品各项属性的特点
答:
①散点图或气泡图②热力图③雷达图
第4章
1.请简述并行计算机的发展。
答:
20世纪70年代,第一台并行计算机于1972年问世。1976年向量机Cray-1投入运行。20世纪80年代以多指令多数据流(Multiple Instruction stream Multiple Data stream,MIMD)并行计算机为主。20世纪90年代,并行计算体系结构框架趋于统一,以分布式共享存储(Distributed Shared Memory,DSM)、大规模并行处理结构(Massively Parallel Processing,MPP)、工作站集(Cluster of Workstations,COW)为代表。2000年至今,并行计算机由以COW为原型的大规模商用普通PC机构成的集为主。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。