大数据第一章课后题
——大数据概述
1.试述信息技术发展史上的3次信息化浪潮及其具体内容。
第一次信息化浪潮 1980年前后个人计算机开始普及,计算机走入企业和千家万户。代表企业:Intel,AMD,IBM,苹果,微软,联想,戴尔,惠普等。
第二次信息化浪潮 1995年前后进入互联网时代。代表企业:雅虎,谷歌阿里巴巴,百度,腾讯。
第三次信息浪潮 2010年前后,云计算大数据,物联网快速发展,即将涌现一批新的市场标杆企业。
2.试述数据产生方式经历的几个阶段。
经历了三个阶段:
运营式系统阶段 数据伴随一定的运营活动而产生并记录在数据库。
用户原创内容阶段 Web2.0时代。
感知式系统阶段 物联网中的设备每时每刻自动产生大量数据。
3.试述大数据的4个基本特征。
数据量大(Volume)
据类型繁多(Variety)
处理速度快(Velocity)
价值密度低(Value)
4.试述大数据时代的“数据爆炸”特性。
大数据摩尔定律:人类社会产生的数据一直都在以每年50%的速度增长,即每两年就增加一倍。
5.科学研究经历了那四个阶段?
实验 比萨斜塔实验
理论 采用各种数学,几何,物理等理论,构建问题模型和解决方案。例如:牛一,牛二,牛三定律。
计算 设计算法并编写相应程序输入计算机运行。
数据 以数据为中心,从数据中发现问题解决问题。
6.试述大数据对思维方式的重要影响。
全样而非抽样
效率而非精确xml技术的主要应用
相关而非因果
7.大数据决策与传统的基于数据仓库的决策有什么区别?
数据仓库以关系数据库为基础,在数据类型和数据量方面存在较大限制。
大数据决策面向类型繁多的,非结构化的海量数据进行决策分析。
8.举例说明大数据的具体应用。
汽车行业 大数据和物联网技术 无人汽车
互联网行业 分析客户行为,进行商品推介和有针对性的广告投放。
城市管理 智能交通 环保检测 城市规划和智能安防
生物医学 流行病预测 智慧医疗 健康管理 解读DNA
个人生活 分析个人生活行为习惯,提供周到的个性化服务
9.举例说明大数据的关键技术
数据采集
数据存储和管理
数据处理分析
数据安全与隐私保护
10.大数据产业包含哪些层面?
IT基础设施层
数据源层
数据管理层
数据分析层
数据平台层
数据应用层
11.定义并解释一下术语:云计算,物联网。
云计算实现了通过网络提供可伸缩的廉价的分布式计算力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源。
物联网: 物物相连的互联网,利用局部网络或者互联网等通信技术把传感器,控制器,机器,人员和物等通过新的方式连在一起,形成人与物,物与物相连,实现信息化和远程管理控制。
12.详细阐述大数据,云计算和物联网三者之间的区别和联系。
大数据、云计算和物联网的区别
大数据侧重于海量数据的存储、处理与分析,从海量数据中发现价值,服务于生产和生活;云计算本质上旨在整合和优化各种IT资源,并通过网络以服务的方式廉价提供给用户;
物联网的发展目标是实现物物相连,应用创新是物联网发展的核心。
大数据、云计算和物联网的联系
从整体上看,大数据、云计算和物联网这三者是相辅相成的。大数据根植于云计算,大数据分析的很多技术都来自于云计算,云计算的分布式和数据存储和管理系统(包括分布式文件系统和分布式数据库系统)提供了海量数据的存储和管理能力,分布式并行处理框架Map
Reduce提供了海量数据分析能力,没有这些云计算技术作为支撑,大数据分析就无从谈起。反之,大数据为云计算提供了“用武之地”,没有大数据这个“练兵场”,云计算技术再先进,也不能发挥它的应用价值。
物联网的传感器源源不断产生的大量数据,构成了大数据的重要来源,没有物联网的飞速发展,就不会带来数据产生方式的变革,即由人工产生阶段向自动产生阶段,大数据时代也不会这么快就到来。同时,物联网需要借助于云计算和大数据技术、实现物联网大数据的存储、分析和处理。
云计算、大数据和物联网,三者会继续相互促进、相互影响,更好地服务于社会生产和生活的各个领域。
大数据第二章课后题答案
——大数据处理架构Hadoop
1.试述Hadoop和谷歌的MapReduce、GFS等技术之间的关系。
Hadoop是Apache软件基金会旗下的一-个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构。
1Hadoop 的核心是分布式文件系统( Hadoop Ditributed File System,HDFS )和MapReduce。
2HDFS是对谷歌文件系统( Google File System, GFS )的开源实现,是面向普通硬件环境的分布式文件系统,具有较高的读写速度、很好的容错性和可伸缩性,支持大规模数据的分布式存储,其冗余数据存储的方式很好地保证了数据的安全性。
3MapReduce 是针对谷歌MapReduce的开源实现,允许用户在不了解分布式系统底层细节的情况下开发并行应用程序,采用MapReduce 来整合分布式文件系统上的数据,可保证分析和处理数据的高效性。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论