2022年高中信息技术学业水平综合复习
必修1数据与计算第五章数据处理和可视化表达
5.1 认识大数据
5.1.1 大数据
大数据是指无法在可承受的时间范围内用常规软件工具进行高效捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
5.1.2 大数据的特征(1)从互联网产生大数据的角度来看,大数据具有“4V”特征:大量(Volume)、多样(Variety)、低价值密度(Value)、高速(Velocity)。
第一,数据体量巨大。从TB级别跃升到PB级别。
第二,数据类型繁多。如网络日志、视频、图片、地理位置信息等。
第三,价值密度低。以视频为例,在连续不间断的监控过程中,有用的数据可能仅仅一两秒。
第四,变化速度快。数据来自世界各地的网络终端,且以秒为单位快速变化。
(2)从互联网思维的角度来看,大数据具有三个特征:样本渐趋于总体,精确让位于模糊,相关性重于因果。
第一,在大数据时代强调数据要全量而不是抽样,即强调数据规模全量,而不是强调数量巨大。大数据时代有了更好的数据采集手段,让获取全量数据成为可能。
第二,大数据时代研究的数据如此之多,追求的不是精确性,而是模糊性。在大数据时代,只要掌握了大体的开展方向即可,适当忽略微观层面上的精确度,会让我们在宏观层面拥有更好的洞察力。
第三,大数据时代不是因果关系,而是相关关系。在大数据时代,无须再紧盯事物之间的因果关系,而应该寻事物之间的相关关系;相关关系也许不能准确地告诉我们某件事情为何会发生,但是会提醒我们这件事情正在发生。
(3)从大数据存储与计算的角度来看,大数据具有两个特征:分布式存储和分布式并行计算。
第一,大数据存储在互联网不同的服务器与各客户终端。
第二,应用分布式并行计算处理互联网的大数据。
大数据对日常生活的影响
1.大数据使人们日常生活更为便捷:方便支付;方便出行;方便购物与产品推介;方便看病与诊病。
numpy库运行速度2.大数据对人们日常生活产生的负面影响:个人信息泄露;信息伤害与。
5.2数据的采集
5.2.1 数据采集的基本方法
数据采集的基本方法包括:1.系统日志采集法;2.网络数据采集法;3.其他数据采集法。
实例,如利用手环检测心率,主要是通过光感进行,采用绿搭配感光光电二极管实时检测流经手腕血液的流量来获取心率信息。当用户的心脏跳动时,会有更多的血液流过用户的手腕,绿光的吸收量也会越大;在
心脏跳动间隙,血液流量减少,绿光的吸收也会减少。
2.改革开放以来,中国经济开展取得令人瞩目的成就,但是中国各省开展差异大。如历年各省的国内生产总值(GDP)和人口数据,我们可以发现经济开展和人口数据的变化规律。请采集有关数据,并进行数据分析,通过数据分析发现数据中的一些规律。
拓展:Python网络数据采集程序使用的扩展库
(l)NumPy (NumericalPython)
是构建科学计算最基础的软件库;
(2)SciPy
是一个工程和科学软件库,包含线性代数、优化、集成和统计的模块;
(3)Pandas
是一个Python包,旨在通过标记(labeled)和关系(relational)数据进行工作;
(4)Matplotlib
是Python的一个2D绘图库。
在Python模块库中有大量模块可供使用,要想使用这些文件,就需要用import语句把指定模块导入当前程序中。使用import语句导入模块的语法如下:
import module关键字模块名
from import语句也是导入模块的一种方法,是导入指定模块内的指定函数方法。使用from import语句导入模块内指定方法的语法如下:
from module import name
关键字模块名关键字方法名
数据的存储和保护
1.数据的存储
一种是把数据存在本地内部,另一种是把数据存在第三方公共或私有的“云端”存储。
2.数据的保护
(1)数据平安保护技术。安装杀毒软件和防火墙只能防范数据平安隐患,而采用拷贝、备份、复制、镜像、持续备份等技术进行数据保护才是更为彻底、有效的方法。
为了防止数据泄密,可采用对称式加密(加密、解密用同一密钥)和非对称式加密(加密、解密用两个不同的密钥)。
(2)数据的隐私保护。解决方法有三个:一是技术手段,常用的隐私保护有:①数据收集时进行数据精度处理;②数据共享时进行访问控制;③数据发布时进行人工加扰;④数据分析时进行数据匿名处理等。二是提高自身的保护意识。三是要对数据使用者进行道德和法律上的约束。
5.3 数据的分析
数据分析就是在一大批杂乱无章的数据中,运用数字化工具和技术,探索数据内在的结构和规律,构建数学模型,并进行可视化表达,通过验证将模型转化为知识,为诊断过去、预测未来发挥作用。
数据分析一般包括特征探索、关联分析、聚类与分类、建立模型和模型评价等。
5.3.1 特征探索
特征探索的主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析
数据的分布特征,求最大值、最小值、极差等描述性统计量。
5.3.2 关联分析
关联分析就是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。
5.3.3 聚类分析
聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。
K-平均算法是一种经典的自下而上的聚类分析方法。
5.3.4 数据分类
数据分类是数据分析处理中最基本的方法。数据分类通常的做法是,基于样本数据先训练构建分类函数或者分类模型(也称为分类器),该分类器具有将待分类数据项映射到某一特点类别的功能。
贝叶斯分类技术在众多分类技术中占有重要地位。
5.4 数据的可视化表达
数据的可视化可以把枯燥乏味的海量数据以丰富的视觉效果呈现数据所反映的本质问题,有效提升数据分析的效率。数据可视化是指以图形、图像、地图、动画等生动、易于理解的方式展示数据和诠释数据之间的关系、趋势与规律等,以便更好地理解数据。
5.4- 1数据可视化表达方式(见下页表5-5)数据可视化工具
Python语言因其开源和包容的特性,嵌入了大量数据可视化的工具,如绘图工具模块Matplotlib、Seaborn 和 Bokeh 等。
11) Seaborn主要关注统计模型的可视化。
22) Bokeh也是一个很好的可视化库,可实现交互式可视化。
大数据
数据的可视化表达
大数据的特征
大数据对日常生活的影响
数据采集的方法和工具
数据的存储和保护
特征探索
关联分析
聚类分析
数据分类
数据可视化表达的方式
数据的可视化表达
数据可视化表达的工具
表5-5数据分析类型及其对应的可视化呈现
数据分析类型可视化呈现类型"I分组柱形图堆叠柱形图拆线图柱线混合图
有关趋势的
分析
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论