1、数据仓库
1.1数据仓库的概念与特点
•数据库技术的发展趋势(★)
✓传统的数据库技术:事务处理
✓近年来的发展方向:深度计算(数据分析与决策的制定),广度计算(扩大应用范围,互联网)
✓发展趋势:由原来的以单一数据库为中心的数据环境发展成为多数据库的一体化环境•当前环境事务系统积累
✓环境信息领域,事务系统主要用作事务处理(排污收费,排污申报,环境统计)
✓随着技术进步数据库技术从原来的查询发展到了处理、分析大量信息
•事务处理不适合DSS应用的原因(要提高分析决策的有效性,分析型数据必须与操作型数据分离,按照DSS的要求重新组织,数据仓库就是这样的存储组织技术)
✓事务处理和分析处理特性不同(长事务)
✓数据集成的问题(DSS需要集成的数据)
✓数据动态更新集成问题(DSS处理时间长)
✓历史数据问题
✓数据综合问题(问题的总结归纳)
•数据仓库的概念与特点
✧数据仓库的概念(★):用来存储源于业务的共享数据,典型的数据仓库应该是一个主
题数据库,支持用户从数据存储中发现信息,实现业务的预测与计划。数据仓库是一个
过程而不是项目。
✧数据仓库的特点:(★)
✓面向主题:操作型数据库面向事务处理,业务系统之间分离,数据仓库按照用户决策所关心的方面进行组织;
✓集成的:操作型数据库之间相互独立、异购,数据仓库中的数据对原有数据进行抽取,清理,具有一致性;
✓相对稳定的:操作型数据库数据更新多,数据仓库数据主要供分析决策之用,修改和删除较少,通常只需要定期加载,刷新;
✓反映历史变化:通过历史数据分析对发展里程和未来趋势做出定量分析。
1.2数据仓库系统
✧数据仓库系统的结构
✧数据仓库系统的特点:(★)
✓调整频繁(用户需求,业务的变化)
✓面向系统不同用户(为环境机构提供统一的,正确的信息,支持不同业务,部门)
✓大事务与海量数据(业务相对少,数据包括历史与现势)
✓独立的系统(以区别普通业务处理系统)
1.3数据仓库构成
•数据整合:业务数据围绕多流程,数据仓库面向主题,处理复杂;
excel做直方图的详细步骤•数据存储:业务处理系统数据单独存储,数据仓库基于关系数据库采用星型模型,雪花模型等;•数据访问:由多种不同工具和应用系统构成(OLAP,统计报表);
•信息整合:对多种工具和应用系统进行管理,对门户界面进行封装;
•元数据管理:对数据仓库本身及相关流程规则完整描述。
1.4数据仓库的处理
•数据准备:了解需求,结构设计,业务数据复制、抽取、清理,向小规模数据集市复制和分布;•数据展现:为高层决策者(界面丰富,定制容易的决策分析),中层领导(多维分析和查询),分析人员(多角度灵活查询)报表制作人员(灵活报表设计),客户(CS/BS客户端)提供数据展现;
•过程管理:把数据仓库的建立与运作当成过程来看。是数据仓库的核心,作用:使数据仓库处理过程与不断变化的业务同步。
1.5数据仓库的设计(系统目标、数据模型、体系结构、重要环节、元数据管理)
✧系统目标:建立资源环境信息服务平台,为环境保护政府部门决策提供咨询服务,为社
会用户提供环境信息服务,为专业分析人员提供环境数据的综合应用系统。
✧数据模型:发展、污染物、环境、资源相互联系,相互制约。系统中任何一个环节发生
变化都可以看承是整个系统的动因,因此环境数据仓库数据模型看承是发展、污染物、
环境、资源的往复循环反复和适应的一个体系。
✧体系结构:
•环境数据仓库可以定义为:支持环境决策分析处理的,面向主题的,集成的,能存储空间数据并随空间不断变化的数据集合。
•环境数据仓库体系可以设置若干个决策目标主题,根据决策目标选择相应的数据集成。
•主题是较大的数据载体,其信息来自不同地点的数据库或其他信息源,是环境数据仓库的物质基础。
✧建立环境数据仓库的重要环节:
•从数据源中抽取决策所需要数据
•对环境数据源进行清理和集成
•数据仓库的装载和更新
•数据挖掘工具
✧元数据管理(元数据分类:)
•管理元数据:描述源数据及内容,主题,数据转换和操作信息。
•用户元数据:帮助用户查询信息,理解结果,了解环境数据仓库的数据和组织。
•元数据抽取和模型化,出建立和确定资源环境数据模型的元数据信息,对元数据管理和用户都有用。
2、数据获取(★)
2.1 录入
•采用人工的方法通过应用系统界面进行输入。
•手工录入的数据需要经过核查才能进入数据库。
2.2有线通讯技术
•通过公共电话网对采集器进行远程通信
•主要步骤:数据采集,数据存储,数据传送,强制采样,实时监控
2.3二维条码
✧特点:
•信息容量大(1848个字母)
•编码范围广(指纹,照片,声音等数字化编码)
•保密性好(可采用密码防伪,软件加密等多重保密手段)
•译码可靠性高(千万分之一)
•修正错误强(50%以下破损)
•容易制作,成本低,形状可变
✧分类
•堆积或层排式
•棋盘或矩阵式
✧二维条码在环保中的应用
✧排污申报二维条码系统
•无需录入,准确率高
•安全性能好
•成本低,投资少
•扩展性强
2.4 GSM短信技术
•无线短信技术(SMS),移动用户及外部系统之间文字和数字的短信无线服务;
•GSM--无线数字的欧洲标准;
•显著特点:可通过可移动的手机在任何时候接受或者提交短信,同时具有抗故障性;
•主要优势:方便性,灵活性,数据访问与信息服务的无缝连接;
•GSM技术在环保在线监测中的应用(污染源数据采集)
(优势:响应时间短,真正做到在线采集。系统可配置GIS地理信息系统软件,可方便在电子地图上查污染源信息,并可通过环保局的网络进行实时信息发布与实时报表打印)
2.5 GPRS无线接入技术
✧GPRS概念:通用分组无线业务的简称
✧与GSM的关系:GSM Phase2.1实现内容之一,能提供比现有GSM更高的数据率。与
GSM采用相同的频段,频带宽度,突发结构,无线调制标准,跳频规则以及相同的TDMA 帧结构
✧GPRS主要特点
•采用分组交换技术,优化网络资源的利用
•定义了新的GPRS无线信道,分配十分灵活
•支持中、高速率的数据传输
•网络接入速度快,提供了与现有数据的无缝连接
•支持基于标准数据通信协议的应用
•支持间歇式和爆炸式传输
•核心层采用IP技术,可以很方便的实现与高速发展的IP网络的无缝连接
•... ...
✧GPRS在汽车尾气监测的应用
2.6遥感技术(从远距离感知目标发射或自身辐射的电磁波,可见光,红外线等目标进行探测和
识别的技术)
a)主要特点:
a)传感器种类多;
b)形成多级分辨率金字塔;
c)可反复获取同一地区影象的多时相性;
d)光谱分辨率宽。
●遥感技术应用
✓大气监测(污染源,植物季相节率变化和受污染后的反映差异)
✓水污染监测(水体遥感,水体叶绿素富营养化,水体热污染研究)
✓固体废物监测(垃圾堆放等)
✓生态监测(重金属,热岛,湿地)
3.联机分析
3.1联机分析的概念
•针对特定问题的联机数据访问和分析。通过对信息的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理人员对数据进行深入观察。
•特性:快速性,多维性,可分析性,信息性
3.2 OLAP多维数据结构
✧类型
•超立方结构
•多立方结构
✧数据处理方式
•关系数据库
•多维数据引擎
•客户机
4.数据挖掘
4.1数据挖掘的概念
•利用各种分析方法和分析工具在大规模海量数据中建立模型和发现数据间关系的过程,这些模型和关系可以用来做决策和预测。
•与传统数据分析的本质区别:在没有明确假设的前提下去挖掘信息,发现知识。所得到的信息有未知,有效和实用三个特征。
●数据挖掘与OLAP的关系
•OLAP是决策支持领域的一部分,传统查询(what happen),OLAP解决(what next)经过假设,然后通
过证明或推翻来得到自己的结论。本质上属于演绎推理
例如:环境污染的原因(锅炉,汽车尾气,周边大气…推翻)。
•数据挖掘不是用于验证某个假设,而是在数据库中寻模型,在本质上是一个归纳的过程
例如:寻污染的严重因素,(通过到主要排污单位或某行业的污染,发现一些没
有试想的因素例如上游污染)与OLAP具有互补性。
4.2数据挖掘研究内容和本质
•研究内容:基础理论,发现算法,数据仓库,可视化技术,定性定量互换模型,知识表示方法,发现知识的维护和再利用,半结构化和结构化数据中的知识发现和网
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论