第六章 数据库与数据仓库
第一节 数据库技术
数据处理是指从某些已知的数据出发,推导加工出一些新的数据。在数据处理中,通常计算比较简单,而数据管理比较复杂。数据管理是指数据的收集、整理、组织、存储、维护、检索、传送等操作。这部分操作是数据处理业务的基本环节,而且也是任何数据处理业务中必不可少的共有部分。数据处理的目的是从大量的数据中,按照应用的需要,根据数据自身的规律及其相互联系,通过分析、归纳、推理等科学方法,利用计算机技术,提取有效的信息资源,为进一步分析、管理、决策提供依据。
第二节 数据仓库
一、数据仓库发展的由来
在数据库应用的早期,计算机系统所处理的是从无到有的问题,是传统手工业务自动化的问题,例如银行的储蓄系统。这属于典型的联机事务处理(OLTP)系统。联机事务处理系统只涉及当前数据,系统积累下的历史数据往往被转储到脱机的环境中。由于在计算机系统应用的
早期,还没有积累大量的历史数据可供统计与分析。因此,联机事务处理成为20世纪整个80年代直到90年代初数据库应用的主流。
数据库系统作为数据管理的手段,传统上主要用于事务处理。在这些数据库中已经保存了大量的日常业务数据。 企业的决策分析早期也是建立在这样的数据处理环境上进行的。 尽管数据库在事务处理方面的应用获得了巨大的成功,但它对分析处理的支持一直不能令人满意,尤其是当以业务处理为主的联机事务处理应用与以联机分析处理为主的DSS应用共存于同一个数据库系统时,两种类型的处理发生了明显的冲突。人们逐渐认识到,事务处理和分析处理具有极不相同的性质,直接使用事务处理环境来支持DSS是行不通的。
如果说传统的OLTP强调的是更新数据库——向数据库中添加信息,那么OLAP就是要从数据库中获取信息、利用信息。因此,著名的数据仓库专家Ralph Kimball写道:“我们花了20多年的时间将数据放入数据库,如今是该将它们拿出来的时候了。” 事实上,将大量的业务数据应用于分析和统计原本是一个非常简单和自然的想法。但在实际操作中,人们却发现要获得有用的信息并非想象的那么容易。
具体来说,联机事务处理不适合DSS应用的原因概括起来主要有以下四点:第一、联机事务
处理环境下的数据是分散而非集成的,业务数据往往被存放于分散的异构环境中,不易被统一查询访问,而且还有大量的历史数据处于脱机状态,形同虚设;第二、事务处理系统不具备数据动态集成的能力,数据源中数据发生的变化不能反映给决策者;第三、对于决策分析而言,历史数据是相当重要的,企业的事务处理一般只需要当前数据;第四、业务数据的模式是针对事务处理系统而设计的,数据的格式和描述方式并不适合非计算机专业人员进行业务上的分析和统计。
二、数据仓库的定义及特点
著名的数据仓库专家W•H•Inmon于1992年在其著作《Building the Data Warehouse》一书中给予数据仓库如下定义:
数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。
我们可以从两个层次予以理解:首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库用于对多个异构的数据源有效集成,集成后按照主题进行重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
以下对数据仓库的4个特点进行分析:
1、面向主题。传统数据库的数据组织面向事务处理任务,各个业务系统之间各自分离;而数据仓库中的数据是按照一定的主题进行组织的。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。
传统数据库系统主要围绕应用和针对具体业务设计解决问题的方法和途径,组织与此相关的一段时间内的业务统计、分析工作。例如,对一个保险公司来说,应用问题包括各种各样的保险业务的处理,如汽车保险、人寿保险、健康保险、意外伤害保险等,以及月度、季度、年度报表等。数据仓库则以一个企业或组织中固有的业务主题作为处理的主体,是从整体、全局的角度来衡量这些主题在企业中的作用。同样在保险公司中,这些主题可能包括顾客、保险单、保险费以及索赔等。
2、集成的。面向事务处理的传统数据库通常与某些特定的应用相关,如财务、人事、销售、生产等系统,数据库之间相互独立,往往异构(如编码、命名习惯、实际属性、属性度量等方面的不一致,例如,对顾客的性别编码,有的系统用“男女”来表示,有的用“0”或“1数据库应用在哪些方面”表示;再比如产品编码、人员编码等在不同的系统可能采用不同长度的字符串表示)。而数据
仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性(即当这些数据进入数据仓库的时候,必须采用某种方法消除应用问题中存在的许多不一致,使之在数据仓库中有统一的表示和含义),以保证数据仓库中的信息是关于整个企业的一致的全局信息。
3、相对稳定的。传统数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及到的数据操作主要是数据查询,一旦某个数据进入数据仓库,一般情况下将被长期保留,很少修改和删除,只需定期加载、刷新。
4、反映历史变化。传统数据库主要关心当前某一个时间段内的数据;而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时间点到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
数据仓库不是数据的简单堆积,而是从容量庞大的事务型数据库中抽取数据,并将其清理、转换为新的存储格式,即根据决策目标将存储在数据库中对决策分析所必需的、历史的、分散的、详细的数据,经处理转换成集中统一的、随时可用的信息。
三、数据仓库系统的体系结构
整个数据仓库系统是一个包含4个层次的体系结构:
(一)数据源
数据源是指企业来自于不同业务系统的、以不同形式存储的数据,包括企业数据库、业务文件和其他数据来源。数据源是数据仓库系统的基础,是整个系统的数据源泉。
(二)数据的存储与管理
数据仓库要从各种数据源中获得数据,必须具备有效的输入工具,对这些原始“粗数据”进行必要的处理工作。这些粗数据源中很多信息并不需要,因此,必须有选择地抽取需要的字段。除此之外,对一些必要的但原始数据中缺乏的信息,也必须提供“默认值”。总之,由于数据仓库有自己的独立数据库系统,字段长度、字段类型、索引定义等与源数据库有很大的不同,数据在导入之前,各种转换工作是必然的。
企业的所有数据经汇集整理后,集中到中央数据仓库,形成企业级的一致和完整的数据仓库,可以进一步根据不同主题需要将中央数据仓库划分为不同数据集市(当然也可以讲不同数据集市统一成为中央数据仓库)。
3、OLAP服务器
联机分析处理(OLAP)的概念最早由关系数据库之父E.F.Codd于1993年提出的。Codd认为联机事务处理(OLTP)已不能满足终端用户对数据库查询分析的要求,SQL对大数据库的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。
因此,Codd提出了多维数据库和多维分析的概念,即OLAP。OLAP委员会对联机分析处理的定义为:使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。
数据仓库与OLAP的关系是互补的,现代OLAP系统一般以数据仓库作为基础,即从数据仓库中抽取详细数据的一个子集并经过必要的聚集存储到OLAP存储器中供前端分析工具读取。
数据仓库和数据集市是用于存储分析数据的场地,OLAP是允许客户应用程序有效地访问这些数据的技术。OLAP可以为分析数据的用户提供的好处有:(1)查询数据的预先计算可以大大加快查询响应的时间。(2)多维数据模型使得检索、浏览数据更加简单。(3)有助于用户根据许多计算函数创建新的数据视图。(4)这种技术增强了安全性管理、客户机/服务器查询管理和数据缓存,允许DBA优化用户需要的系统性能。
4、前端工具
主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库。
四、数据仓库的应用
(一)数据仓库在客户服务、市场营销方面的应用
客户关系管理(CRM)是一个判断、获取、保持和增加可获利客户的过程。CRM在整个客户生命周期中都以客户为中心,它简化了各种与客户相关联的业务流程(如销售、营销、服
务和支持等),并将其注意力集中于满足客户的需求上。CRM还将多种与客户交流的渠道,如面对面、电话接洽以及Web访问等方式融为一体。这样,企业可以按照客户的喜好使用适当的渠道及沟通方式与之进行交流,并能从根本上提高员工与客户或潜在客户交流的有效性。CRM还可以改善员工对客户的沟通能力并对客户的整个生命周期有一个更为全面地了解。
在静态层面,可以将CRM概括成一种管理思想在管理软件系统中加以体现。其目标是通过采用信息技术,使企业市场营销、销售管理、客户关怀、服务和支持等经营环节的信息有序、充分并及时地在企业内部和客户之间流动,实现客户资源的有效利用。其核心思想是将客户体看成是企业宝贵的外部资源。
在动态层面,CRM的生命周期又包括数据集成、客户分析和面向客户的战略决策三个阶段,用先进理念和精准模型对集成化数据进行模拟和分析,从而挖掘客户的潜在价值,发展潜在客户。
建立面向市场信息的数据仓库的一个主要目的是保住客户,因此,这就需要到一种方法,运用收集的数据来预测用户未来的购买行为,这就是数据库营销。数据库营销就是把数据挖
掘与预测模型以及前台显示工具结合起来,帮助市场营销人员对客户行为作深入的调查分析。其最终目的是预测客户的忠诚度,即哪些用户对该品牌依然钟情,哪些用户会转向其它产品或服务。如果能够预测到这些行为,即可有更大的机会留住客户,减少用户的转向,从而保持原有的用户市场。
成功实现数据库营销系统的关键在于3方面组建的集成:(1)来自于账目系统并存储在数据仓库中的事实数据。(2)统计技术或使用预测模型的工具。(3)功能强大的前台展示工具。
数据库营销系统的建立目标是实现一个能产生精确描述客户的程序,一旦数据挖掘引擎从数据仓库中出相应的客户信息,下一步是进一步推测分析精确的客户特征,这些特征反映哪些用户最有可能转向其它的产品或服务,对每一轮新产生的客户数据,都产生一组新的统计模型来分析客户。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论