空间数据挖掘常⽤⽅法及举例
问题1:空间数据挖掘有哪些常⽤⽅法,举例说明⼀种⽅法的原理及应⽤.
答:空间数据挖掘的常⽤⽅法有:统计法,聚类⽅法,关联规则发掘⽅法,Rough集⽅法,神经⽹络⽅法,云理论,证据理论,模糊集理论,遗传算法等算法(出⾃丁信宙,仇环,苏晓庆. 基于云理论的缺损数据推理和预测 ⼭东理⼯⼤学学报 2006年11⽉)。除此以外还有⽼师课件上提到的聚类检测,决策树⽅法等。
以下对于⼀些常见模型做⼀简述:
1、空间分析⽅法 (Spatial Analysis Approach)
利⽤GIS的各种空间分析模型和空间操作对空间数据库中的数据进⾏深加⼯,从⽽产⽣新的信息和知识。⽬前常⽤的空间分析⽅法有综合属性数据分析、拓扑分析、缓冲区分析、密度分析、距离分析、叠置分析、⽹络分析、地形分析、趋势⾯分析、预测分析等,可发现⽬标在空间上的相连、相邻和共⽣等关联规则,或发现⽬标之间的最短路径、最优路径等辅助决策的知识。空间分析⽅法常作为预处理和特征提取⽅法与其它数据挖掘⽅法结合使⽤。
2、统计分析⽅法 (Statistical Analysis Approach)
统计⽅法⼀直是分析空间数据的常⽤⽅法,着重于空间物体和现象的⾮空间特性的分析。在运⽤统计⽅法进⾏数据挖掘时,⼀般并不将数据的空间特性作为限制因⼦加以考虑,空间数据所描述的事物的具体空间位置在这类挖掘中也并不起制约作⽤。尽管此种挖掘⽅式与⼀般的数据挖掘并⽆本质的差别,但其挖掘后发现的结果都是以地图形式来描述的,对发现结果的解释也必然要依托地理空间进⾏,挖掘的结果揭⽰和反映的必然是空间规律。但是,统计⽅法难以处理字符型数据。⽽且,应⽤统计⽅法需要有领域知识和统计知识,⼀般由具有统计经验的领域专家来完成。统计⽅法的最⼤缺点是要假设空间分布数据具有统计不相关性。这在实际应⽤中会出现问题,因为很多空间数据是相互关联的。
3、归纳学习⽅法 (Induction Learning Approach)
归纳学习⽅法是从⼤量的经验数据中归纳抽取出⼀般的规则和模式,其⼤部分算法来源于机器学习领域。归纳学习的算法很多,如Michaski等的AQ11,AQ15,洪家荣等的AE1,AE9,Hunt的CLS, Quinlan的ID3,C5.0等,其中最著名的是Quinlan提出的⼀种决策树算法,由ID3算法发展⽽来,采⽤嫡来选择属性,分类速度快,适合于⼤数据库的学习,⽽C5.0在 ID3的基础上增加了将决策树转换为等价的产⽣式规则的功能,并解决了连续取值数据的学习问题。Han Jiawei教授等提出了⼀种⾯向属性的归纳⽅法 (Attribute Oriented Induction, AOI),专门⽤于从数据库中发现知识,通过概念树的提升对数据进⾏概括和综合,归纳出⾼层次的模式或特征。裴健等对⾯向属性的归纳⽅法进⾏了扩展,形成了基于空间属性的归纳⽅法 (Spatial Attribute Oriented Induction, SAOI)。
4、空间关联规则挖掘⽅法 (Spatial Association Rule Mining Approach)
挖掘关联规则⾸先由Agrawal等提出,主要是从超级市场销售事务数据库中发现顾客购买多种商品时的搭配规律。最著名的关联规则挖掘算法是Agrawal提出的Apriori算法,其主要思路是统计多种商品在⼀次购买中共同出现的频数,然后将出现频数多的搭配转换为关联规则。
5、聚类⽅法 (Clustering Approach)和分类⽅法 (Classification Approach)
聚类是按⼀定的距离或相似性系数将数据分成⼀系列相互区分的组,根据定义可以把其分为四类:基于层次的聚类⽅法;分区聚类算法;基于密度的聚类算法;⽹格的聚类算法。常⽤的经典聚类⽅法有K-mean,K-medoids,ISODATA等。
分类就是假定数据库中的每个对象(在关系数据库中对象是元组)属于⼀个预先给定的类,从⽽将数据库中的数据分配到给定的类中,简单的讲就是f:D→L,其中f的域D是属性数据的空间,L是标号的集合。
分类和聚类都是对⽬标进⾏空间划分,划分的标准是类内差别最⼩⽽类间差别最⼤。分类和聚类的区别在于分类事先知道类别数和各类的典型特征,⽽聚类则事先不知道。
6、神经⽹络⽅法 (Neural Network Approach)
神经⽹络是由⼤量神经元通过极其丰富和完善的连接⽽构成的⾃适应⾮线性动态系统,具有分布存储、联想记忆、⼤规模并⾏处理、⾃学习、⾃组织、⾃适应等功能。神经⽹络由输⼊层、中间层和输出层组成。⼤量神经元集体通过训练来学习待分析数据中的模式,形成描述复杂⾮线性系统的⾮线性函数,适于从环境信息复杂、背景知识模糊、推理规则不明确的⾮线性空间系统中挖掘分类知识。
7、决策树⽅法 (Decision Tree Approach)
决策树根据不同的特征,以树型结构表⽰分类或决策集合,产⽣规则和发现规律。在空间数据挖掘中,⾸先利⽤训练空间实体集⽣成测试函数;其次根据不同取值建⽴树的分⽀,在每个分⽀⼦集中重复建⽴下层结点和分⽀,形成决策树;然后对决策树进⾏剪枝处理,把决策树转化为据以对新实体进⾏分类的规则。
8、粗集理论 (Rough Sets Theory)
粗集理论是波兰华沙⼤学Z.Pawlak教授在1982年提出的⼀种智能数据决策分析⼯具,被⼴泛研究并应⽤于不精确、不确定、不完全的信息的分类分析和知识获取。粗集理论为空间数据的属性分析和知识发现开辟了⼀条新途径,可⽤于空间数据库属性表的⼀致性分析、属性的重要性、属性依赖、属性表简化、最⼩决策和分类算法⽣成等。粗集理论与其它知识发现算法结合可以在空间数据库中数据不确定的情况下获取多种知识。
9、模糊集理论 (Fuzzy Sets Theory)
模糊集理论是L.A.Zadeh教授在1965年提出的。它是经典集合理论的扩展,专门处理⾃然界和⼈类社会中的模糊现象和问题。利⽤模糊集合理论,对实际问题进⾏模糊判断、模糊决策、模糊模式识别、模糊簇聚分析。系统的复杂性越⾼,精确能⼒就越低,模糊性就越强,这是Zadeh总结出的互克性原理。模糊集理论在遥感图像的模糊分类、GIS模糊查询、空间数据不确定性表达和处理等⽅⾯得到了⼴泛应⽤。
10、空间特征和趋势探侧(Characterization and Trend Detection)⽅法
这是Ester等⼈在第4届KDD国际研讨会 (1998)上提出的基于邻域图 (neighborhoodgraphs)和邻域路径 (neighborhoodpath)概念的挖掘算法。Ester等将⼀个空间特征定义为空间数据库中具有空间/⾮空间性质的⽬标对象集,并以⾮空间属性值出现的相对频率和不同空间对象出现的相对频率 (⽬标对象集相对于整个数据库)作为感兴趣的性质,从空间⽬标集合经过它的相邻扩展后的集合中,发现相对频率的明显不同,以此提取空间规则:空间趋势探测挖掘是从⼀个开始点出发,发现⼀个或多个⾮空间性质的变化规律,这种算法的效率在很⼤程度上取决于其处理相邻关系的能⼒。
11、云理论 (Cloudy Theory)
这是李德毅博⼠提出的⽤于处理不确定性的⼀种新理论,包括云模型 (Cloud Model),虚拟云 (Virtual Cloud)、云运算 (Cloud operation)、云变换 (Cloud Transform)和不确定性推理 (Reasoning under Uncertainty)等主要内容。运⽤云理论进⾏空间数据挖掘,可进⾏概念和知识的表达、定量和定性的转化、概念的综合与分解、从数据中⽣成概念和概念层次结构、不确定性推理和预测等。
12、图像分析和模式识别 (Image Analysis and Pattern Recognition)⽅法
空间数据库 (数据仓库)中含有⼤量的图形图像数据,⼀些图像分析和模式识别⽅法可直接⽤于挖掘数据和发现知识,或作为其它挖掘⽅法的预处理⽅法。⽤于图像分析和模式识别的⽅法主要有:决策树⽅法、神经元⽹络⽅法、数学形态学⽅法、图论⽅法等。
13、证据理论 (Evidence Theory)
由Schafer发展起来的证据理论是经典概率论的扩展。证据理论⼜称Dempster-Schafer理论,它是Dempster在20世纪60年代提出,在70年代中期由Schafer进⼀步发展,形成处理不确定性信息的证据理论,其重要贡献在于严格区分不确定和不知道的界线。证据理论将实体分为确定部分和不确定部分,可以⽤于基于不确定性的空间数据挖掘。利⽤证据理论的结合规则、可以根据多个带有不确定性的属性进⾏决策挖掘。证据理论发展了更⼀般性的概率论,却不能解决⽭盾证据或微弱假设⽀持等问题。
14、遗传算法 (Genetic Algorithms)
遗传算法(简称GA)是模拟⽣物进化过程的算法,最先由美国的John Holland教授于20世纪60年代初提出,其本质是⼀种求解问题的⾼效并⾏全局搜索⽅法,它能在搜索过程中⾃动获取和积累有关搜索空间的知识,并⾃适应地控制搜索过程以求得最优解。遗传算法已在优化计算、分类、机器学习等⽅⾯发挥了显著作⽤。数据挖掘中的许多问题,如分类、聚类、预测等知识的获取,可以表达或转换成最优化问题,进⽽可以⽤遗传算法来求解。
15、数据可视化⽅法 (Data Visualization Approach)
⼈类的可视化能⼒,允许⼈类对⼤量抽象的数据进⾏分析。⼈的创造性不仅取决于⼈的逻辑思维,⽽且取决于⼈的形象思维。⼈脑的空间认知分析能⼒⽬前尚⽆法全部⽤计算机代替,因此可视化技术为知识发现提供了有⼒的帮助。为了了解数据之间的相互关系及发展趋势,⼈们可以求助于可视化技术。海量的数据只有通过可视化技术变成图形或图像,才能激发⼈的形象思维—— 从表⾯上看来是杂乱⽆章的海量数据中出其中隐藏的规律。数据可视化技术将⼤量数据以多种形式表⽰出来,帮助⼈们寻数据中的结构、特征、模式、趋势、异常现象或相关关系等。从这个⾓度讲,数据可视化技术不仅仅是⼀种计算⽅法,更是看见不可见事物或现象的⼀种重要⼿段和⽅法。
16、地学信息图谱⽅法 (Geo-informatics Graphic Methodology)
数据可视化的概念地学信息图谱是地球信息的重要表现形式与研究⼿段,也是地球信息科学的重要组成部分。地学信息图
谱综合了景观综合图的简洁性和数学模型的抽象性,是现代空间技术与我国传统研究成果结合的产物,可反演过去、预测未来。图是指地图、图像、图解,谱是指不同类别事物特征有规则的序列编排。图谱是指经过深⼊分析与⾼度综合,反映事物和现象空间结构特征与时空序列变化规律的图形信息处理与显⽰⼿段。地球信息图谱是由遥感、地图数据库与地理信息系统(或数字地球)的⼤量地球信息,经过图形思维与抽象概括,并以计算机多维动态可视化技术显⽰地球系统及各要素和现象的宏观、中观与微观的时空变化规律;同时经过中间模型与地学认知的深⼊分析研究,进⾏推理、反演与预测,形成对事物和现象更深层次的认识,有可能总结出重要的科学规律。地学信息图谱不仅应⽤于数据挖掘,⽽且服务于科学预测与决策⽅案。
地学信息图谱具有以下4个重要功能:①借助图谱可以反演和模拟时空变化;②可利⽤图的形象表达能⼒,对复杂现象进⾏简洁的表达;③多维的空间信息可展⽰在⼆维地图上,从⽽⼤⼤减⼩了模型模拟的复杂性;④在数学模型的建⽴过程中,图谱有助于模型构建者对空间信息及其过程的理解。
地学信息图谱是形、数、理的有机结合,是试图从形态来反演空间过程的⼀种研究复杂系统的⽅法论。地学信息图谱中的空间图形思维、分形分维等⽅法均可直接⽤于空间数据挖掘领域。⽬前,地学信息图谱的基本理论及其⽅法体系还不完善,还有待于进⼀步研究。
17、计算⼏何⽅法 (Computer Geometry Methods)
1975年,Shamos和Hoey利⽤计算机有效地计算平⾯点集Voronoi图,并发表了⼀篇著名论⽂,从此计算⼏何诞⽣了。计算⼏何中的研究成果已在计算机图形学、化学、统计分析、模式识别、空间数据库以及其它许多领域得到了⼴泛应⽤。计算⼏何研究的典型问题包括⼏何基元、⼏何查和⼏何优化等。其中,⼏何基元包括凸壳和Voronoi图、多边形的三⾓剖分、划分问题与相交问题:⼏何查包括点定位、可视化、区域查等问题;⼏何优化包括参数查和线性规划。
上述每⼀种⽅法都有⼀定的适⽤范围。在实际应⽤中,为了发现某类知识,常常要综合运⽤这些⽅法。空间数据挖掘⽅法还要与常规的数据库技术充分结合。总之,空间数据挖掘利⽤的技术越多,得出的结果精确性就越⾼,因此,多种⽅法的集成也是空间数据挖掘的⼀个有前途的发展⽅向。
以下是对云模型和其在缺损数据的推理预测中的应⽤做⼀简述。
云模型:云是⽤语⾔值描述某个定性概念与其数值表⽰的不确定性转换的模型。简单地说,云模型是定性定量间转换的不确定性模型。该模型⽤期望Ex,熵En,超熵He三个数值来表⽰,把模糊性和随机性完全集成到⼀起,构成定性和定量间的映射,作为表⽰的基础。期望值Ex是概念在论域中的中⼼值;熵En是定性概念模糊度的度量,反映了在论域中可被这个概念所接受的数值范围熵越⼤,概念所接受的数值范围也越⼤,概念越模糊。超熵He是熵的不确定性度量,即熵的熵,由熵的随机性和模糊性共同决定。超熵He反映了云滴的离散程度,超熵越⼤,离散度越⼤,⾪属度的随机性越⼤。
设U 是⼀个⽤精确数值表⽰的论域(⼀维的、⼆维的或多维的),U 上对应着定性概念Ã,对于论域中的任意⼀个元素x,都存在⼀个有稳定倾向的随机数y=μA(x),叫作x 对概念Ã 的确定度,x 在U上的分布称为云模型,简称为云。云由许许多多个云滴组成,⼀个云滴是定性概念在数量上的⼀次实现,单个云滴可能⽆⾜轻重,在不同的时刻产⽣的云的细节可能不尽相同,但云的整体形状反映了定性概念的基本特征。云的“厚度”是不均匀的,腰部最分散,“厚度”最⼤,⽽顶部和底部汇聚性好,“厚度”⼩。云的“厚度”反映了确定度的随机性的⼤⼩,靠近概念中⼼或远离概念中⼼处,确定度的随机性较⼩,⽽离概念中⼼不近不远的位置确定度的随机性⼤,这与⼈的主观感受相⼀致。
云的数字特征⽤期望Ex、熵En 和超熵He 来表征,它们反映了定性概念Ã 整体上的定量特征。
期望Ex:是概念在论域中的中⼼值,在数域空间最能够代表定性概念Ã 的点,即这个概念量化的最典型样本点,通常是云重⼼对应的x 值,它应该百分之百地⾪属于这个定性概念。Ex 反映了相应的定性知识的信息中⼼值。
熵En:熵反映定性概念Ã 的不确定性。⼀⽅⾯,熵反映了在数域空间可以被语⾔值Ã 接受的云滴的范围的⼤⼩,即模糊度,是定性概念亦此亦彼性的度量;另⼀⽅⾯,熵还反映了代表定性概念的云滴出现的随机性;此外,熵还揭⽰了模糊性和随机
性的关联性。熵可以⽤来代表⼀个定性概念的粒度。通常,熵越⼤,概念越宏观,模糊性和随机性也越
⼤,确定性量化越难。
超熵He:超熵是熵的不确定性的度量,即熵的熵,反映了云滴的离散程度。超熵越⼤,云滴离散度越⼤,确定度的随机性越⼤,云
的“厚度”也越⼤。
正态云是⼀种很典型的云模型,被应⽤于多种现实的模拟,⼗分具有代表性,因此,⼀下着重介绍⼀下与模型的建⽴⽅法。
正态云模型既不是⼀个确定的概率密度函数,也不是⼀条明晰的⾪属函数曲线,⽽是由两次串接的正态发⽣器[5]⽣成的许多云滴组成的、⼀对多的泛正态数学映射图像,是⼀朵可伸缩、⽆确定边沿、有弹性的云图,完成定性和定量之间的相互映射。正态云模型的期望曲线是⼀个正态型曲线。当正态云模型概念对应的论域为⼀维时,定性定量的不确定性转换通过正态云发⽣器算法实现。具体算法如下:输⼊:表⽰定性概念Ã 的3 个数字特征值Ex,En,He,云滴数N。
输出:N 个云滴的定量值,以及每个云滴代表概念Ã 的确定度。
Step1:⽣成以En 为期望值,He 为标准差的⼀个正态随机数E′n;
Step2:⽣成以Ex 为期望值,abs(E′n)为标准差的正态随机数x;
Step3:令x 为定性概念Ã 的⼀次具体量化值,称为云滴;
Step4:计算y=exp(-(x-Ex)2/2(E′n)2);
Step5:令y 为x 属于定性概念Ã 的确定度;
Step6:{x,y}完整地反映了这⼀次定性定量转换的全部内容;
Step7:重复Step1~Step6,直到产⽣N 个云滴。
⽤该算法⽣成的云⾃然地具有不均匀厚度的特性,云的腰部、顶部、底部等并不需要精确地定义,三个数字特征值⾜以很好地描述整个云的形态。
云模型的应⽤相当⼴泛,下⾯仅就其在军事中的⼀个应⽤做⼀描述。在《基于正态云模型的⽅法求解⽬标可能位置域》这篇论⽂当中,作者利⽤云模型模拟⽬标可能出现的位置,通过⼀系列计算,确定⼀个区域,从⽽为发射提供数据⽀持。
潜艇使⽤导弹攻击对⽅⽔⾯舰艇已经成为越来越重要的作战⽅式。由于潜艇对隐蔽性的要求,攻击前很难实时获得友⽅兵⼒的⽬标指⽰通报,因此需要根据此前某⼀时刻通报的⽬标位置 、速度 、航向 推测出当前的⽬标可能位置。
模型中已知的前提条件:1.发现⽬标时刻 ;2. 时刻⽬标概略中⼼位置 和误差分布椭圆的⽅向 、半轴 和 ;3. 时刻⽬标速度V、航向H 及其标准偏差 , 。模型运⾏的⽬的是求出时刻T 时的⽬标概略中⼼位置( , )以及误差分布椭圆的⽅向 、半轴 和 。
确定⽬标可能位置域模型的建模思路:按模型中的前提条件,产⽣M 个 时刻⽬标随机位置点;对这M 个点中的任⼀个点,按照⽬标速度、航向误差分别取N1、N2 个随机速度、航向,在时刻T时产⽣N1×N2 个随机位置点。这样最终产⽣M×N1×N2 个随机位置点。最后对M×N1×N2 个随机位置点进⾏数据分析得T 时刻的⽬标位置概率椭圆。该椭圆就是发射的⽬标区域。
问题2:论述数据挖掘与空间数据挖掘的异同点。
答:数据挖掘(Data Mining),就是从⼤量数据中获取有效的、新颖的、潜在有⽤的、最终可理解的模式的⾮平凡过程。数据挖掘的⼴义观点:数据挖掘就是从存放在数据库,数据仓库或其他信息库中的⼤量的数据中“挖掘”有趣知识的过程。数据挖掘,⼜称为数据库中知识发现(Knowledge Discovery in Database, KDD), 也有⼈把数据挖掘视为数据库中知识发现过程的⼀个基本步骤。
知识发现过程以下步骤组成:(1)数据清理,(2)数据集成,(3)数据选择,(4)数据变换,(5)数据挖掘,(6)模式评估,(7)知识表⽰。数据挖掘可以与⽤户或知识库交互。
空间数据挖掘是指从空间数据库中抽取没有清楚表现出来的隐含的知识和空间关系,并发现其中有⽤的特征和模式的理论、⽅法和技术。 空间数据挖掘和知识发现的过程⼤致可分为以下多个步骤:数据准备、数据选择、数据预处理、数据缩减或者数据变换、确定数据挖掘⽬标、确定知识发现算法、数据挖掘、模式解释、知识评价等,⽽数据挖掘只是其中的⼀个关键步骤。但是为了简便,⼈们常常⽤空间数据挖掘来代替空间数据挖掘和知识发现。空间数据挖掘(Spatial Data Mining, SDM)是数据挖掘的⼀个分⽀,是在空间数据库的基础上,综合利⽤各种技术⽅法,从⼤量的空间数据中⾃动挖掘事先未知的且潜在有⽤的知识,提取出⾮显式存在的空间关系或其它有意义的模式等,揭⽰出蕴含在数据背后的客观世界的本质规律、内在联系和发展趋势,实现知识的⾃动获取,从⽽提供技术决策与经营决策的依据。数据挖掘所能发现的知识最常见的有以下五种类型:⼴义知识、关联知识、分类知识、聚类知识和预测型知识。⽽要发现这些知识就需要运⽤相应空间数据挖掘⽅法。
综上所述,⼆者之间的共同点是:
1. 都是基于已经获得的数据,⽆论是存储在数据库,数据仓库,或者是⽂件当中的数据进⾏分析;
2. 都是从⼤量的信息当中,通过数据间的内在联系提取出操作者感兴趣的数据;
3. 提取出的数据都是⾮显式存储的,或者说是隐藏在原有数据当中的;
4. 空间数据挖掘是数据挖掘技术的⼀个重要分⽀和发展;
5. ⼆者均以统计学为数学基础。
另外⼆者的不同之处在于:
1. 传统数据挖掘处理的是数字和类别,⽽空间数据则是⼀些更为复杂的数据类型,例如:点、线、多边形等对象;
2. 传统数据挖掘通常具有显式的输⼊,⽽空间数据挖掘的输⼊则常常是隐式的;
3. 在传统数据挖掘中,有⼀个⾄关重要的前提假设,即数据样品是独⽴⽣成的,⽽这⼀假设在空间分析中是不成⽴的,事实上,空间数据之间是⾼度⾃关联的。
4. 数据源⼗分丰富,数据量⾮常庞⼤,数据类型多,存取⽅法复杂;
5. 应⽤领域⼗分⼴泛,只要与空间位置相关的数据,都可以对其进⾏挖掘;
6. 挖掘⽅法和算法⾮常多,⽽且⼤多数算法⽐较复杂,难度⼤;
7.知识的表达⽅式多样,对知识的理解和评价依赖于⼈对客观世界的认知程度。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论