学术探讨X M L在w eb数据挖掘技术巾的应用相关问题探索
张荣富安徽大学计算机科学与技术学院安徽省合肥市230601
矿{ⅧⅢ…………………………………………………………………………………………………………………………………………………‘”~}摘要:由于W eb数椐存在方式的特殊性,使W eb数据控制变得十分复杂,X M L的出现为解决W eb&据挖掘的难题带来了机会,本文就i £X M L在W eb&据挖掘技术中的应用相关问题进行分析。指出了基于X M L的W eb.数据频繁模式挖掘问题研究的可行性。;l关键词:w eb数据挖掘;X M L;半结构化数据j 1%%o-………………………………….……………………..“……….¨』.‘.t。M o.…¥…tⅢ√~¨¨…...…‘…¨¨…Ⅲ.…¨.。.…………“…Ⅲ...….…o,
W eb数据挖掘就是从W eb文档和W eb活动中抽取感兴趣的、潜在的、有用的模式和隐藏的信息,应用数据挖掘的方法来发现隐含在W eb 的海量数据中的有效信息。W eb上的数据以多种形式存在,没有特定的模型来描述。每一个站点上的数据都是由站点开发人员白行设计与组织,并且数据本身还存在着自我描述性和动态可变性【l】。本文蒯L X M L 在w曲数据挖掘技术中的应用相关问题探索。
一、W eb数据挖掘I I i i临的挑战
随着Int e ra ct上W e b数据的不断增长和异构数据源集成的应用。导致了大量半结构化数据的产生,这使面向W eb的数据挖掘比面向传统数据库的数据挖掘要复杂得多。因此,W eb数据挖掘的难点在于W eb 上的异构数据库环境和W eb数据的半结构化特点,这使得面向W eb的数据挖掘比传统数据库中的数据挖掘复杂的多。所以,在W eb上进行数据挖掘的关键是寻一个半结构化的数据模型,来清晰地描述W eb 上的数据,以解决异构数据源的集成问题。而X M L的出现为解决此难题带来了机会。
二、半结构化数据与X M L
目前,Int em et上存在着各种形式的数据,其数据结构的组织方式也各不相同,网络半结构化数据日趋丰富。一种极端的情况是:完全结构化数据,有非常良好的数据结构,如关系数据库、面向对象数据库中的数据。另一种极端是:完全没有结构的数据,例如声音、图像文件以及原始的文本文件等无模式数据。半结构化数据就是介于完全结构化数据和完全无结构化数据之间的数据形式。半结构数据有其内在的结构。但这种数据可能表现得不规则、或者其结构可能经常变化。甚至可能不完整并且同样的概念还町能使用不同的类型表示。
半结构化数据具有如下一些特点:
(1)隐含的模式信息,半结构化数据具有一定的结构,但其结构与数据混在一起,没有显示的模式定义,如H T M L文件。
xml技术的主要应用
(21不规则的结构,一个数据集合可能由异构的元素组成,例如学生集合中某些学生有地址。而另一些学生则没有;同样的信息可能由不同类型的数据表示,例如某些姓名是字符串,而另外一些则是由f i r咖am e和l a st nam e组成的复杂结构。
(3)无严格的类型约束。由于没有一个预先定义的模式,以及数据在结构上的不规则性,所以缺乏对数据的严格类型约束。
半结构化数据的模式与传统的关系及面向对象数据的模式不同。主要有如下特点:
(1)对半结构化数据来说。是先有数据后有模式。
(2)半结构化数据的模式是用于描述数据的结构信息,而不是数据结构进行强制性约束。
(3泮结构化数据的模式是非精确的,它可能只描述数据的一部分结构,也町能根据数据处理的不同阶段的(4)半结构化数据的模式.口f能规模很大甚至超过原的规模,而且会由于的不断更新而处于动态的变化过程中。
X M L是用来自动描述信息的一种新的标准语言,它是直接面向W eb数据的。X M L可看作是一种半结构化的数据模型,它的扩展性和灵活性允许其描述不同结构的W eb站点数据,因此能够使不同来源的数据很容易地结合在一起。同时,由于基于xM L的数据是自我描述的,数据不需要有内部描述就能被
交换和处理,这就为软件开发者、W eb虫!/点和终端使用者提供r许多有利条件。X M L与半结构化数据之间的对应关系是非常明显的,它实质上是半结构化数据的一个特例。许多对于半结构化数据的模型和处理的研究可以明显地应用到X M L数据上,可以说。X M L是w w w上的半结构化数据,它既为半结构化数据的研究提供了广阔的应用前景,同时也推动厂半结构化数据研究的发展。相信随着X M L的成熟和完善,它能为W E B数据挖掘提供更多的便利。
三、基于X M L的w eb数锯频繁模式挖掘问题
W eb数据的快速发展迫切需要与之相适应的数据挖掘技术。然而传统数据挖掘技术主要面向结构性很强的结构化数据,无法解决变化的、具有复杂层次结构的W eb数据挖掘问题。相对于结构化数据,以xM L格式存储和表示的W eb数据具有半结构化数据的特性。目前xM L 已经成为互联网上数据交换和数据表示的事实标准,并且在将来X M L 将代替H T M L而成为W eb上驻留数据的主要格式,所以,对W eb数据的挖掘研究也就是主要针对X M L数据的挖掘[2,31。
由于X M L数据的半结构化特性,无法用精确的模式来定义数据格式,因此))LX M L数据中进行信息提取比从关系数据库挖掘信息复杂得多,传统的、面向结构化数据的挖掘技术无法被直接有效地应用于半结构化数据的挖掘过程。面对不断增长的X M L数据,有必要提出一些专门针对半结构化数据、可从海量X M L数据中提取有用信息的挖掘方法。借鉴传统数据挖掘技术,及X M L数据中可挖掘的信息内
容。许多Ⅻ礼数据挖掘方法主要包括X M L数据频繁模式挖掘、X M L数据分类、X M L数据聚类、X M L数据描述和口r视化等半结构化数据挖掘技术等被提出,这些数据挖掘技术,特别是频繁模式挖掘技术在互联网领域获得了广泛的应用,凶此,基于X M L的W eb数据频繁模式挖掘问题。已经成为w cb数据挖掘过程中的亟待解决的热点问题。
四、结语
随着I nt er net的快速发展、W eb£xM L数据信息量的急剧增长,使得我们有必要提出一些专门针对半结构化数据、可从海量w曲数据中提取有用信息的挖掘方法.来更有效的利用庞大的信息资源相信在不久的将来,随着X M L作为在W eb上交换数据的一种标准方式的进一步广泛使用,面向W e b的数据挖掘将会变得日益轻松。
参考文献:
【1】刘造新.基于本体的xM L关联规则挖掘方法【J】.计算机应用,200828(9).
【2】沈洁,薛贵荣.一种基-}X M L@W eb数据挖掘模型唧.系统工程理论与实践,2002.22(9).
【3】陈尧妃,倪应华,陈焕通.基于蕊他的w曲挖掘框架设计阴.仪器仪表学报,2006’27(z3).
一225~

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。