面向Web的数据挖掘技术
  [摘要] 随着internet的发展,web数据挖掘有着越来越广泛的应用,web数据挖掘是数据挖掘技术在web信息集合上的应用。本文阐述了web数据挖掘的定义、特点和分类,并对web数据挖掘中使用的技术及应用前景进行了探讨。
  [关键词] 数据挖掘web挖掘路径分析电子商务
  一、引言
  近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。数据挖掘是面向发现的数据分析技术,通过对大型的数据集进行探查。可以发现有用的知识,从而为决策支持提供有力的依据。
  web目前已成为信息发布、交互和获取的主要工具,它是一个巨大的、分布广泛的、全球性的信息服务中心。它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和其他许多信息服务。面向web的数据挖掘就是利用数据挖掘技术从web文档及web服务中自动发现并提取人们感兴趣的、潜在的有用模型或隐藏的信息。
  二、概述
  1.数据挖掘的基本概念
  数据挖掘是从存放在数据库、数据仓库、电子表格或其他信息库中的大量数据中挖掘有趣知识的过程。数据挖掘基于的数据库类型主要有: 关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、遗留数据库、异质数据库、文本型、internet 信息库以及新兴的数据仓库等。
  2.web数据挖掘
  web上有少量的数据信息,相对传统的数据库的数据结构性很强,即其中的数据为完全结构化的数据。web上的数据最大特点就是半结构化。所谓半结构化是相对于完全结构化的传统数据库的数据而言。由于web的开放性、动态性与异构性等固有特点,要从这些分散的、异构的、没有统一管理的海量数据中快速、准确地获取信息也成为web挖掘所要解决的一个难点,也使得用于web的挖掘技术不能照搬用于数据库的挖掘技术。因此,开发新的web挖掘技术以及对web文档进行预处理以得到关于文档的特征表示,便成为web挖掘的重点。
  三、web数据挖掘分类
  web 数据有三种类型, 它们分别是: html 标记的web 文档数据、web 文档内的廉洁的结构数据和用户访问数据, 相应地,web 数据挖掘可分为三类: 内容挖掘(web content minin) 、结构挖掘(web structure minin) 和用户访问模式挖掘(web usae minin)。如下图所示。
  1.web内容挖掘
  web内容挖掘是从文档内容或其描述中抽取有用信息的过程,web内容挖掘按实现方法分为两大类:信息检索(ir)方法和数据库方法。且有两种策略:直接挖掘文档的内容和在其他工具搜索的基础上进行改进。
  ir方法主要处理非结构数据和web中由html标记的半结构化数据。前者一般采用词集方法,用一组组词条来表示无结构的文本。后者主要利用传统的数据挖掘技术:如关联规则、分类算法、演绎逻辑和规则学习等。
  2.web结构挖掘
  web结构挖掘是从web组织结构和链接关系中推导知识。挖掘页面的结构和web结构,可以用来指导对页面进行分类和聚类,到权威页面、中心页面,从而提高检索的性能。同时还可以用来指导页面采集工作,提高采集效率。web结构挖掘可以分为web文档内部结构挖掘和文档问的超链接结构挖掘。
  web结构挖掘的基本思想是将web 看作一个有向图,他的顶点是web页面,页面间的超链就是图的边。然后利用图论对web 的拓扑结构进行分析。常见的算法有hits (hypertext induced topic search), paerank,发现虚拟社区的算法、发现相似页面的算法、发现地理位置的算法和页面分类算法。web 结构挖掘的算法一般可分为查询相关算法和查询无关算法两类。查询相关算法需要为每一个查询进行一次超链分析从而进行一次值的指派;而查询独立算法则为每个文档仅进行一次值的指派,对所有的查询都使用此值。hits和paerank分别是查询相关算法和查询独立算法的代表。
  3.web访问挖掘web技术的三个关键技术
  web访问挖掘是从服务器端记录的用户访问日志或从用户的浏览信息中抽取感兴趣的模式,通过分析这些数据可以帮助理解用户隐藏在数据中的行为模式,做出预测性分析,从而改进
站点的结构或为用户提供个性化的服务。
  web访问挖掘一般分为两种:一般访问模式跟踪和定制使用跟踪。一般访问模式跟踪通过分析web日志来理解用户的访问模式和倾向;定制使用跟踪分析单个用户的偏好,根据其访问模式为每个用户定制符合其个人特的web站点。web的lo数据包括:senrer lo,proxy serverlo,client端的cookie lo等。web使用记录挖掘通常需要经过三个阶段:数据预处理阶段(主要包括数据清洗和事物识别两个部分):模式识别阶段(采用统计法、机器学习等成熟技术.从web使用记录中挖掘知识):模式分析阶段(采用合适的成熟的技术和工具进行模式的分析,从而辅助分析人员理解.使采用各种工具挖掘出的模式得到很好利用)。对web使用记录挖掘采用的算法有:路径分析、关联规则和有字模式的发现、聚类分类等,为了提高精度,使用记录挖掘也用到站点结构和页面内容等信息。
 
  四、web数据挖掘中的关键技术
  web数据挖掘中常用的技术有web使用的特有的路径分析技术,数据挖掘领域常用的关联规则、序列模式、分类聚类技术等。
  1.路径分析技术
  用路径分析技术进行web数据挖掘时,最常用的是图,因为web可以用一个有向图来表示,=(v,e),v是页面的集合,e是页面之间的超连接集合,页面定义为图中的顶点,而页面之间的超连接定义为图中的有向边。顶点v的入边表示对v的引用,出边表示v引用了其他的页面,这样形成网站结构图,从图中确定最频繁的访问路径。
  2.关联规则挖掘技术
  关联规则挖掘技术主要用于从用户访问序列数据库的序列项中挖掘出相关的规则,就是要挖掘出用户在一个访问期间(session),从服务器上访问的页面/文件之间的联系,这些页面之间可能并不存在直接的参引(riference)关系.最常用的是用aprior算法,从事务数据库中挖掘出最大频繁访问项集,这个项集就是关联规则挖掘出来的用户访问模式。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。