数据挖掘在教育应用中的浅析
现在社会的发展使得信息量日益增加,如何在庞大的数据中寻对自己有用的数据成为必须要考虑的事情。数据挖掘可以从庞大的数据库中提取隐藏的预测信息。因为数据挖掘是一种拥有巨大潜力的新技术,所以数据挖掘现在被广泛的应用于各种商业途径中,包括零售销售、电子商务、遥感技术、生物信息学等。教育是一个国家进步的要素之一。挖掘在教育中被称为教育信息挖掘。教育数据挖掘的的重点就是应用合理的、快速的方法从教育数据库中发现知识。教育数据挖掘可以分析学生的趋势和行为,得到一个对不同类型学生教育的最优化教育方式。当大量的数据存储在教育数据库中,为了得到需要的数据和发现隐藏数据间的关系,可以应用数据挖掘技术与软件。数据挖掘的功能有很多种,在教育数据挖掘中,流行的功能有关联、分类、聚类、离散点分析、关联规则、预测等。本文主要从数据挖掘现在大规模使用的行业中分析数据挖掘的特点,以及应用到教育,主要是高等教育的可能性。
标签:数据挖掘 教育
一、引言
当今社会,大量的数据每天在不断堆彻,我们需要在数据挖掘中寻求一种从大量数据中提取知识的方法。数据挖掘有两个因素,大小与维度。存储数据到知识中有一个巨大地空白,就是数据怎样被翻译,而得到数据与数据的相似性,再进行归纳和总结。现在的手工数据分析已经无法对大型的数据进行分析,所以我们需要寻一种新的方法对数据进行分析。数据挖掘可以帮助我们更深入的了解数据。
数据挖掘在一些领域的作用:
银行业:贷款/信用卡的批准,基于老客户预测优质客户,每月/每个地区/每个部门的债务和收益的变化趋势以及因素,产品、促销信息的访问统计信息,例如访问的最大值、最小值、总和,平均数、趋势等。
电信业:判别潜在的欺诈用户和他们的典型使用模式,检测试图准备欺诈性的客户账户,发现不寻常的模式,发现使用模式为一组通信服务的客户体,使销售的特定服务得到促进,提高一些地区特定服务的可用性。
DNA分析技术:比较每个单位频繁发生的不同模式,例如是否生病;识别基因的顺序在不同的疾病中发挥了重要的作用。
预测和描述是数据挖掘的两个基本目标。预测涉及到使用数据集中的一些变量或域来预测其他我们所关心变量的未知或未来的值;另一方面,描述关注的则是出描述可由人类解释的数据模式。所以,数据挖掘活动分成预测性数据挖掘和描述性数据挖掘。
数据挖掘
数据挖掘是一个基于知识发现的过程。数据挖掘是从存放在数据库、数据仓库或其他信息库中的大量数据中发现有趣知识的过程。
二、数据挖掘
数据库、数据仓库、万维网或其他信息存储库是一个或一组数据库、数据仓库、电子表格或其他类型的信息存储库。数据清理和数据集成的技术可以对这些数据进行执行。基于用户的数据挖掘的请求,数据库或数据仓库服务器负责获取相关数据。知识库的领域知识,用于指导搜索或评估结果模式的兴趣度。这样的知识可以包括概念层和用户的信念。数据挖掘引擎是数据挖掘系统中不可或缺的部分,数据挖掘系统在理想情况下由组功能模块的任务,比如表征,关联及相关分析、分类、预测、聚类分析、异常值分析与演化分析等。模式评估模块
是一个组件,通常包括兴趣度度量和与数据挖掘模块交互,以专注于搜索聚焦在有趣的模式上。提供信息来帮助搜索聚焦,基于数据挖掘的中间结果执行探索性数据挖掘。模式评价模块还可以结合数据挖掘模块,但是这取决于所用数据挖掘方法的实现。用户界面模块在通信用户和数据挖掘系统之间联系,允许用户与系统的交互,允许用户浏览一个数据挖掘查询或任务。
许多人把数据挖掘的同视为另一个广泛使用的术语,数据中的知识发现。知识发现过程包括在数据挖掘过程中选择所需要的数据、可以获得许多不同的数据来源。预处理数据包括发现数据错误或者丢失的数据。可能有许多不同的活动在这段时间执行。错误的数据可能被修正或移除,而缺少的数据必须提供。预处理还包括:去除数据的噪声或数据的不一致,收集必要的数据模型或者数据的含噪声,数据占时间序列信息和已知的数据变量。数据转换是将数据转换成公共格式来处理。一些数据可能被编码或转化为更多的可用的格式。数据简化,减少维度(比如特征选择,即属性子集的选择、启发式方法等)和数据转换方法(如取样、聚合、泛化等) 可用于减少可能正在考虑的数据值的数目。数据挖掘是任务的执行,产生得到期望的结果。翻译/评价是数据挖掘结果怎么呈现给用户,是极其重要的。因为有用的结果是依赖于翻译/评价。各种各样的可视化以及图形用户界面策略被用于在翻译/评价步骤中。不
同种类的知识需要不同类型的表示方法,如分类、聚类、关联规则等
数据挖掘的功能和产品包括数据库,信息检索,统计,算法和机器学习。
三、基于教育的数据挖掘
基于教育的数据挖掘是一门新兴学科,主要是关注与发展探索来自教育环境中独特的数据,并使用这些方法来更好地了解学生,和设置让他们的学习。数据挖掘是从巨大的数据量提取提取有趣的(不平凡的,隐含的,先前未知的,潜在有用的)模式或知识。当我们知道教育数据库中存储着大量的数据,通过不同的数据挖掘技术的开发和使用,得到所需要的数据和发现隐藏的关系。我们可以利用基于教育系统的数据挖掘技术:预测中途退学的学生,学生之间的关系,大学入学考试结果和他们的成就,预测学生的学习成绩,发现在本科教学大纲中学生感兴趣的相关学科、可能在学术成就上的知识发现、在计算机编程设计中根据学生不同的学习风格对学生的表现进行分类,预测学校之间的相似性和差异。
(1)关联规则
关联规则反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间
存在一定的关联关系,那么一个事物就能通过其他事物预测到。发现关联规则需要经历两个步骤:
1.出所有频繁项集。
2.由频繁项集生成满足最小信任度阈值的规则。
关联规则是支持度和信任度分别满足用户给定阈值的规则的条件。信任度意思是蕴含的强度,即事务D中c%的包含X的交易同时包含X、Y。若X的支持度是support(x),规则的信任度为即为:support(X、Y)/support(X),这是一个条件概率P(Y|X),即confidence(X、Y)= P(Y|X)。支持度阈值是指用户规定的支持度的上下极值。(2)分类
数据地图在预先定义的组和级别中的数据挖掘任务是分类。也被称为监督式学习。它包括两个步骤:
1.模型结构:它包含预先设定的一系列的类。每个元组/样本被认为属于一个预定义的类。这个事务的元组用于模型建设的是试验集。该模型表示为分类规则,决策树,或数学公式。
2.使用模型:该模型用于分类未来或未知的对象。与由模型的分类相比较得出试验集的一些已知标记。由模型正确分类的试验集得出准确率。试验集是独立的,否则将发生多余的工作。
在基于教育的数据挖掘中,一个学生通过考虑的结果,可以得出该学生的最终会达到怎样的水平。用来表示学生最终水平的合理规则是决策树规则。
(3)预测
预测是应用于模型的连续价值函数,也就是预测未知数据和缺失的值。在这个模型中,我们可以推导出许多组合数据的其他一些方面的数据。基于教育的数据挖掘预测可以用来检测学生的行为,预测与了解学生的学习成果。
(4)聚类分析
聚类分析是最重要的非监督式学习方法,主要是到各种事务的分组,这样在一个组里面的所有物体彼此之间都是相类似的,但又和其他分组里的物体是不同的。
在基于教育的数据挖掘中,聚类分析已经被用于根据学生的行为对学生进行分组。例如聚类分析可以用来区分在非活跃的学生中表现较活跃的学生。
四、结论
将数据挖掘技术应用在教育系统中是如何工作的,如图所示。
图解释了如何到与学生之间的关联关系、关联分类和聚类是有效的。他们评估学生的学习进度,根据不同的因素,利用收集到的数据之间的联系。研究小学生科学为基础的网络模块的日志文件,并对他们进行了分析。所以此数据挖掘模型可以运用到教育中。如果将这种模型运用到基于网络的课程,智能网络为基础的教育体系,学习内容管理系统中,将会给研究者与教师节省大量的时间并可以给教育研究者、教师以及学习者提出宝贵的意见。
本文提出了一种在教育过程中基于网络的系统记录的数据特征提取,分类学生以预测他们的最终成绩。本文设计,实施和评价了一系列对数据集的模式分类和比较数据集的性能。数据挖掘在教育应用中,有四种分类器用于分开不同的学生。多重的分类组合导致在分类性能中有一个显着的改善。本文介绍了遗传算法来提高预测精度,及使用精确度大约是10%至12%
遗传算法的联合收割机分类器性能与非遗传算法相比。在数据较多或者是人数较多的因素上,这种方法在判别有危险性倾向的学生上是相当有用的,以及可以及时给予教师提供适当的建议。在本中,通过分析资料,确定了基于教育的数据挖掘的关联规则是有用的。从数据挖掘当今广泛应用案例研究中,证明这种方法非常适合教育资料,教师可以轻松地解释余弦值和附加值(或相似内容在教育中的提升)。本文解释了在教育中应用数据挖掘技术是有用的,特别是提高高等教育的学生的表现。以及利用关联规则,分类规则,使用决策树,根据学生的表现将学生按组聚类。使用EM聚类和使用异常分析发现异常值的数据,利用这些知识来提高性能。本文分析了利用聚类分析和k —均值算法技术在考试成绩与学生的成果之间的学生学习关系。根据大学的学生的特性进行分组学生,聚类过程使用K均值聚类。调查分析了数据挖掘应用到传统的教育系统中,特别是基于网络的课程,智能网络为基础的教育体系,学习内容管理系统。这些系统使用的是数据源和知识发现的目标。在以上每种情况下的数据挖掘技术,如统计和可视化,聚类,分类,异常检测,关联规则挖掘模式挖掘和文本挖掘应用。在本文中,我们研究了数据挖掘技术如何应用到教育系统中。数据挖掘可以在高等教育中特别是如何提高学生的成绩上发挥作用。
参考文献:
[1]数据挖掘概念与技术[M] 北京:机械工业出版社,2007,5—10
[2] al., (2003) Predicting Student Performance: An Application of Data Mining Methods with The Educational Web—Based System Lon—CAPA ? 2003 IEEE[J], Boulder, CO
[3] Sheikh, L Tanveer B. and Hamdani, S., “Interesting Measures for Mining Association Rules”[J]. IEEE—INMIC Conference December. 2004
[4] Romero C. and Ventura S.,”Educational data mining: A Survey from 1995 to 2005”[J].Expert Systems with Applications (33) 135—146. 2007

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。