第一章
1,数据挖掘(Data Mining),就是从存放在数据库,数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。数据可视化名词解释
2,人工智能(Artific ial Intelli gence)它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。
3,机器学习(Machine Learnin g)是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
4,知识工程(Knowled ge Enginee ring)是人工智能的原理和方法,对那些需要专家知识才能解决的应用难题提供求解的手段。
5,信息检索(Informa tion Retriev al)是指信息按一定的方式组织起来,并根据信息用户的需要出有关的信息的过程和技术。
6,数据可视化(Data Visuali zation)是关于数据之视觉表现形式的研究;其中,这种数据的视觉表现形式被定义为一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。
7,联机事务处理系统(OLTP)实时地采集处理与事务相连的数据以及共享数据库和其它文件的地位的变化。在联机事务处理中,事务是被立即执行的,这与批处理相反,一批事务被存储一段时间,然后再被执行。
8, 联机分析处理(OLAP)使分析人员,管理人员或执行人员能够从多角度对信息进行快速
一致,交互地存取,从而获得对数据的更深入了解的一类软件技术。8,决策支持系统(decisio n support)是辅助决策者通过数据、模型和知识,以人机交互方式进行半结构化或非结构化决策的计算机应用系统。它为决策者提供分析问题、建立模型、模拟决策过程和方案的环境,调用各种信息资源和分析工具,帮助决策者提高决策水平和质量。
10,知识发现(KDD:Knowled ge Discove ry in Databas es)是从数据集中别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。
11,事务数据库(Transac tion Databas e)一个事务数据库由文件构成,每条记录代表一个事务。典型的事务包含唯一的事务标记,多个项目组成一个事务
12,分布式数据库(Di strib uted Database)是用计算机网络将物理上分散的多个数据库单元连接起来组成一个逻辑统一的数据库。
第三章
13,并行关联规则挖掘(Paralle l Associa ti on Rule Mining)是指利用并行处理机,使用挖掘算法或在并行计算的环境下完成数据的高效挖掘工作。
14,数量关联规则挖掘(Quantit i ve Associa tion Rule Mining)对含有非离散的数值属性的数据进行挖掘的技术
14, 频繁项目集(Frequen t Itemset s)对项目集I和事务数据库D,T中所有满足用户指定的最小支持度(Minsupp ort)的项目集,即大于或等于M i nsupp ort的I的非空子集
15,最大频繁项目集(Maximum Frequen t Itemset s)在频繁项目集中挑选出所有不被其他元素包含的频繁项目集
16,闭合项目集(Close Itemset)如果项目的直接超集都不具有和它相同的支持度技术则该项目是闭合的
17,多层次关联规则:具有概念分层的关联规则挖掘产生的规则称为多层关联规则。
18,多维关联规则:在关联规则中的项或属性每个涉及多个维,则它就是多维关联规则。
19,购物篮分析:通过支持度和置信度这两个值来对顾客所购买的商品组成情况进行分析的方法。
20,强关联规则:D在I上满足最小支持度和最小信任度的关联规则称为强关联规则
第四章
1,数据分类(Data Classif icatio n)数据分类可以看成是从数据库到一组预先定义的、非交叠的类别的映射。
2,K-最邻近方法(K-NN)计算每个训练数据到待分类元组的距离,取和待分类元组距离最近的k个训练数据,k个数据中哪个类别的训练数据占多数,则待分类元组就属于哪个类别。3,决策树(Decisio n Tree)决策树是从数据中生成分类器的一个重要的、基本的和有效的方法。采用自定向下的递归方式,每个决策或事件都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树。
4,熵(Entropy) 对事件对应的属性的不确定性的度量。一个属性的熵越大,它蕴含的不确定信息越大,越有利于数据的分类。
5,后验概率(Posteri or Probabi lity)当根据经验及有关材料推测出主观概率后,对其是否准确没有充分把握时,可采用概率论中的贝叶斯公式进行修正,修正前的概率称为先验概率,修正后的概率称为后验
概率,利用后验概率再进行风险分析。
第五章
1. 划分方法(partiti oningmethods)给定一个有N个元组或者纪录的数据集,分裂法将构造K 个分组,每一个分组就代表一个聚类,K<N。而且这K个分组满足下列条件:(1)每一个分组至少包含一个数据纪录;(2)每一个数据纪录属于且仅属于一个分组。
2. 层次方法(hierarc hicalmethods)这种方法对给定的数据集进行层次似的分解,直到某种条
件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。
3. 基于密度的方法(density-based methods)基于密度的方法与其它方法的一个根本区别是:它不是基于各种各样的距离的,而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。这个方法的指导思想就是,只要一个区域中的点的密度大过某个阀值,就把它加到与之相近的聚类中去。
4. 基于网格的方法(grid-based methods)这种方法首先将数据空间划分成为有限个单元的网格结构,所有的处理都是以单个的单元为对象的。这么处理的一个突出的优点就是处理速度很快,通常这是与目标数据库中记录的个数无关的,它只与把数据空间分为多少个单元有关。
5,围绕中心点的划分(PAM)最初随机选择k个对象作为中心点,该算法反复地用非代表对象来代替代表对象,试图出更好的中心点,以改进进聚类的质量。该算法可分为两步:1,建立:随机寻k 个中心点作为初始的簇中心点。2,交换:对于所有可能的对象对进行分析,到交换后可以使平方-误差减少的对象,代替原中心点。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论