数据挖掘复习
概论
✔机器学习
机器学习在近30多年已发展为一门多领域交叉学科,涉及概率论、统计学、逼近 论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些 让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规 律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计 学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设 计方面,机器学习理论关注可以实现的,行之有效的学习算法。
✔数据挖掘
数据挖掘(英语:data mining)是一个跨学科的计算机科学分支。它 是用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。数据挖掘是 ”数据库知识发现“ 的分析步骤。
✔机器学习和数据挖掘的关系
机器学习是数据挖掘的主要工具。
数据挖掘不仅仅要研究、拓展、应用一些机器学习方法,还要通过许多非机器学习技术解决数据存储、大规模数据、数据噪音等更为实际的问题。
机器学习的涉及面更宽,常用在数据挖掘上的方法通常只是“从数据学习”,然则机器学习不仅仅可以用在数据挖掘上,一些机器学习的子领域甚至与数据挖掘关系不大,例如增强学习与自动控制等。
大体上看,数据挖掘可以视为机器学习和数据库的交叉。
✔基本术语
泛化能力
机器学习的目标是使得学到的模型能很好的适用于“新样本”, 而不仅仅是训练集合,我们称模型适用于新样本的能力为泛化(generalization)能力。
通常假设样本空间中的样本服从一个未知分布 ,样本从这个分布中独立获得,即“独立同分布”(i.i.d)。一般而言训练样本越多越有可能通过学习获得强泛化能力的模型。
监督学习
即样本是有标签的。
分类问题
回归问题
标注问题
监督学习目的是学习一个由输入到输出的映射,称为模型。模式的集合就是假设空间(hypothesis space)
正则化英语半监督学习
少量标注数据,大量未标注数据
利用未标注数据的信息,辅助标注数据,进行监督学习
较低成本
主动学习
机器主动给出实例,教师进行标注
利用标注数据学习预测模型
KNN
工作原理
存在一个样本数据集合,也称作训练样本集,样本集中每个数据都存在标签,即我们知道样本集中每个数据和所属分类
输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签
一般来说,只选择样本数据集中前 k 个最相似的数据。最后,选择 k 个中出现次数最多的分类,作为新数据的分类
距离度量
K < sqrt(n),n is number of examples.
特点的归一化
, 使数据映射到 0-1。
如果考虑计算有序的和无序的属性的距离
1 hot 编码给无序的属性,有序的属性直接使用有序的编号。
特点
优点:
非常简单和直觉
能够适用于任何分布的数据
如果训练样本非常多,那么效果会非常好
缺点:
每分一个类,需要花大量时间
k 的选择非常具有技巧性
需要大量的样本来提高精度
决策树
决策树是一种典型的分类方法。
✔算法
CLS,ID3,C4.5,CART
✔CLS (concept learning system) 算法
ID3 算法
是一种经典的决策树学习算法, 主要解决属性选择问题。
使用信息增益选择测试属性。
使用信息熵来度量样本集合纯度的常用指标,越大说明越不纯。
基本思想
ID3 算法的基本思想是,以信息熵为度量,用于决策树节点的属性选择,每次优先选取信息量最多的属性,亦即能使熵值变为最小的属性,以构造一颗熵值下降最快的 决策树,到叶子节点处的熵值为0。此时,每个叶子节点对应的实例集中的实例属于同一类。
划分选择-信息增益
存在问题:信息增益对可取值数目较多的属性有所偏好。改进使用增益率:

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。