数据挖掘、机器学习知识点--688IT编程网

数据挖掘复习

概论

✔机器学习

机器学习在近30多年已发展为一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

✔数据挖掘

数据挖掘（英语：data mining）是一个跨学科的计算机科学分支。它是用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发现模式的计算过程。数据挖掘过程的总体目标是从一个数据集中提取信息，并将其转换成可理解的结构，以进一步使用。数据挖掘是 ”数据库知识发现“ 的分析步骤。

✔机器学习和数据挖掘的关系

机器学习是数据挖掘的主要工具。

数据挖掘不仅仅要研究、拓展、应用一些机器学习方法，还要通过许多非机器学习技术解决数据存储、大规模数据、数据噪音等更为实际的问题。

机器学习的涉及面更宽，常用在数据挖掘上的方法通常只是“从数据学习”，然则机器学习不仅仅可以用在数据挖掘上，一些机器学习的子领域甚至与数据挖掘关系不大，例如增强学习与自动控制等。

大体上看，数据挖掘可以视为机器学习和数据库的交叉。

✔基本术语

泛化能力

机器学习的目标是使得学到的模型能很好的适用于“新样本”, 而不仅仅是训练集合，我们称模型适用于新样本的能力为泛化(generalization)能力。

通常假设样本空间中的样本服从一个未知分布，样本从这个分布中独立获得，即“独立同分布”(i.i.d)。一般而言训练样本越多越有可能通过学习获得强泛化能力的模型。

监督学习

即样本是有标签的。

分类问题

回归问题

标注问题

监督学习目的是学习一个由输入到输出的映射，称为模型。模式的集合就是假设空间（hypothesis space）

正则化英语半监督学习

少量标注数据，大量未标注数据

利用未标注数据的信息，辅助标注数据，进行监督学习

较低成本

主动学习

机器主动给出实例，教师进行标注

利用标注数据学习预测模型

KNN

工作原理

存在一个样本数据集合，也称作训练样本集，样本集中每个数据都存在标签，即我们知道样本集中每个数据和所属分类

输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签

一般来说，只选择样本数据集中前 k 个最相似的数据。最后，选择 k 个中出现次数最多的分类，作为新数据的分类

距离度量

K < sqrt(n)，n is number of examples.

特点的归一化

, 使数据映射到 0-1。

如果考虑计算有序的和无序的属性的距离

1 hot 编码给无序的属性，有序的属性直接使用有序的编号。

特点

优点：

非常简单和直觉

能够适用于任何分布的数据

如果训练样本非常多，那么效果会非常好

缺点：

每分一个类，需要花大量时间

k 的选择非常具有技巧性

需要大量的样本来提高精度

决策树

决策树是一种典型的分类方法。

✔算法

CLS，ID3，C4.5，CART

✔CLS (concept learning system) 算法

ID3 算法

是一种经典的决策树学习算法, 主要解决属性选择问题。

使用信息增益选择测试属性。

使用信息熵来度量样本集合纯度的常用指标，越大说明越不纯。

基本思想

ID3 算法的基本思想是，以信息熵为度量，用于决策树节点的属性选择，每次优先选取信息量最多的属性，亦即能使熵值变为最小的属性，以构造一颗熵值下降最快的决策树，到叶子节点处的熵值为0。此时，每个叶子节点对应的实例集中的实例属于同一类。

划分选择-信息增益

存在问题：信息增益对可取值数目较多的属性有所偏好。改进使用增益率：

688IT编程网

数据挖掘、机器学习知识点

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

688IT编程网

数据挖掘、机器学习知识点

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法 正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

nginx map用法正则

nginx map用法正则