scikit-learn学习笔记--688IT编程网

简介：

scikit-learn是一个用于机器学习的Python模块，建立在SciPy基础之上。

主要特点：

操作简单、高效的数据挖掘和数据分析

无访问限制，在任何情况下可重新使用

建立在NumPy、SciPy和matplotlib基础上

使用商业开源协议--BSD许可证

scikit-learn安装：（ubuntu版本14.04.1）

安装依赖：

sudo apt-get install build-essential python-dev python-numpy python-setuptools python-scipy libatlas-dev libatlas3-base python-matplotlib

安装pip

sudo apt-get install python-pip

安装scikit-learn

sudo pip install -U scikit-learn

标准库

Classification

1.监督学习

1.1广义线性模型：

1.1.1普通最小二乘法：

无偏估计的

通过计算最小二乘的损失函数的最小值来求得参数得出模型

通常用在观测有误差的情况，解决线性回归问题

求实际观测值与预测值差的平方最小值

数学公式：

是由sklearn.linear_model模块中的LinearRegression类实现回归

LinearRegression的构造方法：

sklearn.linear_model.LinearRegression(fit_intercept=True #默认值为True，表示计算随机变量，False表示不计算随机变量

, normalize=False #默认值为False，表示在回归前是否对回归因子X进行归一化，True表示是

, copy_X=True)

LinearRegression的属性有：coef_和intercept_。coef_存储到的值，与X的维数一致。intercept_存储的值。

LinearRegression的常用方法有：

decision_function(X) #返回X的预测值y

fit(X,y[,n_jobs]) #拟合模型

get_params([deep]) #获取LinearRegression构造方法的参数信息

predict(X) #求预测值 #同decision_function

score(X,y[,sample_weight]) #计算公式为

set_params(**params) #设置LinearRegression构造方法的参数值

参考示例：

from sklearn import linear_model

X= [[0, 0], [1, 1], [2, 2]]

y = [0, 1, 2]

clf = linear_model.LinearRegression()

clf.fit(X, y)

print clf.intercept_

print clf.predict([[3, 3]])

print clf.decision_function(X)

print clf.score(X, y)

_params()

print clf.set_params(fit_intercept = False)

普通最小二乘法的复杂性：

假设影响因素x为一个n行p列的矩阵那么其算法复杂度为假设

缺点：要求每个影响因素相互独立，否则会出现随机误差。

回归用于解决预测值问题

1.1.2 Ridge回归

有偏估计的，回归系数更符合实际、更可靠，对病态数据的拟合要强于最小二乘

数学公式：

>=0，越大，w值越趋于一致

改良的最小二乘法，增加系数的平方和项和调整参数的积

是由sklearn.linear_model模块中的Ridge类实现

Ridge回归用于解决两类问题：一是样本少于变量个数，二是变量间存在共线性

Ridge的构造方法：

sklearn.linear_model.Ridge(alpha=1.0 #公式中的值，默认为1.0

, fit_intercept=True

, normalize=False

, copy_X=True

, max_iter=None #共轭梯度求解器的最大迭代次数

,tol=0.001 #默认值0.001

, solver='auto') #

Ridge回归复杂性：同最小二乘法

使用：

from sklearn import linear_model

X= [[0, 0], [1, 1], [2, 2]]

y = [0, 1, 2]

clf = linear_model.Ridge(alpha = 0.1)

clf.fit(X, y)

print clf.intercept_

print clf.predict([[3, 3]])

print clf.decision_function(X)

print clf.score(X, y)

_params()

print clf.set_params(fit_intercept = False)

调整参数设置（）：通过广义交叉验证的方式（RidgeCV）设置调整参数

RidgeCV构造方法：

sklearn.linear_model.RidgeCV(alphas=array([ 0.1, 1., 10. ])

, fit_intercept=True

, normalize=False

, scoring=None #交叉验证发生器

cv=None

, gcv_mode=None

, store_cv_values=False)

使用示例：

from sklearn import linear_model

X= [[0, 0], [1, 1], [2, 2]]

y = [0, 1, 2]

clf = linear_model.RidgeCV(alpha = [0.1, 1.0, 10.0])

clf.fit(X, y)

print clf.intercept_

print clf.predict([[3, 3]])

print clf.decision_function(X)

print clf.score(X, y)

_params()

print clf.set_params(fit_intercept = False)

1.1.3 Lasso

数学公式：

估计稀疏系数的线性模型

正则化残差

适用于参数少的情况，因其产生稀疏矩阵，可用与特征提取

实现类是Lasso，此类用于监督分类

较好的解决回归分析中的多重共线性问题

思想：在回归系数的绝对值之和小于一个常数的约束条件下，使残差平方和最小化

使用：clf = linear_model.Lasso(alpha = 0.1)

设置调整参数（）：

交叉验证：LassoCV（适用于高维数据集）或LassoLarsCV（适合于样本数据比观察数据小很多）

基于模式选择的信息标准：LassoLarsIC（BIC/AIC）

1.1.4 Elastic Net

是一个使用L1和L2训练的线性模型，适合于在参数很少的情况下（如Lasso）并保持Ridge性能的情况，既是多种影响因素依赖与另外一种因素。继承Ridge的旋转稳定性。

688IT编程网

scikit-learn学习笔记

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

688IT编程网

scikit-learn学习笔记

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法 正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

nginx map用法正则

nginx map用法正则