Python之Sklearn使用入门教程--688IT编程网

Python之Sklearn使⽤⼊门教程

1.Sklearn简介

Scikit-learn(sklearn)是机器学习中常⽤的第三⽅模块，对常⽤的机器学习⽅法进⾏了封装，包括回归(Regression)、降维(Dimensionality Reduction)、分类(Classfication)、聚类(Clustering)等⽅法。当我们⾯临机器学习问题时，便可根据下图来选择相应的⽅法。Sklearn具有以下特点：

简单⾼效的数据挖掘和数据分析⼯具

让每个⼈能够在复杂环境中重复使⽤

建⽴NumPy、Scipy、MatPlotLib之上

2.Sklearn安装

Sklearn安装要求Python(>=2.7 or >=3.3)、NumPy (>= 1.8.2)、SciPy (>= 0.13.3)。如果已经安装NumPy和SciPy，安装scikit-learn可以使⽤pip install -U scikit-learn。

3.Sklearn通⽤学习模式

Sklearn中包含众多机器学习⽅法，但各种学习⽅法⼤致相同，我们在这⾥介绍Sklearn通⽤学习模式。⾸先引⼊需要训练的数据，Sklearn⾃带部分数据集，也可以通过相应⽅法进⾏构造，4.Sklearn datasets中我们会介绍如何构造数据。然后选择相应机器学习⽅法进⾏训练，训练过程中可以通过⼀些技巧调整参数，使得学习准确率更⾼。模型训练完成之后便可预测新数据，然后我们还可以通

过MatPlotLib等⽅法来直观的展⽰数据。另外还可以将我们已训练好的Model进⾏保存，⽅便移动到其他平台，不必重新训练。

from sklearn import datasets#引⼊数据集,sklearn包含众多数据集

del_selection import train_test_split#将数据分为测试集和训练集

ighbors import KNeighborsClassifier#利⽤邻近点⽅式训练数据

###引⼊数据###

iris=datasets.load_iris()#引⼊iris鸢尾花数据,iris数据包含4个特征变量

iris_X=iris.data#特征变量

iris_y=iris.target#⽬标值

X_train,X_test,y_train,y_test=train_test_split(iris_X,iris_y,test_size=0.3)#利⽤train_test_split进⾏将训练集和测试集进⾏分开，test_size占30%

print(y_train)#我们看到训练数据的特征值分为3类

'''

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

2 2 2 2 2 2 2 2 2 2 2

2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2

2 2]

'''

###训练数据###

knn=KNeighborsClassifier()#引⼊训练⽅法

knn.fit(X_train,y_train)#进⾏填充测试数据进⾏训练

###预测数据###

print(knn.predict(X_test))#预测特征值

'''

[1 1 1 0 2 2 1 1 1 0 0 0 2 2 0 1 2 2 0 1 0 0 0 0 0 0 2 1 0 0 0 1 0 2 0 2 0

linux命令行大全第二版 pdf

1 2 1 0 0 1 0 2]

'''

print(y_test)#真实特征值

'''

[1 1 1 0 1 2 1 1 1 0 0 0 2 2 0 1 2 2 0 1 0 0 0 0 0 0 2 1 0 0 0 1 0 2 0 2 0

1 2 1 0 0 1 0 2]

'''

4.Sklearn datasets

Sklearn提供⼀些标准数据，我们不必再从其他⽹站寻数据进⾏训练。例如我们上⾯⽤来训练的load_iris数据，可以很⽅便的返回数据特征变量和⽬标值。除了引⼊数据之外，我们还可以通

过load_sample_images()来引⼊图⽚。

除了sklearn提供的⼀些数据之外，还可以⾃⼰来构造⼀些数据帮助我们学习。

from sklearn import datasets#引⼊数据集

#构造的各种参数可以根据⾃⼰需要调整

X,y=datasets.make_regression(n_samples=100,n_features=1,n_targets=1,noise=1)

###绘制构造的数据###

import matplotlib.pyplot as plt

plt.figure()

plt.scatter(X,y)

plt.show()

5.Sklearn Model的属性和功能

数据训练完成之后得到模型，我们可以根据不同模型得到相应的属性和功能，并将其输出得到直观结果。假如通过线性回归训练之后得到线性函数y=0.3x+1，我们可通过_coef得到模型的系数为0.3，通

过_intercept得到模型的截距为1。

from sklearn import datasets

from sklearn.linear_model import LinearRegression#引⼊线性回归模型

###引⼊数据###

load_data=datasets.load_boston()

data_X=load_data.data

data_y=load_data.target

print(data_X.shape)

#(506, 13)data_X共13个特征变量

###训练数据###

model=LinearRegression()

model.fit(data_X,data_y)

model.predict(data_X[:4,:])#预测前4个数据

###属性和功能###

f_)

'''

[ -1.07170557e-01 4.63952195e-02 2.08602395e-02 2.68856140e+00

-1.77957587e+01 3.80475246e+00 7.51061703e-04 -1.47575880e+00

3.05655038e-01 -1.23293463e-02 -9.53463555e-01 9.39251272e-03

-5.25466633e-01]

'''

print(model.intercept_)

#36.4911032804excel2007入门教程

_params())#得到模型的参数

#{'copy_X': True, 'normalize': False, 'n_jobs': 1, 'fit_intercept': True}

htlmheader是什么意思print(model.score(data_X,data_y))#对训练情况进⾏打分

#0.740607742865

6.Sklearn数据预处理

数据集的标准化对于⼤部分机器学习算法来说都是⼀种常规要求，如果单个特征没有或多或少地接近于标准正态分布，那么它可能并不能在项⽬中表现出很好的性能。在实际情况中，我们经常忽略特征的分布形状，直接去均值来对某个特征进⾏中⼼化，再通过除以⾮常量特征(non-constant features)的标准差进⾏缩放。

例如, 许多学习算法中⽬标函数的基础都是假设所有的特征都是零均值并且具有同⼀阶数上的⽅差(⽐如径向基函数、⽀持向量机以及L1L2正则化项等)。如果某个特征的⽅差⽐其他特征⼤⼏个数量级，那么它就会在学习算法中占据主导位置，导致学习器并不能像我们说期望的那样，从其他特征中学习。例如我们可以通过Scale将数据缩放，达到标准化的⽬的。

from sklearn import preprocessing

import numpy as np

a=np.array([[10,2.7,3.6],

[-100,5,-2],

[120,20,40]],dtype=np.float64)

print(a)

print(preprocessing.scale(a))#将值的相差度减⼩

'''

[[ 10. 2.7 3.6]

[-100. 5. -2. ]

[ 120. 20. 40

[[ 0. -0.85170713 -0.55138018]

[-1.22474487 -0.55187146 -0.852133 ]

[ 1.22474487 1.40357859 1.40351318]]

'''

我们来看下预处理前和预处理预处理后的差别，预处理之前模型评分为0.511111111111，预处理后模型评分为0.933333333333，可以看到预处理对模型评分有很⼤程度的提升。

del_selection import train_test_split

from sklearn.datasets.samples_generator import make_classification

from sklearn.svm import SVC

import matplotlib.pyplot as plt

###⽣成的数据如下图所⽰###

plt.figure

X,y=make_classification(n_samples=300,n_features=2,n_redundant=0,n_informative=2, random_state=22,n_clusters_per_class=1,scale=100)

plt.scatter(X[:,0],X[:,1],c=y)

plt.show()

###利⽤minmax⽅式对数据进⾏规范化###

X=preprocessing.minmax_scale(X)#feature_range=(-1,1)可设置重置范围

X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3)

clf=SVC()

clf.fit(X_train,y_train)

print(clf.score(X_test,y_test))

#0.933333333333

#没有规范化之前我们的训练分数为0.511111111111，规范化后为0.933333333333，准确度有很⼤提升

7.交叉验证

交叉验证的基本思想是将原始数据进⾏分组，⼀部分做为训练集来训练模型，另⼀部分做为测试集来评价模型。交叉验证⽤于评估模型的预测性能，尤其是训练好的模型在新数据上的表现，可以在⼀定程度上减⼩过拟合。还可以从有限的数据中获取尽可能多的有效信息。

机器学习任务中，拿到数据后，我们⾸先会将原始数据集分为三部分：训练集、验证集和测试集。训练集⽤于训练模型，验证集⽤于模型的参数选择配置，测试集对于模型来说是未知数据，⽤于评估模型的泛化能⼒。不同的划分会得到不同的最终模型。京东python入门教程

以前我们是直接将数据分割成70%的训练数据和测试数据，现在我们利⽤K折交叉验证分割数据，⾸先将数据分为5组，然后再从5组数据之中选择不同数据进⾏训练。

from sklearn.datasets import load_iris

del_selection import train_test_split

ighbors import KNeighborsClassifier

###引⼊数据###

iris=load_iris()

X=iris.data

y=iris.target

###训练数据###

X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3)

#引⼊交叉验证，数据分为5组进⾏训练

del_selection import cross_val_score

knn=KNeighborsClassifier(n_neighbors=5)#选择邻近的5个点

scores=cross_val_score(knn,X,y,cv=5,scoring='accuracy')#评分⽅式为accuracy

print(scores)#每组的评分结果

#[ 0.96666667 1. 0.93333333 0.96666667 1. ]5组数据

an())#平均评分结果

#0.973333333333

那么是否n_neighbor=5便是最好呢，我们来调整参数来看模型最终训练分数。

from sklearn import datasets

del_selection import train_test_split

ighbors import KNeighborsClassifier

del_selection import cross_val_score#引⼊交叉验证

电脑上免费的编程软件

import matplotlib.pyplot as plt

###引⼊数据###

iris=datasets.load_iris()

X=iris.data

y=iris.target

###设置n_neighbors的值为1到30，通过绘图来看训练分数###

k_range=range(1,31)

k_score=[]

for k in k_range:

knn=KNeighborsClassifier(n_neighbors=k)

scores=cross_val_score(knn,X,y,cv=10,scoring='accuracy')#for classfication

k_score.an())

plt.figure()

plt.plot(k_range,k_score)

plt.xlabel('Value of k for KNN')

plt.ylabel('CrossValidation accuracy')

plt.show()

#K过⼤会带来过拟合问题，我们可以选择12-18之间的值

我们可以看到n_neighbor在12-18之间评分⽐较⾼，实际项⽬之中我们可以通过这种⽅式来选择不同参数。另外我们还可以选择2-fold Cross Validation,Leave-One-Out Cross Validation等⽅法来分割数据，⽐较不同⽅法和参数得到最优结果。

我们将上述代码中的循环部分改变⼀下，评分函数改为neg_mean_squared_error，便得到对于不同参数时的损失函数。

for k in k_range:

knn=KNeighborsClassifier(n_neighbors=k)

loss=-cross_val_score(knn,X,y,cv=10,scoring='neg_mean_squared_error')# for regression

k_score.an())

8.过拟合问题

什么是过拟合问题呢？例如下⾯这张图⽚，⿊⾊线已经可以很好的分类出红⾊点和蓝⾊点，但是在机器学习过程中，模型过于纠结准确度，便形成了绿⾊线的结果。然后在预测测试数据集结果的过程中

往往会浪费很多时间并且准确率不是太好。

我们先举例如何辨别overfitting问题。Sklearn.learning_curve中的learning curve可以很直观的看出Mo

del学习的进度，对⽐发现有没有过拟合。del_selection import learning_curve

from sklearn.datasets import load_digits

from sklearn.svm import SVC

import matplotlib.pyplot as plt

import numpy as np

#引⼊数据

digits=load_digits()

X=digits.data

y=digits.target

#train_size表⽰记录学习过程中的某⼀步,⽐如在10%,25%...的过程中记录⼀下

train_size,train_loss,test_loss=learning_curve(

数第三声SVC(gamma=0.1),X,y,cv=10,scoring='neg_mean_squared_error',

train_sizes=[0.1,0.25,0.5,0.75,1]

)

train_loss_mean=-np.mean(train_loss,axis=1)

test_loss_mean=-np.mean(test_loss,axis=1)

plt.figure()

#将每⼀步进⾏打印出来

plt.plot(train_size,train_loss_mean,'o-',color='r',label='Training')

plt.plot(train_size,test_loss_mean,'o-',color='g',label='Cross-validation')

plt.legend('best')

plt.show()

如果我们改变gamma的值，那么会改变相应的Loss函数。损失函数便在10左右停留，此时便能直观的看出过拟合。

下⾯我们通过修改gamma参数来修正过拟合问题。

del_selection import validation_curve#将learning_curve改为validation_curve

from sklearn.datasets import load_digits

from sklearn.svm import SVC

import matplotlib.pyplot as plt

import numpy as np

#引⼊数据

digits=load_digits()

X=digits.data

y=digits.target

688IT编程网

Python之Sklearn使用入门教程

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

Python之Sklearn使用入门教程

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式