Python机器学习⼯具包SKlearn的安装与使⽤
⽬录
1、SKlearn 是什么
2、SKlearn 的安装
3、SKlearn 内置数据集
测试问题数据集
实际问题数据集
4、Sklearn 数模笔记的计划
1、SKlearn 是什么
Sklearn(全称 SciKit-Learn),是基于 Python 语⾔的机器学习⼯具包。
Sklearn 主要⽤Python编写,建⽴在 Numpy、Scipy、Pandas 和 Matplotlib 的基础上,也⽤ Cython编写了⼀些核⼼算法来提⾼性能。
Sklearn 包括六⼤功能模块:
分类(Classification):识别样本属于哪个类别,常⽤算法有 SVM(⽀持向量机)、nearest neighbors(最近邻)、random forest(随机森林)
回归(Regression):预测与对象相关联的连续值属性,常⽤算法有 SVR(⽀持向量机)、 ridge regression(岭回归)、Lasso
聚类(Clustering):对样本进⾏⽆监督的⾃动分类,常⽤算法有 k-Means(k均值)、spectral clustering(特征聚类)、mean-shift(均值漂移)
数据降维(Dimensionality reduction):减少相关变量维数,常⽤算法有 PCA(主成分分析)、feature selection(特征选择)、non-negative matrix factorization(⾮负矩阵分解)
模型选择(Model Selection):⽐较,验证,选择参数和模型,常⽤模块有 grid search(⽹格搜索)、cross
validation(交叉验证)、 metrics(度量)
数据处理(Preprocessing):特征提取和归⼀化,常⽤模块有 preprocessing(预处理),feature extraction(特征提取)
这六个功能模块涉及 4类算法,分类、回归属于监督学习,聚类属于⾮监督学习。
2、SKlearn 的安装
Sklearn 的安装要求:Python 3.5 以上版本,需要安装 NumPy、SciPy、Pandas ⼯具包的⽀持,部分内容需要使⽤Matplotlib、joblib ⼯具包。
pip 安装命令:
pip install numpy-1.11.1+mkl-cp27-cp27m-win_amd64.whl
3、SKlearn 内置数据集
测试问题数据集
波⼠顿房价:Boston house prices dataset
鸢尾花问题:Iris plants dataset
糖尿病数据:Diabetes dataset
⼿写数字的识别:Optical recognition of handwritten digits dataset
体能训练:Linnerrud dataset
葡萄酒鉴别:Wine recognition dataset
威斯康星州癌症诊断:reast cancer wisconsin (diagnostic) dataset
实际问题数据集
⼈脸数据:The Olivetti faces dataset
20个新闻⽂本数据:The 20 newsgroups text dataset
标记的⼈脸数据:The Labeled Faces in the Wild face recognition dataset
森林覆盖类型:Forest covertypes
路透社新闻数据:RCV1 dataset
⽹络⼊侵检测数据:Kddcup 99 dataset
加州住房数据:California Housing dataset
4、Sklearn 数模笔记的计划
粗略看看 Sklearn 的⽂档,是⼀个功能强⼤和丰富的机器学习库,远远超出了数学建模学习的范围。
基于数模教学的⽬的,本系列主要对应数模学习中的分类、聚类、降维问题,并不打算全⾯讲解 Sklearn 的各种算法,⽽是以典型问题为例来介绍原理简单、使⽤⼴泛的基本⽅法,以便新⼿⼊门。
python安装教程非常详细以上就是Python 机器学习⼯具包SKlearn的安装与使⽤的详细内容,更多关于Python SKlearn的安装与使⽤的资料请关注其它相关⽂章!
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论