python的分类算法有哪些_Python8种最常见⽕爆的机器学习算
法在线观看网站源码公司
原标题:Python8种最常见⽕爆的机器学习算法
帝国程序⽏庸置疑,近来机器学习⼈⽓⽇益⾼涨,逐渐在流⾏词榜单上占据⼀席之地。机器学习算法繁多,到底该选择哪⼀种处理相关数据是困扰很多学习者的问题。本⽂将以⼀种清晰简明的⽅式,解释并实践最常见的⼏种机器学习算法。
接下来,我们将罗列8种最常见⽕爆的机器学习算法,通过Python,将它们分别适⽤同⼀个经典数据集Iris(线性回归和逻辑回归除外),进⽽分辨出不同算法在预测准确率、模型建⽴过程、对数据集的使⽤⽅式等⽅向的异同。
推荐下我⾃⼰创建的Python学习交流960410445,这是Python学习交流的地⽅,不管你是⼩⽩还是⼤⽜,⼩编都欢迎,不定期分享⼲货,包括我整理的⼀份适合零基础学习Python的资料和⼊门教程。
8⼤算法
本⽂中将覆盖共8种不同的机器学习算法(后续会有更多)。阅读时本指南时,你可以⾃由的随意翻翻或跳过任何⼀个已经熟悉的算法。请根据着个⼈需求使⽤这份指南。闲话少说,本⽂将分为以下及部分。
1.线性回归
2.逻辑回归
3.决策树
4.⽀持向量机
5.KNN 临近算法
6.随机森林
7. K-Means聚类
8.主成分分析
若尝试使⽤他⼈的代码时,结果你发现需要三个新的模块包⽽且本代码是⽤旧版本的语⾔写出的,这将让⼈感到⽆⽐沮丧。为了⼤家更加⽅便,我将使⽤Python3.5.2并会在下⽅列出了我在做这些练习前加载的模块包。我也从UCI机器学习库中下载了Diabetes和Iris数据集作为样本数据。
如果你希望跳过这些内容,仅想看看全部代码,你可以直接前往Github上查看。
线性回归
讲解
线性回归应该是机器学习原理中最流⾏也是最不受重视的算法了。在⽐较模型表现时,许多数据科学家总是会忽略这⼀事实,即⽐起复杂更应该选择简单的⽅法。
总之,线性回归是⼀种基于连续型变量进⾏预测的有监督学习算法。线性回归适⽤范围⼴泛,它既能对单⼀变量做回归(简单线性回归)也可以对多维特征做回归(多元线性回归)。他的⼯作原理是,对变量分配最佳权重以产⽣的⼀条直线(ax+b)⽤于预测结果。请查看以下视频了解更多详尽内容。
现在你应该已经掌握了线性回归的概念,接下来让我们看看怎样在Python中实现它。
springboot需要连接池吗准备⼯作
可视化
实现
逻辑回归
讲解
逻辑回归是有监督分类算法的⼀种,对预测离散变量⾮常有效。⼀种典型的⽤法是⽤逻辑回归⽅程预测事件在0到1之间发⽣的概率。
当我第⼀次学习逻辑回归时,以为是这只是⼀个⼩众⼯具,并没有引起⼗分的注意。后来我才发现,这种想法真是⼤错特错。逻辑回归的⼀些潜在概念在机器学习其他算法例如神经⽹络中也有⽤到。请⼤家牢记这⼀点,然后查看下⾯的视频了解更多内容。
现在你已经掌握了逻辑回归的⼀些概念,让我们在Python中加以实现。
准备⼯作
可视化
实现
决策树
讲解
决策树也是有监督学习的⼀种,即可⽤于分类也可⽤于回归。在我的经验⾥,他们主要⽤于分类。模型先接受输⼊的⼀种情况,然后沿着树枝向下⾛,依据设计的条件检测重要变量。根据结果,选择继续往左边的⼦枝⾛还是往右边的⼦枝⾛,如此重复。⼀般整个过程中,最重要的特征会更靠近树的根部。
决策树正变得越来越受欢迎,⽽且任何项⽬的数据科学家都能⽤它作为⼀种强分类算法,尤其与随机是森林,Boosting 算法和Bagging 算法⼀起使⽤时。再⼀次,使⽤下⽅的视频更深⼊了解决策树的基础功能。
现在你知道决策树以及它怎样运作了,让我们去Python中实践⼀下。
准备⼯作
实现
可视化
⽀持向量机
讲解
⽀持向量机,⼜称SVM,是⼀种通过在不同类别的数据间⽣成⼀条分界线实现分类的知名的有监督分类算法。简单来说,通过计算最优分割平⾯,使得属于两个不同类的数据点间隔最⼤,从⽽得到分类向量。
分类向量⼀般被默认或被视为线性,然⽽不⼀定⾮要这样。如果核函数不是默认的⾼斯函数或线性函数,分类向量也可以是⾮线性的形式。关于SVM还有很多可以介绍,请继续观看指导视频。(后台回复 “代码”2字获取相关资源。)
现在你已经了解⽀持向量机了,让我们在Python中⼀起实践⼀下。
准备⼯作
实现
可视化
KNN邻近算法
讲解
K最邻近分类算法,或缩写为KNN,是⼀种有监督学习算法,专门⽤于分类。算法先关注不同类的中⼼,对⽐样本和类中⼼的距离(通常⽤欧⼏⾥得距离⽅程)。如果⼀个样本中的⼤多数属于某⼀个类别,则该样本都归属于这个类别。
你已经了解了KNN算法的内在概念,让我们在Python中实践⼀下。
准备⼯作
可视化
实现
随机森林
讲解
随机森林是⼀种流⾏的有监督集成学习算法。集成的意思是把许多”弱学习器”结合在⼀起,形成⼀个强预测器。在本例中,每⼀个随机⽣成的决策树都是⼀个弱学习器,放在⼀起成为了⼀个强预测器—随机森林。后台获取相关视频,介绍更多随机森林背后的原理。
知道了随机森林的运作原理,到了在Python中实践的时间了。
准备⼯作
semble import RandomForestClassifier
df = pd.read_csv(‘iris_df.csv’)
df.head()
实现
ss_validation import train_test_split
forest = RandomForestClassifier()
X = df.values[:, 0:4]
Y = df.values[:, 4]
trainX, testX, trainY, testY = train_test_split( X, Y, test_size = 0.3)
forest.fit(trainX, trainY)
print(‘Accuracy: \n’, forest.score(testX, testY))
pred = forest.predict(testX)
K-Means 聚类算法
讲解
K-Means算法是⼀种流⾏的⽆监督学习分类算法,主要⽤于解决聚类问题。K 是⽤户预输⼊的分类数量。算法先随机选择K个点,然后⽤距离算法将剩下的对象分组,最终达到最优聚类。模型的好坏主要取决于数据科学家对K值的设定。按照惯例,后台获取相关视频了解更多内容。
现在我们已经对K-Means聚类了解更多,也明⽩它的原理了。让我们在Python中实现⼀下它的算法。
准备⼯作
from sklearn.cluster import KMeans
df = pd.read_csv(‘iris_df.csv’)
简述职业定位的smart原则df = df.drop([‘X4’, ‘X3’], 1)
df.head()
少儿编程在线培训机构推荐实现
ss_validation import train_test_split
kmeans = KMeans(n_clusters=3)
X = df.values[:, 0:2]
kmeans.fit(X)
df[‘Pred’] = kmeans.predict(X)
df.head()
可视化
sns.set_context(“notebook”, font_scale=1.1)
sns.set_style(“ticks”)小白学python买什么书
sns.lmplot(‘X1’,’X2', scatter=True, fit_reg=False, data=df, hue = ‘Pred’)
PCA主成分分析
讲解
主成分分析(PCA)是⼀种降维算法,可以为数据科学家做很多事。最主要的是,当模型有成百上千个不同特征需要处理时,主成分分析能极⼤地减少模型计算量。这是⼀种⽆监督模型,但使⽤者依然需要分析降维后的结果,确保其能保持原数据集95%左右的信息。关于主成分分析还有很多内容可以说
现在我们了解了更多主成分分析和它的原理,让我们在Python中实践⼀下。
准备⼯作
trom sklearn import decomposition
df = pd.read_csv(‘iris_df.csv’)
df.head()
实现
from sklearn import decomposition
pca = decomposition.PCA()
fa = decomposition.FactorAnalysis()
X = df.values[:, 0:4]
Y = df.values[:, 4]
train, test = train_test_split(X,test_size = 0.3)
train_reduced = pca.fit_transform(train)
test_reduced = ansform(test)
pca.n_components_
这份辅导指南仅简单介绍了当下流⾏的机器学习算法的⽪⽑, 希望它能在你们成为机器学习⼤师的旅程上有所帮助。返回搜狐,查看更多
责任编辑:
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论