随机森林构造有哪些步骤?随机森林案例展⽰
在机器学习中,随机森林是⼀个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数⽽定。
随机森林 = Bagging + 决策树
例如, 如果你训练了5个树, 其中有4个树的结果是True, 1个树的结果是False, 那么最终投票结果就是True随机森林够造过程中的关键步骤(M表⽰特征数⽬):
1)⼀次随机选出⼀个样本,有放回的抽样,重复N次(有可能出现重复的样本)
2) 随机去选出m个特征, m <
思考
1.为什么要随机抽样训练集?
如果不进⾏随机抽样,每棵树的训练集都⼀样,那么最终训练出的树分类结果也是完全⼀样的
2.为什么要有放回地抽样?
如果不是有放回的抽样,那么每棵树的训练样本都是不同的,都是没有交集的,这样每棵树都是“有偏的”,都是绝对“⽚⾯的”(当然这样说可能不对),也就是说每棵树训练出来都是有很⼤的差异的;⽽随机森林最后分类取决于多棵树(弱分类器)的投票表决。
随机森林api介绍
random_state=None, min_samples_split=2)
n_estimators:integer,optional(default = 10)森林⾥的树⽊数量120,200,300,500,800,1200
Criterion:string,可选(default =“gini”)分割特征的测量⽅法
max_depth:integer或None,可选(默认=⽆)树的最⼤深度 5,8,15,25,30
max_features="auto”,每个决策树的最⼤特征数量
If "auto", thenmax_features=sqrt(n_features).
为什么使用bootstrap?
If "sqrt", thenmax_features=sqrt(n_features)(same as "auto").
If "log2", thenmax_features=log2(n_features).
If None, thenmax_features=n_features.
bootstrap:boolean,optional(default = True)是否在构建树时使⽤放回抽样min_samples_split:节点划分最少样本数
min_samples_leaf:叶⼦节点的最⼩样本数
超参数:n_estimator, max_depth, min_samples_split,min_samples_leaf
随机森林预测案例
实例化随机森林
定义超参数的选择列表
使⽤GridSearchCV进⾏⽹格搜索
注意:
随机森林的建⽴过程
树的深度、树的个数等需要进⾏超参数调优

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。