统计学中的Bootstrap⽅法(Bootstrap抽样)
Bootstrap⼜称⾃展法、⾃举法、⾃助法、靴带法 ,  是统计学习中⼀种重采样(Resampling)技术,⽤来估计标准误差、置信区间和偏差
Bootstrap是现代统计学较为流⾏的⼀种统计⽅法,在⼩样本时效果很好。机器学习中的Bagging,AdaBoost等⽅法其实都蕴含了Boostrap的思想,在集成学习的范畴⾥ Bootstrap直接派⽣出了Bagging模型
⼦样本之于样本,可以类⽐样本之于总体
举例
栗⼦:我要统计鱼塘⾥⾯的鱼的条数,怎么统计呢?假设鱼塘总共有鱼1000条,我是开了上帝视⾓的,但是你是不知道⾥⾯有多少。步骤:
1. 承包鱼塘,不让别⼈捞鱼(规定总体分布不变)。为什么使用bootstrap?
2. ⾃⼰捞鱼,捞100条,都打上标签(构造样本)
3. 把鱼放回鱼塘,休息⼀晚(使之混⼊整个鱼,确保之后抽样随机)
4. 开始捞鱼,每次捞100条,数⼀下,⾃⼰昨天标记的鱼有多少条,占⽐多少(⼀次重采样取分布)。
5. 重复3,4步骤n次。建⽴分布。
(原理是中⼼极限定理)
假设⼀下,第⼀次重新捕鱼100条,发现⾥⾯有标记的鱼12条,记下为12%,放回去,再捕鱼100条,发现标记的为9条,记下9%,重复重复好多次之后,假设取置信区间95%,你会发现,每次捕鱼平均在10条左右有标记,所以,我们可以⼤致推测出鱼塘有1000条左右。其实是⼀个很简单的类似于⼀个⽐例问题。这也是因为提出者Efron给统计学顶级期刊投稿的时候被拒绝的理由--"太简单"。这也就解释了,为什么在⼩样本的时候,bootstrap效果较好,你这样想,如果我想统计⼤海⾥有多少鱼,你标记100000条也没⽤啊,因为实际数量太过庞⼤,你取的样本相⽐于太过渺⼩,最实际的就是,你下次再捕100000的时候,发现⼀条都没有标记,,,就尴尬了。。。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。