利用Python实现Bootstrap采样--688IT编程网

利⽤Python实现Bootstrap采样

"""

1、Bootstrap采样为什么使用bootstrap?

利⽤有限的样本经由有放回的多次重复抽样，建⽴起充⾜的样本，解决了样本不⾜的问题。

Bootstrap是⾮参数统计⽅法，其实质是对观测信息进⾏再抽样，进⽽对总体的分布特性进⾏统计推断。

2、步骤

它是⼀种有放回的抽样⽅法，它是⾮参数统计中⼀种重要的估计统计量⽅差进⽽进⾏区间估计的统计⽅法。其核⼼思想和基本步骤如下：

1.采⽤重抽样技术从原始样本中抽取⼀定数量（⾃⼰给定）的样本，此过程允许重复抽样

2.根据抽出的样本计算给定的统计量T。

3.重复上述N次（⼀般⼤于1000），得到N个统计量T。

4.计算上述N个统计量T的样本⽅差，得到统计量的⽅差。

同理，可以估计总体的均值等其余统计量

3、为什么要进⾏Bootstrap采样

数据集较⼩时是不错的选择。⾃助法在数据集较⼩、难以有效划分训练集和测试集时很有⽤；将多次随机抽样得到的样本作为训练集，将初始数据作为测试集。对集成学习⽅法有帮助。此外，⾃助法能从初始数据集中产⽣多个不同的训练集，这对集成学习等⽅法有很⼤的好处。

稳健性和效率⾼。该⽅法充分利⽤了给定的观测信息，不需要模型其他的假设和增加新的观测，并且具有稳健性和效率⾼的特点

但会引⼊估计偏差。然⽽，⾃助法产⽣的数据集改变了初始数据集的分布，这会引⼊估计偏差。因此，在初始数据量⾜够时，留出法和交叉验证法更常⽤⼀些。"""

import numpy as np

from sklearn.utils import resample

"""

假设我们总体中有⼀部分⼥⽣，⼀部分男⽣，我们想知道他们的⽐例是否⼤体相当。那么我们采⽤bootstrap的步骤则是：

每次采样10个⼈，看男⼥⽐例。

重复上述过程10000次，把每次的男⼥⽐例求平均，代表最终的男⼥⽐例。

"""

def scalegirl(samples):

'''

:param samples：代表每次采样的数组

:return：统计抽样结果中：⼥性/男性⽐例值

'''

count = 0.0 # 0代表⼥性

total = samples.size

for sex in samples:

if (sex == 0):

count += 1.0

return count / (total - count)

# 构建boy样本与girl样本

boy = (np.ones(1000)) # 长度为1000的数组

girl = (np.zeros(800))

# 合并为总样本

all = np.hstack((boy, girl)) # ⽔平按列堆叠数组，将代表boy和girl的数组合并到⼀起

print("总样本个数为{}".format(len(all)))

print("样本男⼥⽐例为{}".format(len(girl)/len(boy)))

scale = 0.0

iter = 10000 # 重复采样10000次

for i in range(iter):

bootstrapSamples = resample(all, n_samples=100, replace=1) # n_samples要⽣成的样本数，每次采样100⼈，返回长度为100的数组 tempscale = scalegirl(bootstrapSamples) # 调⽤函数，返回每次采样的⼥性/男性⽐例值

scale += tempscale

print("使⽤bootstrap采样估计的男⼥⽐列为{}".format(scale / iter)) # 计算10000次的平均⼥/男

688IT编程网

利用Python实现Bootstrap采样

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

利用Python实现Bootstrap采样

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式