R语言与抽样技术学习笔记(bootstrap)--688IT编程网

R语⾔与抽样技术学习笔记（bootstrap）

R语⾔与抽样技术学习笔记（Randomize，Jackknife，bootstrap）

Bootstrap⽅法

Bootstrap⼀词来源于西⽅神话故事“The adventures of Baron Munchausen”归结出的短语“to pull oneself up by one's bootstrap"，意味着不靠外界⼒量，依靠⾃⾝提升性能。

Bootstrap的基本思想是：因为观测样本包含了潜在样本的全部的信息，那么我们不妨就把这个样本看做“总体”。那么相关的统计⼯作（估计或者检验）的统计量的分布可以从“总体”中利⽤Monte Carlo模拟得到。其做法可以简单地概括为：既然样本是抽出来的，那我何不从样本中再抽样。bootstrap检验方法

bootstrap基本⽅法

1、采⽤重抽样技术从原始样本中抽取⼀定数量（⾃⼰给定）的样本，此过程允许重复抽样。

2、根据抽出的样本计算给定的统计量T。

3、重复上述N次（⼀般⼤于1000），得到N个统计量T。其均值可以视作统计量T的估计。

4、计算上述N个统计量T的样本⽅差，得到统计量的⽅差。

上述的估计我们可以看成是Bootstrap的⾮参数估计形式，它基本的思想是⽤频率分布直⽅图来估计概率分布。当然Bootstrap也有参数形式，在已知分布下，我们可以先利⽤总体样本估计出对应参数，再利⽤估计出的分布做Monte Carlo模拟，得到统计量分布的推断。值得⼀提的是，参数化的Bootstrap⽅法虽然不够稳健，但是对于不平滑的函数，参数⽅法往往要⽐⾮参数办法好，当然这是基于你对样本的分布有⼀个初步了解的基础上的。

例如：我们要考虑均匀分布$ U(\theta) $的参数$ \theta $的估计。我们采⽤似然估计。

data.sim <- runif(10)

theta.hat <- max(data.sim)

theta.boot1 <- replicate(1000, expr = {

y <- sample(data.sim, size = 10, replace = TRUE)

max(y)

})

theta.boot1.estimate <- mean(theta.boot1)

cat("the original estimate is ", theta.hat, "after bootstrap is ", theta.boot1.estimate)

## the original estimate is 0.7398 after bootstrap is 0.7138

hist(theta.boot1)

从结果来看，倒不是说估计有多不好，只是说⽅差⽐较⼤，⽽且它的经验分布真的不太像真正的分布，这个近似很糟糕，导致的直接结果是⽅差也很⼤。

如果采⽤参数⽅法，我们再来看看：

theta.boot2 <- replicate(1000, expr = {

y <- runif(1000, 0, theta.hat)

max(y)

})

theta.boot2.estimate <- mean(theta.boot2)

cat("the original estimate is ", theta.hat, "after bootstrap is ", theta.boot2.estimate)

## the original estimate is 0.7398 after bootstrap is 0.7391

hist(theta.boot2)

结果从直⽅图来看是更优秀了，估计也更好⼀些，关键是⽅差变⼩了，从⾮参数的0.0402减少到了7.3944 × 10-4。bootstrap推断与bootstrap置信区间

既然我们已经得到了Bootstrap估计量的经验分布函数，那么⼀个⾃然的结果就是我们可以利⽤这个分布对统计量做出⼀些统计推断。例如可以推测估计量的⽅差，估计量的偏差，估计量的置信区间等。

现在，我们就来考虑如何做Bootstrap的统计推断。

利⽤Bootstrap估计偏差

既然Bootstrap将获得的样本样本看成了”总体“，那么估计量T⾃然是⼀个⽆偏的估计，Bootstrap数据集构造的”样本“的统计量T 与原始估计量T的偏差⾃然就是估计量偏差的⼀个很好的估计。

具体做法是：

1. 从原始样本$ x_{1},\cdots,x_{n} $中有放回的抽取n个样本构成⼀个Bootstrap数据集，重复这个过程m次，得到m个数据集。

2. 对于每个Bootstrap数据集，计算估计量T的值，记为$ T^{*j} $。

3. $ T^{*j} $的均值是T的⽆偏估计，⽽其与T的差是偏差的估计。

利⽤Bootstrap估计⽅差

估计量T的⽅差的估计可以看做每个Bootstrap数据集的统计量T的值的⽅差。

以我们遗留的问题，求1到100中随机抽取10个数的中位数的⽅差为例来说明。

n <- 10

x <- sample(1:100, size = n)

Mboot <- replicate(1000, expr = {

y <- sample(x, size = n, replace = TRUE)

median(y)

})

print(var(Mboot))

## [1] 334.2

这个应该是⼀个正确的估计了。Efron指出要得到标准差的估计并不需要⾮常多的Bootstrap数据集（m不需要过分的⼤），通常50已经不错了，m>200是⽐较少见的（区间估计可能需要多⼀些）

在R中，bootstrap包的函数bootstrap可以帮助你完成这⼀过程。bootstrap函数的调⽤格式如下：

bootstrap(x,nboot,theta,…, func=NULL)

参数说明：

x：原始抽样数据

theta：统计量T

nboot：构造Bootstrap数据集个数

library(bootstrap)

theta <- function(x) {

median(x)

}

results <- bootstrap(x, 100, theta)

print(var(results$thetastar))

## [1] 393.2

可以看到两个的结果是相近的，所以，利⽤这个函数还是不错的选择。类似的还有boot包的boot函数。我们在相关数据的Bootstrap 推断中会⽤到。

688IT编程网

R语言与抽样技术学习笔记(bootstrap)

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

R语言与抽样技术学习笔记(bootstrap)

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式