Bootstrap 方法介绍
Boostrap方法是一种通过重抽样技术进行统计学推断的方法。它可以分为参数的Bootstrap和非参数的Bootstrap。参数的Bootstrap适用于已知资料服从某总体分布或已知资料符合某个模型,然后借助Bootstrap方法对总体参数或模型参数进行统计推断;非参数的Bootstrap对资料没有特殊要求,但要求Bootstrap进行参数估计的统计量近似正态分布。以下将介绍这两种Boostrap方法。
参数的Bootstrap是指利用样本资料对某个概率模型或回归模型进行拟合,得到该模型的一组参数估计值,然后利用该模型进行反复随机模拟产生n个样本资料,每个样本的样本量与原样本相同,由随机模拟产生的样本称为Boostrap样本。通过对每个Bootstrap样本拟合模型,得到相应的参数估计值,因此对于n个Bootstrap样本就有n组模型参数的估计值,然后视n组模型参数估计值为新的数据,计算其95%的参考范围作为这些参数的95%可信区间,其中Bootstrap的样本个数n要足够大,使这些参数的95%范围的上下限的随机误差波动控制在容许接受的范围内,理论上称为收敛。
非参数的Bootstrap是借助经验分布理论,直接在样本中进行有放回的抽样,即:对于n个对象的观察资料,Bootstrap抽样时,每抽取一个对象的资料都从这n个对象中独立地随机抽取并且机会均等,抽样的样本量一般与原样本的样本量相同(可以低于原样本的样本量,但一般不能高于原样本的样本量),每次Bootstrap抽取的样本均成为Bootstrap样本。根据研究目的,对每个Bootstrap样本计算某个评价指标的样
本值,对于n个Bootstrap样本就有n个评价指标的样本值,然后对n个评价指标的样本值计算其95%的参考值范围作为这个总体评价指标的95%可信区间,Bootstrap的样本个数n要足够大,使这些参数的95%范围的上下限的随机误差波动控制在容许接受的范围内。
由于参数的Bootstrap需要知道资料符合某个模型以及需要估计模型的参数等,在实际应用中的价值不太大,所以大多数情况下都是应用非参数的Bootstrap进行统计推断。为了帮助初学者能较快地掌握Bootstrap方法,本文将通过一个实例介绍具体如何实现Bootstrap 的方法。
实例1
在药物溶解研究的分析中,常常需要通过建立回归方程,然后利用回归方程求解最大溶解能力的条件的参数估计值,但这些最大溶解能力的参数估计值存在抽样误差,需要计算95%可信区间,通常可以采用Hansen方法进行计算,但Hansen方法非常复杂,故本文介绍用Bootstrap方法解决最大溶解能力参数的95%可信区间计算问题。
某药理学在研究药物在26 种溶剂的溶解能力中,通过实验得到下列实验数据,试作药物的溶解参数的点值估计和区间估计,实验原始数据如表1。
表1  药物溶解参数的实验数据
序号药物溶解能力
药物在溶剂中
的弥散程度
溶剂分子的
极性
药物与溶剂中
的氢健结合力Y X1 X2 X3
1 0.22
2 7.
3 0.0 0.0
2 0.395 8.7 0.0 0.3
3 0.422 8.8 0.7    1.0
4 0.437 8.1    4.0 0.2
5 0.428 9.0 0.5    1.0
6 0.46
7 8.7    1.5    2.
8 7 0.444 8.3    2.1    1.0 8 0.378 7.6    5.1    3.4
9 0.494 10.0 0.0 0.3 10 0.456 8.4    3.7    4.1 11 0.452 9.3    3.6    2.0 12 0.112 7.7    2.8 7.1 13 0.432 9.8    4.2    2.0 14 0.101 7.3    2.5    6.8 15 0.232 8.5    2.0    6.6 16 0.306 9.5    2.5    5.0 17 0.0923 7.4    2.8 7.8 18 0.116 7.8    2.8 7.7 19 0.0764 7.7    3.0 8.0 20 0.439 10.3    1.7    4.2 21 0.0944 7.8    3.3 8.5 22 0.117 7.1    3.9    6.6 23 0.0726 7.7    4.3 9.5 24 0.0412 7.4    6.0 10.9 25 0.251 7.3    2.0    5.2 26
0.0000176
7.6
7.8
20.7
分子溶解能力的参数估计方法
为了保证分析数据服从正态分布,需对药物溶解能力Y 值先进行负对数转换
1ln()y y =-,根据分子溶解能力Y1的背景理论可知:分子溶解能力y 1近似满足下列回归模
型:
222
1011223341523y x x x x x x βββββββε=+++++++            (1)
其中随机变异ε服从均数为0方差为2
σ的正态分布2(0,)N σ。对应的总体回归方程为
1
222011223341523y x x x x x x μβββββββ=++++++                (2)
用最小二乘方法可以得到0123456,,,,,,βββββββ的估计值。当药物分子溶解的平均能力1
y μ达到最大值时,药剂中的弥散程度1x 的取值称为最佳药剂中弥散程度,溶剂分子的极
性2x 的取值称为最佳溶剂分子极性状况,药物与溶剂中的氢健结合力3x 的取值称为最佳药物与溶剂中的氢健结合力点,并用A 、B 、C 表示分别表示这三个最大溶解能力的参数,根据极值理论可知,通过对总体均数1y μ的求12,x x 和3x 的偏导数并令偏导数等于0,解出上
述三个参数的表达式如下:
药剂中的弥散程度的极值点 14/(2)A ββ=-              (3) 溶剂分子的极性的极值点25/(2)B ββ=-                  (4) 药物与溶剂中的氢健结合力极值点36/(2)C ββ=-          (5)
并由上述表达式得到,A B 和C 三个参数的点估计。但存在抽样误差,需要计算上述三个参数的95%可信区间。本文将介绍用Bootstrap 的方法实现95%可信区间的计算。
基本思想:对样本有放回地进行随机抽样(称为Bootstrap 抽样),抽到的样本称为Bootstrap 样本,对每个Bootstrap 样本拟合回归方程式(2),得到回归系数后用式(3),式(4)和式(5)求出参数A,B ,
C 。重复进行Bootstrap 抽样500次,因此可以分别得到500个A 点估计,B 点估计和C 点估计,这些参数估计值构成了一个新的参数估计值的样本,如果参数估计值的资料服从正态分布,则用其均数±1.96标准差作为参数的95%可信区间,反之用  2.597.5~P P 作为参数的95%可信区间。由于计算量较大,所以借助Stata 软件实现Bootstrap 的计算,具体步骤如下:
一、建立Stata 软件的数据集,其数据格式如下
二、产生变量222
123,,x x x 和Y 的对数变换1ln()y Y =,具体操作如下
gen  xx1=x1*x1 gen  xx2=x2*x2 gen  xx3=x3*x3 gen  y1=ln(y)
三、用Bootstrap 命令实现Bootstrap 计算方法
bs  "reg  y1  x1  x2  x3  xx1  xx2  xx3" (-_b[x1]/_b[xx1]/2) (-_b[x2]/_b[xx1]/2) (-_b[x3]/_b[xx3]/2) , reps(500)
由于B 的点估计小于0,低于样本中2x 的取值范围,所以将模型改为
1
22
0112233413y x x x x x μββββββ=+++++                (6)
继续用Bootstrap 命令(其中2B β=):
bs  "reg  y1  x1  x2  x3  xx1 xx3" (-_b[x1]/_b[xx1]/2) (-_b[x2]) (-_b[x3]/_b[xx3]/2) , reps(500)
得到下列结果
由于参数2B β=,其95%可信区间包含0,所以差异无统计学意义,故将2x 从模型中剔除,用下列模型:
1
22
0112233413y x x x x x μββββββ=+++++                (6)
bootstrap 5继续用Bootstrap 命令:
bs  "reg  y1  x1    x3  xx1 xx3" (-_b[x1]/_b[xx1]/2)  (-_b[x3]/_b[xx3]/2) , reps(500)
得到下列结果

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。